O recurso aqui apresentado resulta de um estudo na área do Processamento de Língua Natural, cujo principal objectivo consistia no desenvolvimento de uma taxonomia semântica para classificação de Unidades Lexicais Multipalavra (ULM) nominais, em Português Europeu (PE). Apesar de serem constituídas por palavras simples, as ULM não apresentam um significado composicional e têm restrições morfossintácticas. Estas unidades têm um peso considerável no conteúdo informativo de qualquer tipo de texto, sendo, por conseguinte, a sua identificação e classificação fundamentais para a extracção e recuperação de informação em Processamento de Língua Natural. Neste contexto, adaptou-se e aplicou-se uma taxonomia semântica, baseada no léxico semântico de Lancaster[1], a uma lista de ULM extraída do CETEMPúblico[2].

          A extracção automática de ULM do CETEMPúblico foi realizada com recurso ao sistema Unitex[3]. A lista assim obtida foi, em seguida, tratada manualmente, para excluir ULM não nominais, entidades mencionadas e palavras repetidas, sendo a lista final composta por 5068 ULM nominais.

          Assim, este recurso inclui duas listas: (i) Lista de ULM Nominais em PE; e (ii) Lista de ULM Nominais em PE Classificadas Semanticamente.

         A primeira lista apresenta as ULM nominais e, a segunda, as ULM nominais classificadas semanticamente. A lista classificada resulta da aplicação da taxonomia semântica adaptada a partir do léxico semântico de Lancaster à lista de ULM nominais.


Lista de ULM Nominais em PE

Lista de ULM Nominais em PE Classificadas Semanticamente

Proposta de Classificação Semântica de ULM Nominais para Português Europeu

 

Equipa:

Aida Cardoso

Silvana Abalada

Vera Cabarrão

 

Poster:

Abalada, Silvana, Vera Cabarrão & Aida Cardoso: "Proposta de Classificação Semântica de Unidades Lexicais Multipalavra Nominais". Poster seleccionado para apresentação no XXV Encontro Nacional da Associação Portuguesa de Linguística, Lisboa, 22 a 24 de Outubro de 2009.

Publicação:

Abalada, Silvana, Vera Cabarrão & Aida Cardoso (2010): "Proposta de Classificação Semântica de Unidades Lexicais Multipalavra Nominais". In Ana Maria Brito, Fátima Silva, João Veloso & Alexandra Fiéis (orgs.): Textos Seleccionados do XXV Encontro Nacional da Associação Portuguesa de Linguística 2009. Porto: Edições Colibri/APL. [PDF]


[1] Piao, Scott et alii (2005) "A Large Semantic Lexicon for Corpus Annotation". In Proceedings from The Corpus Linguistics Conference Series, Corpus Linguistics 2005. Birmingham.
[2]
http://www.linguateca.pt/cetempublico/.
[3]
http://www-igm.univ-mlv.fr/~unitex/.