LE-PAROLE

Concluído
IR do Projeto
João Malaca Casteleiro

Resumo:

Projecto de reutilização de recursos linguísticos e informáticos disponíveis nos países europeus para a construção de corpora e léxicos segundo modelos integrados de constituição e descrição de materiais, em que se usam ferramentas comuns, o que permite facilitar as ligações multilingues e dar resposta a um grande número de aplicações. Foram constituídos corpora de 20 milhões de palavras, para cada língua, harmonizados no que respeita ao seu desenho, composição e codificação, incluindo 250 000 palavras anotadas morfossintacticamente. O léxico de cada língua contém 20 000 entradas acompanhadas de informação morfossintáctica e sintáctica.

Destes materiais estão disponíveis, para venda, no catálogo ELDA:

  • um corpus de 3 milhões de palavras composto por jornais (65%), livros (20%), revistas (5%) e miscelânea (10%); este corpus inclui um subcorpus de 250 mil palavras (aproximadamente com a mesma distribuição do corpus de 3 milhões de palavras) anotadas morfossintacticamente segundo os critérios standard do projecto PAROLE.
  • Um léxico de 20 mil entradas morfossintáctica e sintacticamente anotadas.
Parcerias
Consorzio Pisa Richerche
CLUL - Centro de Linguística da Universidade de Lisboa
Det Danske Sprog- og Litteraturselskab
Fundación Bosh Gimpera Universitat de Barcelona
Goteborgs Universitet - Institutionen for Svenska Spraket
ERLI SA
Institiuid Teangeolaiochta Eireann
Institut d'Estudis Catalans
Institut fur Deutsche Sprache
Institute for Language and Speech Processing
Instituut voor Nederlandse Lexicologie
University of Birmingham
University of Helsinki
Université de Liège
INESC - Instituto de Engenharia de Sistemas e Computadores