Recursos Linguísticos para o Português: um corpus e instrumentos para a sua consulta e análise

Concluído
Data
Referencia
Programa Lusitânia PLUS/1999/LIN/15152
Instituição financiadora
Fundação Calouste Gulbenkian
Instituto Camões
FCT – Fundação para a Ciência e a Tecnologia

Descrição do Projecto:

Este projecto resultou na disponibilização de um corpus equilibrado de português europeu, falado e escrito, para consultas on-line na página do CLUL. O projecto também inclui a anotação morfossintáctica de um subcorpus de 500 000 palavras, financiada pela Fundação Calouste Gulbenkian.O projecto tinha como objectivo responder aos crescentes pedidos de recursos linguísticos para o português para trabalhos teóricos e práticos, no âmbito da linguística computacional, do ensino da língua e da lexicografia, entre outras áreas.O corpus é composto por 9 milhões de palavras, seleccionadas do Corpus de Referência do Português Contemporâneo (CRPC), corpus desenvolvido no CLUL com mais de 200 milhões de palavras. Os textos escritos foram extraídos de livros, jornais e revistas, e ainda de panfletos, brochuras, documentos oficiais, etc., cobrindo vários géneros (literário, informativo, científico, técnico e didáctico) numa grande diversidade temática.

 

Constituição do corpus:

O corpus final é constituído por 9 171 480 palavras, distribuídas da seguinte forma: 

Fontes do corpus: As amostragens que constituem o corpus são provenientes das seguintes fontes:- Corpus oral:
Conversas informais recolhidas para o projecto Português Fundamental, transcritas e publicadas na obra:
Bacelar do Nascimento, M. F. et al. Português Fundamental, vol. II - Métodos e Documentos, tomo 1 - Inquérito de Frequência, Lisboa, INIC, CLUL, 1987;- Corpus escrito:Livro literário - 70 títulos de 53 Autores da Literatura Portuguesa dos séculos XIX e XX;
Livro técnico - 39 títulos de 38 Autores, publicados no final do século XX e no século XXI;
Jornal - vários números do ano de 2000 dos seguintes jornais: "A BOLA", "Diário de Notícias", "Expresso", "Jornal de Notícias" e "PÚBLICO";
Revista - números 83 a 95 da "Revista do Instituto do Consumidor", dos anos 1999 e 2000;
Varia - artigos vários da "Enciclopédia Verbo", de Actas de reuniões científicas, de páginas da internet, de entrevistas publicadas no jornal "O Primeiro de Janeiro", de folhas de apontamentos para alunos universitários, de relatórios finais de estágio para licenciatura, de recensão crítica, etc.

Direitos de autor: Foram desenvolvidas negociações com os autores portugueses de obras literárias representadas no corpus, em associação com a Sociedade Portuguesa de Autores (SPA), para obter as autorizações necessárias para utilização dos respectivos textos para pesquisas de concordâncias.

Anotação morfossintáctica:

Um subcorpus de 500 000 palavras foi anotado morfossintacticamente e revisto manualmente. Os textos foram automaticamente anotados utilizando uma versão adaptada do etiquetador de Eric Brill, sendo que uma parte do corpus foi revista manualmente para resolução de ambiguidade e de erros. Esta parte, revista manualmente, foi usada como corpus de treino para a anotação da totalidade do conjunto das 500 000 palavras.O corpus anotado também estará disponível para consultas on-line na página do CLUL.

 

 Corpus oral transcrito constituído por conversas informais:

105964

 

ORAL_RL

 

105964

Corpus escrito constituído por:

   

jornal_RL

4097868

 

livrolit_RL

1792590

 

livrotec_RL

1440625

 

revista_RL

420792

 

varia_RL

812599

 

jornal_anotado_RL

336151

 

livro_anotado_RL

125434

 

revista_anotado_RL

25908

 

varia_anotado_RL

13549

 

subcorpus_anotado_RL

 

501042

ESCRITO_RL

 

9065516

TOTAL_RL

 

9171480

 

Mendes, A., Amaro, R., & Bacelar do Nascimento, M. F. (2003). Reusing resources for the morphosyntactic annotation of a spoken Portuguese corpus. In A. Branco, Mendes, A., & Ribeiro, R. (Eds.), Tagging and Shallow Processing of Portuguese: workshop notes of TASHA 2003. Lisboa: Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa.
Parcerias
CLUL - Centro de Linguística da Universidade de Lisboa
SPA - Sociedade Portuguesa de Autores