Recursos Linguísticos para o Estudo das Variedades Africanas do Português

Concluído
Data

Descrição do projecto:
Dada a extrema desigualdade que se verifica no que respeita a Recursos Linguísticos e à publicação de estudos entre, por um lado, as variedades europeia e brasileira do português e, por outro lado, as variedades africanas, este projecto tem como principal objectivo preencher essa lacuna, fornecendo Recursos Linguísticos que possibilitem uma descrição objectiva das 5 variedades africanas do português.
O projecto consiste na constituição, tratamento, análise e disponibilização (consultas via internet) de um corpus de variedades africanas do português, com 3 milhões de palavras do discurso escrito e oral, constituído por 5 subcorpora comparáveis de 600 mil palavras cada um, correspondentes às variedades de Angola, Cabo Verde, Guiné, Moçambique e São Tomé e Príncipe.
Com a disponibilização de materiais extraídos deste corpus pretende-se tornar facilmente acessíveis a professores, estudantes, investigadores e autores de materiais (gramáticas, dicionários, manuais) dados autênticos, devidamente organizados que possibilitem, pela primeira vez, a realização de estudos descritivos empíricos sobre cada uma das variedades do português acima mencionadas.
Os materiais a disponibilizar propiciam também estudos comparativos intra e inter corpora (de todas as variedades do Português) que tornem patentes quer variações resultantes de diferenças de carácter discursivo e pragmático no interior de cada corpus quer aspectos de identidade e de diversidade linguística que caracterizem o português falado nos 5 países africanos de língua oficial portuguesa. Os 5 corpora serão comparáveis em dimensão (580 mil de palavras cada um), cronologia (últimos 30 anos), em modos e géneros de discurso (24.000 palavras de oral e c. 580.000 de escrito, sendo este último constituído por textos jornalísticos, literários e uma varia).
Serão reutilizados alguns materiais do Corpus de Referência do Português Contemporâneo, incluindo parte dos textos orais publicados conjuntamente pelo Instituto Camões e pelo Centro de Linguística da Universidade de Lisboa (Bacelar do Nascimento (coord.) Português Falado, Documentos Autênticos, Gravações audio com transcrições alinhadas, em CD-ROM).
Os restantes materiais serão recolhidos tendo em vista assegurar o equilíbrio interno de cada corpus e a comparabilidade entre eles.
Serão disponibilizados, on-line, os seguintes materiais:

  • 1. Concordâncias em formato KWIC de todas as palavras do corpus, organizadas por subcorpora e por tipo de discurso.
  • 2. Índices contrastivos dos vocábulos (lemas / lemas e formas A-D, E-I , J-P, Q-Z) que ocorrem na totalidade do corpus com dados de Frequência e repartição por subcorpora e por género de discurso.
  • 3. Índices dos vocábulos (lemas e formas) que ocorreram em cada subcorpus (Angola, Cabo Verde, Guiné-Bissau, Moçambique e São Tomé e Príncipe) com dados de frequência e repartição por género de discurso.
  • 4. Descrição comparativa do vocabulário dos vários subcorpora resultantes de análises quantitativas e estatísticas.
Outras publicações

Bacelar do Nascimento, M. F., Pereira, L. A. S., Estrela, A., Bettencourt Gonçalves, J., Oliveira, S. M. and Santos, R. (2006). The African Varieties of Portuguese: Compiling Comparable Corpora and Analysing Data-derived Lexicon. In Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC2006), pages 1791-1794, Genoa, Italy. ELRA. 

Parcerias
CLUL - Centro de Linguística da Universidade de Lisboa
CFTC - Centro de Física Teórica e Computacional da Universidade de Lisboa