Português Falado - Variedades Geográficas e Sociais

Concluído
Data
-
Referencia
DGXXII, Programme LINGUA/SOCRATES
Instituição financiadora
Comissão Europeia
IR do Projeto
João Malaca Casteleiro

Uma nova versão do corpus está disponível gratuitamente no Catálogo da ELRA. Esta nova versão inclui os ficheiros de áudio em formato WAV, as transcrições ortográficas alinhadas com o som através do software EXMARaLDA, em formato XML, e as transcrições ortográficas simples em formato TXT e HTML. Os ficheiros TXT contêm, ainda, anotação morfossintáctica automática.
A este recurso foi atribuído o ISLRN (International Standard Language Resource Number) 969-074-010-182-2.
Para mais informação, pode consultar a página www.islrn.org.

 

Resumo:

O projecto foi concluído e os materiais estão publicados em CD-ROM, com o apoio editorial exclusivo do Instituto Camões, sob o título Português Falado - Documentos Autênticos: Gravações áudio com transcrição alinhada. Os CD's são distribuídos pelo Instituto Camões para o estrangeiro e pelo CLUL para Portugal.
Do projecto original resultou um corpus de amostragens de variedades do português falado em Portugal, no Brasil, nos países africanos de língua oficial portuguesa e em Macau. Os materiais publicados contêm ainda amostragens do português falado em Goa e em Timor-Leste, recolhidas posteriormente. Estas amostragens de discurso oral, gravadas em lugares, datas e situações diversificadas, são acompanhadas das correspondentes transcrições ortográficas alinhadas.

Conteúdo dos CD-ROM

Os quatro CD-ROM publicados contêm um corpus de português falado - som e transcrição ortográfica alinhados - recolhido junto de falantes sociolinguisticamente diversificados que têm o português como língua materna ou como língua segunda. O corpus é constituído por 86 gravações, quer de conversas informais entre pessoas conhecidas ou entre amigos e familiares quer de intervenções mais formais como, por exemplo, as de programas radiofónicos. São textos exemplificativos do português falado em Portugal (30), no Brasil (20), nos países africanos de língua oficial portuguesa: Angola, Cabo Verde, Guiné-Bissau, Moçambique e São Tomé e Príncipe (5 de cada), em Macau (5), em Goa (3) e em Timor-Leste (3) e correspondem a 8h e 44m de gravação e a 91.966 palavras gráficas. As gravações abrangem um período de tempo que vai de 1970 a 2001, com uma incidência de cerca de 70% na última década.

Estes exemplos de variedades do português estão distribuídos pelos quatro CD-ROM da seguinte forma:

  1. - Portugal (gravações da década de 90);
  2. - Portugal (gravações das décadas de 70 e 80), Macau, São Tomé e Príncipe
    e Timor-Leste;
  3. - Angola, Cabo Verde, Guiné-Bissau e Moçambique;
  4. - Brasil e Goa.

Intervêm nas gravações 94 falantes; a caracterização de cada um deles (naturalidade, sexo, idade, profissão, nível de instrução) consta do cabeçalho que antecede as transcrições, no qual se registam também dados e observações sobre o local, a data e a situação em que ocorreu a gravação ou outras informações relevantes.

Objectivos da publicação

É conhecida a escassez de documentos orais autênticos para apoio ao ensino do português; em sua substituição usam-se, muitas vezes, textos escritos com os quais se pretende, evidentemente sem êxito, simular a oralidade espontânea. De facto, estas representações artificiais não contribuem para melhorar o conhecimento da língua falada, pelo que, no intuito de colmatar esta lacuna, se publicam, em CD-ROM, textos autênticos recolhidos em situações de comunicação reais e em que participam falantes muito diversificados. São, pois, todos eles, exemplos de variedades e de usos atestados do português falado.
A transcrição ortográfica dos textos orais pode ser lida em simultâneo com a audição da gravação: uma faixa luminosa vai acompanhando, sobre o texto escrito, a voz dos falantes. O utilizador pode ouvir todo o documento ou seleccionar excertos e pode também avançar ou retroceder no texto sempre que o desejar.
A transcrição ortográfica, para além de facilitar a compreensão do oral, constitui uma base consistente para o estudo dos aspectos morfofonológicos, lexicais, sintácticos e discursivos do português falado contemporâneo.
A produção dos CD-ROM teve como objectivo principal contribuir para desenvolver a capacidade de compreensão (e também de produção) em estudantes de Português - Língua Estrangeira de níveis avançado ou superior. A forma como os materiais são apresentados favorece grandemente a utilização de processos de auto-aprendizagem.
Importa ainda mencionar que esta colecção de textos, não tendo sido organizada em função de um determinado perfil de utilizador, interessará não só a estudantes e professores mas também, entre outros, a investigadores, tradutores e intérpretes, que podem seleccionar e analisar os materiais de acordo com os seus objectivos particulares.

Parcerias
CLUL - Centro de Linguística da Universidade de Lisboa
Universidade de Toulouse-le-Mirail
Universidade de Provença-Aix-Marselha