Início Equipa Descrição do Projecto Corpus Publicações Manuais do Corpus

 

Descrição do Projecto :

O projecto Corpus Dialectal para o Estudo da Sintaxe (CORDIAL-SIN) visa estudar a variação sintáctica dialectal do português europeu, numa perspectiva de Princípios e Parâmetros, usando uma metodologia de constituição/exploração de um corpus anotado. O projecto rentabiliza recursos existentes (colecções de registos sonoros) e tem impulsionado a pesquisa em sintaxe dialectal comparada, uma área de investigação de desenvolvimento recente. A actual extensão do CORDIAL-SIN é de 600.000 palavras.

O Grupo de Dialectologia do Centro de Linguística da Universidade de Lisboa (CLUL) constituiu durante os últimos trinta anos um rico arquivo sonoro contendo cerca de 4.500 horas de gravações, obtidas em mais de 200 localidades do território português. O CORDIAL-SIN integra um conjunto geograficamente representativo de excertos de discurso livre e semi-dirigido seleccionados a partir das gravações efectuadas no âmbito dos seguintes projectos:

  • ALEPG Atlas Linguístico e Etnográfico de Portugal e da Galiza
  • ALLP Atlas Linguístico do Litoral Português
  • ALEAç Atlas Linguístico e Etnográfico dos Açores
  • BA Fronteira Dialectal do Barlavento Algarvio
    [Luisa Segura da Cruz. 1987. A Fronteira Dialectal do Barlavento do Algarve. Dissertação para as Provas de Acesso à categoria de Investigador Auxiliar. Lisboa: Instituto Nacional de Investigação Científica.]

O CORDIAL-SIN apresenta-se ao utilizador em quatro formatos: transcrição conservadora; transcrição ortográfica normalizada; texto com anotação morfossintáctica (anotação por palavra); texto com anotação sintáctica (anotação por frase).

A transcrição conservadora contém informação sobre aspectos da produção (captados pela fonte sonora) tais como pausas, sobreposições de produção, hesitações, abandono de fragmentos frásicos, reformulações, repetições, formas truncadas, variantes fonéticas e morfofonológicas, etc. (vd. Normas de Transcrição). Esta versão da transcrição interessa a estudos centrados na observação de estratégias de interacção discursiva típicas da oralidade. A versão normalizada da transcrição obtém-se através da extracção automática dos códigos que identificam marcas de oralidade e constitui o suporte da anotação. Esta versão inclui apenas transcrição ortográfica, após a eliminação das marcas de pausa (silenciosa ou preenchida), bem como das sequências de transcrição fonética identificadoras de variantes fonéticas e morfofonológicas. Além disso, não retém repetições e fragmentos frásicos abandonados como resultado de processos de reformulação, adiamento da produção e hesitação, embora assinale os lugares de elisão dos mesmos. A transcrição normalizada inclui frases completas ou fragmentos frásicos – em geral frases inacabadas – sintacticamente analisáveis e anotáveis.

A anotação morfossintáctica do corpus é automaticamente implementada, decorrendo de uma adaptação (revisão/ampliação) do sistema desenvolvido pela equipa do projecto Tycho Brahe. O sistema de anotação morfossintáctica combina etiquetas categoriais com subetiquetas, maioritariamente flexionais, permitindo uma anotação bastante fina das unidades lexicais do corpus. A proximidade entre os sistemas de anotação morfossintáctica do CORDIAL-SIN e do projecto Tycho Brahe permite a utilização do etiquetador automático, de base probabilística, desenvolvido por Marcelo Finger (e melhorado por Fabio Natanael Kepler e Marcelo Finger) no âmbito do Tycho Brahe (vd. Manual de Anotação Morfossintáctica).

O sistema de anotação sintáctica segue as orientações definidas pelo Penn-Helsinki Parsed Corpus of Middle English. A anotação sintáctica opera sobre dados etiquetados morfossintacticamente; marca fronteiras de constituintes, dependências sintagmáticas e oracionais, tipos de frases, relações gramaticais e certas relações transformacionais. A anotação sintáctica define configurações que podem ser pesquisadas sistemática e exaustivamente, compatíveis com o programa CorpusSearch2, da autoria de Beth Randall (open source software, Sourceforge).