CORDIAL-SIN - Corpus Dialectal para o Estudo da Sintaxe

O projecto Corpus Dialectal para o Estudo da Sintaxe (CORDIAL-SIN) investiga a variação sintáctica dialectal do português europeu, usando uma metodologia de constituição/exploração de um corpus anotado.
Objectivos:
- Estudar a sintaxe dos dialectos do português europeu no âmbito da sintaxe comparada.
- Desenvolver e impulsionar, em Portugal, a investigação em sintaxe dialectal e reforçar a cooperação com projectos internacionais de sintaxe dialectal (nomeadamente pela participação nas redes Edisyn - European Dialect Syntax e Wedisyn - Dialect Syntax in Westmost Europe).
- Construir, disponibilizar online e melhorar progressiva e regularmente o Corpus Dialectal para o Estudo da Sintaxe (CORDIAL-SIN). Este corpus permite satisfazer os objectivos 1. e 2., acima.
- Explorar recursos existentes de modo a torná-los acessíveis à comunidade científica. Os dados para a constituição do Corpus Dialectal para o Estudo da Sintaxe provêm da rica colecção de gravações de fala do CLUL, reunida no âmbito de diversos projectos de geografia linguística.
Descrição do Projecto :
O projecto Corpus Dialectal para o Estudo da Sintaxe (CORDIAL-SIN) visa estudar a variação sintáctica dialectal do português europeu, numa perspectiva de Princípios e Parâmetros, usando uma metodologia de constituição/exploração de um corpus anotado. O projecto rentabiliza recursos existentes (colecções de registos sonoros) e tem impulsionado a pesquisa em sintaxe dialectal comparada, uma área de investigação de desenvolvimento recente. A actual extensão do CORDIAL-SIN é de 600.000 palavras.
O Grupo de Dialectologia do Centro de Linguística da Universidade de Lisboa (CLUL) constituiu durante os últimos trinta anos um rico arquivo sonoro contendo cerca de 4.500 horas de gravações, obtidas em mais de 200 localidades do território português. O CORDIAL-SIN integra um conjunto geograficamente representativo de excertos de discurso livre e semi-dirigido seleccionados a partir das gravações efectuadas no âmbito dos seguintes projectos:
- ALEPG Atlas Linguístico e Etnográfico de Portugal e da Galiza
- ALLP Atlas Linguístico do Litoral Português
- ALEAç Atlas Linguístico e Etnográfico dos Açores
- BA Fronteira Dialectal do Barlavento Algarvio
[Luisa Segura da Cruz. 1987. A Fronteira Dialectal do Barlavento do Algarve. Dissertação para as Provas de Acesso à categoria de Investigador Auxiliar. Lisboa: Instituto Nacional de Investigação Científica.]
O CORDIAL-SIN apresenta-se ao utilizador em quatro formatos: transcrição conservadora; transcrição ortográfica normalizada; texto com anotação morfossintáctica (anotação por palavra); texto com anotação sintáctica (anotação por frase).
A transcrição conservadora contém informação sobre aspectos da produção (captados pela fonte sonora) tais como pausas, sobreposições de produção, hesitações, abandono de fragmentos frásicos, reformulações, repetições, formas truncadas, variantes fonéticas e morfofonológicas, etc. (vd. Normas de Transcrição). Esta versão da transcrição interessa a estudos centrados na observação de estratégias de interacção discursiva típicas da oralidade. A versão normalizada da transcrição obtém-se através da extracção automática dos códigos que identificam marcas de oralidade e constitui o suporte da anotação. Esta versão inclui apenas transcrição ortográfica, após a eliminação das marcas de pausa (silenciosa ou preenchida), bem como das sequências de transcrição fonética identificadoras de variantes fonéticas e morfofonológicas. Além disso, não retém repetições e fragmentos frásicos abandonados como resultado de processos de reformulação, adiamento da produção e hesitação, embora assinale os lugares de elisão dos mesmos. A transcrição normalizada inclui frases completas ou fragmentos frásicos – em geral frases inacabadas – sintacticamente analisáveis e anotáveis.
A anotação morfossintáctica do corpus é automaticamente implementada, decorrendo de uma adaptação (revisão/ampliação) do sistema desenvolvido pela equipa do projecto Tycho Brahe. O sistema de anotação morfossintáctica combina etiquetas categoriais com subetiquetas, maioritariamente flexionais, permitindo uma anotação bastante fina das unidades lexicais do corpus. A proximidade entre os sistemas de anotação morfossintáctica do CORDIAL-SIN e do projecto Tycho Brahe permite a utilização do etiquetador automático, de base probabilística, desenvolvido por Marcelo Finger (e melhorado por Fabio Natanael Kepler e Marcelo Finger) no âmbito do Tycho Brahe (vd. Manual de Anotação Morfossintáctica).
O sistema de anotação sintáctica segue as orientações definidas pelo Penn-Helsinki Parsed Corpus of Middle English. A anotação sintáctica opera sobre dados etiquetados morfossintacticamente; marca fronteiras de constituintes, dependências sintagmáticas e oracionais, tipos de frases, relações gramaticais e certas relações transformacionais. A anotação sintáctica define configurações que podem ser pesquisadas sistemática e exaustivamente, compatíveis com o programa CorpusSearch2, da autoria de Beth Randall (open source software, Sourceforge).
Metadata
The CORDIAL-SIN compiles a geographically representative body of selected excerpts of spontaneous and semi-directed speech from these interviews. The informants were aged, received little instruction, lived in a rural area, and were born and raised in the location of the interview.
The corpus amounts to 600,000 words, collected from 42 locations within the continental territory of Portugal and the archipels of Madeira and Azores.
The CORDIAL-SIN data are available online in written form, in the following formats: two kinds of orthographic transcripts (more or less detailed for the marking up of spoken language phenomena), PoS tagged corpus, syntactically annotated corpus.
Please use the following reference:
Martins, A. M. (coord.) [2000- ]. CORDIAL-SIN: Corpus Dialectal para o Estudo da Sintaxe / Syntax-oriented Corpus of Portuguese Dialects. Lisboa, Centro de Linguística da Universidade de Lisboa. URL: http://www.clul.ulisboa.pt/en/

CORPUS DATA: CORDIAL-SIN is available for download as: CORDIAL-SIN is searchable online and interoperable with other dialect corpora through the Edisyn Search Engine. |
xxxxxxxxx | ![]() |