CORDIAL-SIN - Syntax-oriented Corpus of Portuguese Dialects
O projecto Corpus Dialectal para o Estudo da Sintaxe (CORDIAL-SIN) investiga a variação sintáctica dialectal do português europeu, usando uma metodologia de constituição/exploração de um corpus anotado.
Objectivos:
- Estudar a sintaxe dos dialectos do português europeu no âmbito da sintaxe comparada.
- Desenvolver e impulsionar, em Portugal, a investigação em sintaxe dialectal e reforçar a cooperação com projectos internacionais de sintaxe dialectal (nomeadamente pela participação nas redes Edisyn - European Dialect Syntax e Wedisyn - Dialect Syntax in Westmost Europe).
- Construir, disponibilizar online e melhorar progressiva e regularmente o Corpus Dialectal para o Estudo da Sintaxe (CORDIAL-SIN). Este corpus permite satisfazer os objectivos 1. e 2., acima.
- Explorar recursos existentes de modo a torná-los acessíveis à comunidade científica. Os dados para a constituição do Corpus Dialectal para o Estudo da Sintaxe provêm da rica colecção de gravações de fala do CLUL, reunida no âmbito de diversos projectos de geografia linguística.
Financiamento: FCT – Fundação para a Ciência e a Tecnologia
- Financiamento Plurianual da Unidade de I&D - UID/LIN/00214/2013
- DUPLEX - PTDC/LIN/71559/2006
- Sintaxe Dialectal - POCTI/LIN/46980/2002
- CORDIAL-SIN, Phase 2 - POSI/PLP/33275/1999
- CORDIAL-SIN - PRAXIS XXI/P/PLP/13046/1998
escrição do Projecto :
O projecto Corpus Dialectal para o Estudo da Sintaxe (CORDIAL-SIN) visa estudar a variação sintáctica dialectal do português europeu, numa perspectiva de Princípios e Parâmetros, usando uma metodologia de constituição/exploração de um corpus anotado. O projecto rentabiliza recursos existentes (colecções de registos sonoros) e tem impulsionado a pesquisa em sintaxe dialectal comparada, uma área de investigação de desenvolvimento recente. A actual extensão do CORDIAL-SIN é de 600.000 palavras.
O Grupo de Dialectologia do Centro de Linguística da Universidade de Lisboa (CLUL) constituiu durante os últimos trinta anos um rico arquivo sonoro contendo cerca de 4.500 horas de gravações, obtidas em mais de 200 localidades do território português. O CORDIAL-SIN integra um conjunto geograficamente representativo de excertos de discurso livre e semi-dirigido seleccionados a partir das gravações efectuadas no âmbito dos seguintes projectos:
- ALEPG Atlas Linguístico e Etnográfico de Portugal e da Galiza
- ALLP Atlas Linguístico do Litoral Português
- ALEAç Atlas Linguístico e Etnográfico dos Açores
- BA Fronteira Dialectal do Barlavento Algarvio [Luisa Segura da Cruz. 1987. A Fronteira Dialectal do Barlavento do Algarve. Dissertação para as Provas de Acesso à categoria de Investigador Auxiliar. Lisboa: Instituto Nacional de Investigação Científica.]
O CORDIAL-SIN apresenta-se ao utilizador em quatro formatos: transcrição conservadora; transcrição ortográfica normalizada; texto com anotação morfossintáctica (anotação por palavra); texto com anotação sintáctica (anotação por frase).
A transcrição conservadora contém informação sobre aspectos da produção (captados pela fonte sonora) tais como pausas, sobreposições de produção, hesitações, abandono de fragmentos frásicos, reformulações, repetições, formas truncadas, variantes fonéticas e morfofonológicas, etc. (vd. Normas de Transcrição). Esta versão da transcrição interessa a estudos centrados na observação de estratégias de interacção discursiva típicas da oralidade. A versão normalizada da transcrição obtém-se através da extracção automática dos códigos que identificam marcas de oralidade e constitui o suporte da anotação. Esta versão inclui apenas transcrição ortográfica, após a eliminação das marcas de pausa (silenciosa ou preenchida), bem como das sequências de transcrição fonética identificadoras de variantes fonéticas e morfofonológicas. Além disso, não retém repetições e fragmentos frásicos abandonados como resultado de processos de reformulação, adiamento da produção e hesitação, embora assinale os lugares de elisão dos mesmos. A transcrição normalizada inclui frases completas ou fragmentos frásicos – em geral frases inacabadas – sintacticamente analisáveis e anotáveis.
A anotação morfossintáctica do corpus é automaticamente implementada, decorrendo de uma adaptação (revisão/ampliação) do sistema desenvolvido pela equipa do projecto Tycho Brahe. O sistema de anotação morfossintáctica combina etiquetas categoriais com subetiquetas, maioritariamente flexionais, permitindo uma anotação bastante fina das unidades lexicais do corpus. A proximidade entre os sistemas de anotação morfossintáctica do CORDIAL-SIN e do projecto Tycho Brahe permite a utilização do etiquetador automático, de base probabilística, desenvolvido por Marcelo Finger (e melhorado por Fabio Natanael Kepler e Marcelo Finger) no âmbito do Tycho Brahe (vd. Manual de Anotação Morfossintáctica).
O sistema de anotação sintáctica segue as orientações definidas pelo Penn Parsed Corpora of Historical English. A anotação sintáctica opera sobre dados etiquetados morfossintacticamente; marca fronteiras de constituintes, dependências sintagmáticas e oracionais, tipos de frases, relações gramaticais e certas relações transformacionais. A anotação sintáctica define configurações que podem ser pesquisadas sistemática e exaustivamente, compatíveis com o programa CorpusSearch2, a autoria de Beth Randall (open source software, Sourceforge).
Metadata
The CORDIAL-SIN is a dialect corpus of European Portuguese. The materials for this corpus were drawn from the recordings of dialect speech collected by the ATLAS team as fieldwork interviews for linguistic atlases between 1974 and 2004 in more than 200 locations in the Portuguese territory.
The CORDIAL-SIN compiles a geographically representative body of selected excerpts of spontaneous and semi-directed speech from these interviews. The informants were aged, received little instruction, lived in a rural area, and were born and raised in the location of the interview.
The corpus amounts to 600,000 words, collected from 42 locations within the continental territory of Portugal and the archipels of Madeira and Azores.
The CORDIAL-SIN data are available online in written form, in the following formats: two kinds of orthographic transcripts (more or less detailed for the marking up of spoken language phenomena), PoS tagged corpus, syntactically annotated corpus.
CORPUS DATA: CORDIAL-SIN is available for download as: CORDIAL-SIN is searchable online and interoperable with other dialect corpora through the Edisyn Search Engine. |
![]() |
|
CORDIAL-SIN by Centro de Linguística da Universidade de Lisboa is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Events:
Workshop "How spatial is dialect syntax?", November 25, 2011, CLUL.
(within International Symposium on Limits and Areas in Dialectology, November 23-25, 2011)
(2012). Contribution à l étude de la variation syntaxique dans le domaine ibéro-roman. In La Leçon des dialectes. Hommages à Jean-Philippe Dalbera (pp. 323-336). M. Oliviéri, G. Brun-Trigaud & P. Del Giudice. Alessandria: Edizioni dell Orso. . |
(2012). A gente: revisitando o estatuto pronominal e a concordância. In Por Amor à Lingüística. Miscelânea de Estudos Lingüísticos dedicados à Maria Denilda Moura (pp. 101-121). A. P. Sedrins, A. T. de Castilho, M. A. Sibaldo & R. B. de Lima. Maceió: Edufal. . |
(2012). Aparente variação na concordância sujeito-verbo no português europeu: ambiguidade quanto ao carácter singular ou plural do sujeito frásico, in Rosae: linguística histórica, história das línguas e outras histórias. In . Lobo et al. Salvador: EDUFBA. . |
(2012). The syntax of naming constructions in European Portuguese dialects: variation and change. Journal Of Portuguese Linguistics 11. . |
(2012). Syntactic Microvariation in Westmost European Languages. . . |
(2011). On verbal agreement variation in European Portuguese: syntactic conditions for the 3SG/3PL alternation. Diacrítica 25. . |
(2011). Clíticos na história do português à luz do teatro vicentino. Estudos De Lingüística Galega, 3, 55-83. . |
(2011). CORDIAL-SIN Syntactic annotation system manual (updated edition. . (Original work published apr) . |
(2010). Tools for dialect syntax: the case of CORDIAL-SIN (an annotated corpus of Portuguese dialects), in Tools for Linguistic Variation. In (pp. 57-70). Aurrekoetxea & J. L. Ormaetxea. Bilbao: Universidad del Pais Vasco. . |
(2010). Interpolação & Cia. Nos Dialectos Do Português Europeu. Estudos De Lingüistica Galega, 2, 97-119. . |
(2010). When corpus analysis refutes common beliefs. The Case Of Interpolation In European Portuguese Dialects. Corpus, 9, 115-135. . |
(2010). Apparent Hyper-raising in Brazilian Portuguese: Agreement with Topics across a finite CP, in The Complementiser Phase: Subjects and Wh-dependencies. In (pp. 143-163). Oxford: Oxford University Press. . |
(2010). Middle Scrambling with deictic locatives in European Portuguese, in Romance Languages and Linguistic Theory 2, ed. In (pp. 59-76). Bok-Bennema, B. Kampers-Manhe & B. Hollebrandse. Amsterdam/Philadelphia: John Benjamins. . |
(2009). Sobre o expletivo ele em português europeu. Estudos De Lingüística Galega, 1, 7-26. . |
(2009). Subject doubling in European Portuguese dialects: The role of impersonal se, in Romance Languages and Linguistic Theory 2007, ed. In (pp. 179-200). Aboh, E. van der Linden, J. Quer & P. Sleeman. Amsterdam & Philadelphia: John Benjamins. . |
(2009). Syntactic change as chain reaction: The emergence of hyper-raising in Brazilian Portuguese, in Historical Syntax and Linguistic Theory. In (pp. 144-157). Crisma & G. Longobardi. Oxford/New York: Oxford University Press. . |
(2008). Beyond doubling: overt expletives in European Portuguese dialects, in Syntax and Semantics. Vol. 36: Microvariation In Syntactic Doubling, 36:, 301-323. . |
(2008). Perception and Causative Structures in English and European Portuguese: Φ-feature Agreement and the Distribution of Bare and Prepositional Infinitives. Syntax 11. . |
(2008). Investigating language change in a comparative setting, in Questions on Language Change. In (pp. 99-116). Almeida, B. Sieberg & A. M. Bernardo. Lisboa: Colibri/Centro de Estudos Alemães e Europeus. . |
(2007). Beyond Subject Doubling: expletive constructions in European Portuguese dialects. In Dialect Syntax Archive. Amsterdam: Edisyn Project. . |
(2007). Double realization of verbal copies in European Portuguese emphatic affirmation, in The Copy Theory of Movement. In (pp. 77-118). Corver & J. Nunes. Amsterdam/Philadelphia: John Benjamins. . |
(2006). Raising issues in Brazilian and European Portuguese. Journal Of Portuguese Linguistics, 4, 53-77. . |
(2006). Infinitival complements of perception and causative verbs: a case study on agreement and intervention effects in English and European Portuguese. University Of Maryland Working Papers In Linguistics, 14, 81-110. . |
(2006). Variação Regional e Social. In Mostra de Linguística. A Linguística em Portugal: estado da arte, projectos e produtos. S. Frota and M. Colaço. Lisboa: APL. . |
(2006). Aspects of infinitival constructions in the history of Portuguese, in Historical Romance Linguistics: Retrospective and Perspectives. In (pp. 327-355). Gess & D. Arteaga. Amsterdam/Philadelphia: John Benjamins. . |
(2006). Emphatic Affirmation and Polarity: Contrasting European Portuguese with Brazilian Portuguese, Spanish, Catalan and Galician, in Romance Languages and Linguistic Theory 2004, ed. In (pp. 197-223). Doetjes & P. Gonzalez. Amsterdam/Philadelphia: John Benjamins. . |
(2005). Clitic Placement, VP-ellipsis and scrambling in Romance, in Grammaticalization and Parametric Change. In (pp. 175-193). Batllori, M. -Ll. Hernanz, C. Picallo, & F. Roca. Oxford/New York: Oxford University Press. . |
(2005). Passive and impersonal se in the history of Portuguese, in Romance Corpus Linguistics II: Corpora and Diachronic Linguistics. In (pp. 411-430). Pusch, J. Kabatek & W. Raible. Tübingen: Gunter Narr Verlag. . |
(2005). Sintaxi dels clítics pronominals en català medieval. Caplletra, Revista Internacional De Filologia, 38, 137-177. . |
(2005). Phases and autonomous features: a case of mixed agreement in European Portuguese, in Perspectives on Phases. In . M. . |
(2004). Morphological Tagging and Syntactic Annotation of a Dialectal European Portuguese Corpus, in Language Technology for Portuguese: shallow processing tools and resources. In (pp. 73-87). Branco, A. Mendes & R. Ribeiro. Lisboa: Colibri. . |
(2003). From unity to diversity in Romance syntax: A diachronic perspective of clitic placement in Portuguese and Spanish, in Aspects of Multilingualism in European Language History. In (pp. 201-233). Braunmüller & G. Ferraresi. Amsterdam / Philadelphia: John Benjamins. . |
(2003). Ainda a unidade e diversidade da língua portuguesa : a sintaxe". In Razões e Emoção. Miscelânea de Estudos em Homenagem a Maria Helena Mira Mateus. Vol. 2 (Vol. 2, pp. 19-41). I. Castro & I. Duarte. Lisboa: Imprensa Nacional – Casa da Moeda. . |
(2003). Construções de expletivo visível em Português europeu (não-padrão). In Gramática e Léxico em Sincronia e Diacronia. Um contributo da Linguística portuguesa (pp. 29-38). A. Veiga. Santiago de Compostela: Universidade de Santiago de Compostela. . |
(2003). Construções com SE: mudança e variação no português europeu, in Razões e Emoção: Miscelânea de estudos em Homenagem a Maria Helena Mira Mateus. I, 2, 19-41. . |