Início :: Projectos
C-ORAL-ROM - Integrated Reference Corpora for Spoken Romance Languages
Multimedia edition; tools of analysis; standard linguistic measures for validation in HTML.

Programa:
Information Society Technologies (IST) Programme - European Commission - Directorate - General Information Society - Action Line: IST - 2000 - 3.3.1, Key Action 3, Contract Number IST - 2000 - 26228.
Projecto aprovado em Dezembro de 2000.
Participantes:
Università degli studi di Firenze (UFIR.DIT) - Itália - Coordenador
Université de Provence (UPRO) - França
Fundação da Universidade de Lisboa - Centro de Linguística da Universidade de Lisboa (FUL-CLUL) - Portugal
Universidade Autónoma de Madrid (UAM) - Espanha
Assistentes:
Pitch Instruments France S.A.R.L. (PITCHFRANCE)
Editions Honoré Champion (CHAMPION)
European Language Resources Distribution Agency S.A.R.L. (ELDA)
Instituto Trentino di Cultura (ITC-irst)
Instituto Cervantes (IC)
Comissão de Aconselhamento e Acompanhamento :
CSELT (Telecom Italia - I)
PT - Inovação (Portugal Telecom - P)
Telefonica I+D (E)
IPO, Center for User - System Interaction (Eindoven University of Technology - NL)
INaLF (Institut National de la Langue Française - F)
École Pratique des Hautes Études (F)
Universitet Gent - Collate Research Network (B)
Equipa de Investigação do CLUL:
Maria Fernanda Bacelar do Nascimento (investigadora responsável)
Maria Lúcia Garcia Marques
José Bettencourt Gonçalves
Rita Veloso
Sandra Antunes
Florbela Barreto
Raquel Amaro
Nuno Martins
Início do Projecto:
Janeiro 2001
Estado do Projecto:
Concluído em Março de 2004
Descrição sucinta do projecto :
O projecto C-ORAL-ROM teve como objectivo incrementar os Recursos Linguísticos na área da língua falada, estabelecendo, constituindo e disponibilizando um corpus multilingue de língua falada espontânea, para 4 línguas românicas (Espanhol, Português, Francês e Italiano, com cerca de 300.000 palavras cada língua, cobrindo discurso formal e informal). Enquanto Recurso Linguístico compreende diversas componentes:
- um corpus multimédia, contendo, para cada texto, a fonte acústica, a transcrição ortográfica em formato CHAT e com marcação de quebras entoacionais terminais e não terminais, informação sobre os intervenientes e a situação de gravação, o alinhamento de texto e som, em formato Win Pitch Corpus, estabelecido ao nível de cada enunciado transcrito e uma segunda transcrição ortográfica com lematização e anotação PoS;
- software para análise de fala (Win Pitch Corpus; © 1996-2005 Pitch Instruments Inc.);
- software para extracção de concordâncias (Contextes; © Jean Véronis);
- apêndices.
Este recurso reproduz vários tipos de actos de fala, na língua do quotidiano e, nalguns casos, numa linguagem mais formal e permite a observação e análise de estruturas prosódicas e sintácticas nas quatro línguas, numa perspectiva quantitativa ou qualitativa. C-ORAL-ROM constitui uma mais-valia, especialmente relevante em aspectos como a constituição de corpus, representação de diálogos, anotação prosódica, anotação PoS e lematização, armazenamento multimédia e análise de fala. Importa também mencionar a sua utilidade na criação de condições para o desenvolvimento e validação de HLT (Human Language Technologies) multilingues. É possível encontrar o recurso C-ORAL-ROM em duas versões distintas:
- Uma versão que permite o acesso pleno aos materiais e à sua exploração, disponível em 8 DVDs (DVDs1-2 Francês; DVDs 3-4 Italiano; DVDs 5-6 Português; DVDs 7-8 Espanhol), distribuído pelo ELDA;
- Uma versão encriptada (que não permite, por exemplo, a extracção total de concordâncias), disponível num DVD, que acompanha o livro C-ORAL-ROM , publicado pela John Benjamins Publishing Company, em 2005, o qual contém descrições dos quatro subcorpora e dos procedimentos e opções das equipas na sua constituição e preparação (lematização, anotação, etc.), bem como estudos comparativos de estratégias lexicais e estruturais nas quatro línguas. Para mais informações, é possível consultar a página do projecto C-ORAL-ROM: http://lablita.dit.unifi.it/coralrom.
Publicações:

Bacelar do Nascimento, M. F. (2002), "Quelques considérations sur la constitution et l'exploitation d'un corpus de portugais parlé" in SCARANO, A. (a cura di) Macrosyntaxe et pragmatique: l' analyse de la langue orale, Bulzoni, Roma, pré-impressão LABLITA, Novembro 2002, pp. 221-228.

Bacelar do Nascimento, M. F., E. Cresti, M. Moneglia, A. Moreno Sandoval, J. Veronis, P. Martin, K. Choucri, V. Mapelli, D. Falavigna, A. Cid e C. Blum (2002), "The C-ORAL-ROM Project. New methods for spoken language archives in a multilingual romance corpus ", in M. C. RODRIGUES e C. SUAREZ ARAUJO (a cura di), Proceedings of the Third International Conference on Language Resources and Evaluation, Paris: ELRA, vol. 1, pp. 2-10.

Bacelar do Nascimento, M. F., A. Mendes e R. Amaro (2003) "Reusing Available Resources for Tagging a Spoken Portuguese Corpus", in TASHA'2003: Workshop on Tagging  and Shallow Processing of Portuguese,  Universidade de Lisboa, Outubro de 2003.

Bacelar do Nascimento, M. F., J. Bettencourt Gonçalves, R. Veloso, S. Antunes, F. Barreto e R. Amaro (2oo5) "The Portuguese Corpus", in CRESTI, Emanuela and Massimo Monegnia (eds.) C-ORAL-ROM: Integrated Reference Corpora for Spoken Romance Languages. Amsterdam/Philadelphia: John Benjamins Publishing Company, Studies in Corpus Linguistics nº15, pp. 163-207 (com DVD).

Bacelar do Nascimento, M. F., Bettencourt Gonçalves, J., Veloso, R., Antunes, S., Martins, N., Barreto, F., Amaro, R. and Garcia Marques, M: L. (2006), C-ORAL-ROM: Integrated Reference Corpora for Spoken Romance Languages, MOSTRA DE LINGUÍSTICA - A Linguística em Portugal: estado da arte, projectos e produtos, publicação em CD.