C-ORAL-ROM

C-ORAL-ROM - Integrated Reference Corpora for Spoken Romance Languages

Concluído
Data
-
Referencia
IST - 2000 - 26228
Instituição financiadora
Comissão Europeia

Descrição do projecto :
O projecto C-ORAL-ROM teve como objectivo incrementar os Recursos Linguísticos na área da língua falada, estabelecendo, constituindo e disponibilizando um corpus multilingue de língua falada espontânea, para 4 línguas românicas (Espanhol, Português, Francês e Italiano, com cerca de 300.000 palavras cada língua, cobrindo discurso formal e informal). Enquanto Recurso Linguístico compreende diversas componentes:
- um corpus multimédia, contendo, para cada texto, a fonte acústica, a transcrição ortográfica em formato CHAT e com marcação de quebras entoacionais terminais e não terminais, informação sobre os intervenientes e a situação de gravação, o alinhamento de texto e som, em formato Win Pitch Corpus, estabelecido ao nível de cada enunciado transcrito e uma segunda transcrição ortográfica com lematização e anotação PoS;
- software para análise de fala (Win Pitch Corpus; © 1996-2005 Pitch Instruments Inc.);
- software para extracção de concordâncias (Contextes; © Jean Véronis);
- apêndices.
Este recurso reproduz vários tipos de actos de fala, na língua do quotidiano e, nalguns casos, numa linguagem mais formal e permite a observação e análise de estruturas prosódicas e sintácticas nas quatro línguas, numa perspectiva quantitativa ou qualitativa. C-ORAL-ROM constitui uma mais-valia, especialmente relevante em aspectos como a constituição de corpus, representação de diálogos, anotação prosódica, anotação PoS e lematização, armazenamento multimédia e análise de fala. Importa também mencionar a sua utilidade na criação de condições para o desenvolvimento e validação de HLT (Human Language Technologies) multilingues. É possível encontrar o recurso C-ORAL-ROM em duas versões distintas:
- Uma versão que permite o acesso pleno aos materiais e à sua exploração, disponível em 8 DVDs (DVDs1-2 Francês; DVDs 3-4 Italiano; DVDs 5-6 Português; DVDs 7-8 Espanhol), distribuído pelo ELDA;
- Uma versão encriptada (que não permite, por exemplo, a extracção total de concordâncias), disponível num DVD, que acompanha o livro C-ORAL-ROM , publicado pela John Benjamins Publishing Company, em 2005, o qual contém descrições dos quatro subcorpora e dos procedimentos e opções das equipas na sua constituição e preparação (lematização, anotação, etc.), bem como estudos comparativos de estratégias lexicais e estruturais nas quatro línguas.

Parcerias
UniFI - Università degli Studi di Firenze
Université de Provence
CLUL - Centro de Linguística da Universidade de Lisboa
UAM - Universidade Autónoma de Madrid