Start :: Projects
CLUL - Reference Corpus of Contemporary Portuguese (CRPC)

Funding Institutions:
Fundação Calouste Gulbenkian
União Latina
Instituto Camões
Fundação para a Ciência e Tecnologia
Research Team :
Maria Fernanda Bacelar do Nascimento (researcher)
João Malaca Casteleiro (researcher)
Maria Lúcia Garcia Marques (researcher)
Luísa Alice Santos Pereira (researcher)
José Bettencourt Gonçalves (researcher)
Amália Mendes (researcher)
Rita Veloso (researcher)
Raquel Amaro (researcher)
Florbela Barreto (researcher)
João Miguel Casteleiro (informatics consultant)
Tiago Sá (informatics technician)
Project Start:
1988
Project Status:
On-going Reference Corpus of Contemporary Portuguese:
The CRPC at the Centro de Linguística da Universidade de Lisboa¹ is an electronically based linguistic corpus containing, at the present, 334 million words (see CRPC Map), taken by sampling from several types of written text (literary, newspaper, technical, scientific, didactic, economics, decisions of the supreme court of justice, parliament) and spoken text (formal and informal).
These samplings pertain to national and regional varieties of Portuguese, including European, Brazilian, African (Angola, Cape Verde, Guinea-Bissau, Mozambique and Sao Tome and Principe) and Asiatic Portuguese (Macao, Goa and East-Timor). From a chronological point of view, our corpus contains texts from the second half of the XIX century up until 2006, mostly after 1970.
The running corpus CRPC is a resource and knowledge database made of authentic linguistic documents, organized in an electronic format accessible to researchers, teachers, translators and to all, national and foreign, working on the Portuguese language to whom there is a need for reliable linguistic data (See Corpus availability).
Corpus linguistics has become a mainstream for researchers, teachers and students in several areas of theoretical and descriptive linguistics, of language technology and of applied areas as translation (human and assisted), language teaching and learning, lexicography or information retrieval. It is recognized as an essential factor for the enhancement of communications and for facilitating access to information, in response to the basic needs of the Language Engineering in the framework of the multilingual Information Society.
Nowadays, through out the world, there is a growing interest in large corpora and lexicons due to the extraordinary growth of affordable computer resources.
These specific linguistic resources, closely related to each people's culture, in connection with important technologies for data and knowledge extraction, constitute an essencial prerequisite for a large number of research projects and several types of development and applications, namely: new descriptions of the Portuguese language based on real data; contrastive studies between varieties of the Portuguese language aiming at finding factors of unity and diversity; contrastive studies between languages with similar linguistic resources; grammars; lexicons and monolingual, bilingual or plurilingual dictionaries, as well as general and specialized dictionaries or conventional and electronic ones; terminologies; assisted translation materials; language teaching materials; developments and applications within language engineering, namely in what concerns processing systems, treatment and recognition of the natural language, language technologies and telecommunications.
The CRPC main goal is the continous construction of a balanced corpus and its availability and dissemination to make this resource easily and friendly accessible. CRPC has already been used in numerous academic projects (mainly in MA and Ph.D studies) carried out in Portugal and abroad, and in other research projects, such as the Dicionário da Língua Portuguesa of Academia de Ciências de Lisboa, which used the CRPC as a source of quotations, and the following projects at the Centro de Linguística da Universidade de Lisboa:


Corpus availability

Available materials by CLUL or in partnership
Project Name
and Description

Authorship
Available at/ in
PF - published sample.
A spoken CRPC subcorpus of 106 488 words.
CLUL http://www.clul.ul.pt/sectores/corpus_oral_pf_publicado.zip
LMCPC
A 26 980 lemma and 140 976 form lexicon with morphological and quantitative information.
CLUL, INESC
and Editorial Verbo
http://www.clul.ul.pt/sectores/lmcpc
Português Falado - Variedades Geográficas e Sociais
86 authentic speech texts with sound/text alignment
CLUL, Univ. de Toulouse-le-Mirail and Univ. de Provence Aix-Marseille 4 Cd-Rom
edited by CLUL/Instituto Camões
PAROLE Subcorpus
A 3 million word subcorpus extracted from the PAROLE corpus, containing 250 000 morphosyntactic tagged words.
CLUL and INESC ELRA catalog
http://www.elda.fr/cata/text/W0024.html
PAROLE LEXICON
A 20 000 morphosyntactic tagged unit lexicon with syntactic description.
CLUL, INESC
and Editorial Verbo
ELRA catalog
http://www.elda.fr/cata/text/L0035.html
SIMPLE
A 300 unit PAROLE sub-lexicon with semantic description.
CLUL, Portuguese and European partnership http://www.ub.es/gilcub/SIMPLE/simple.html
ELAN Corpus
A 3 million word PAROLE subcorpus.
CLUL and European partnership http://www.clul.ul.pt/english/sectores/projecto_rld1.html

   ¹- Institutions that have been giving finantial support to the CRPC: Fundação Calouste Gulbenkian, Junta Nacional de Investigação Científica e Tecnológica (JNICT) - Programme Estímulo em Ciências Sociais e Humanas, Fundação para a Ciência e Tecnologia (FCT) - Fundos Programáticos, Instituto Camões, União Latina, Caixa Geral de Depósitos, Comissão das Comunidades Europeias -LE-PAROLE Project.
Public and private institutions that are, at the present, the data suppliers of CRPC: Academia das Ciências de Lisboa; Agência Lusa; Assembleia da República; Caixa Geral de Depósitos; Centro de Informática do Ministério da Justiça; Coimbra Editora; DECO; Editora Colibri; Editora Nova Fronteira - Brasil; Editorial Verbo; Estação de Rádio TSF; Fundação Calouste Gulbenkian - Serviço de Bibliotecas e Apoio à Leitura; Instituto do Consumidor, Sociedade Bíblica Portugal; Portuguese newspapers: A Bola, A Capital, Diário de Notícias, Diário Económico, Expresso, Jornal de Notícias, Diário do Minho, O Independente, Público; Cape Verdean newspapers: A Semana, Correio Quinze, Novo Jornal; Procuradoria-Geral da República; Corpus do Português Contemporâneo (Universidade Estadual Paulista - UNESP); NURC-BR project (São Paulo e Rio de Janeiro); PEUL project (Rio de Janeiro); Periodical: Grande Reportagem, Ingenium, Máxima, ProTeste, Visão; Selecções do Reader's Digest.


TABLE
REFERENCE CORPUS
OF CONTEMPORARY PORTUGUESE (CRPC)

334 711 788 words (October, 2005)
Mapa Mundo
Timespan:
Written sources:
BEFORE 1900
1 092 087
BOOK
24 006 164
Tec. Scientific - 11 945 301
Lit. - 10 092 720
Did. - 1 968 143
1901-1970
2 772 576
NEWSPAPER
223 144 733

AFTER 1970
330 847 125
PERIODICAL
8 715 723
Journal – 2 725 708
Magazine – 5 990 015
  DOCUMENTS
64 184 251
Parliament – 60 890 283
Court – 3 293 968
Text type:
LEAFLETS
343 483
WRITTEN
332 194 548
LETTERS
163 192
SPOKEN
2 517 240
VARIA
14 002 055


Publications:
Bacelar do Nascimento, M. F. (2003), "O lugar do corpus na investigação linguística" in MENDES, A. et alii (orgs.) Actas do XVIII Encontro da Associação Portuguesa de Linguística, Lisboa, Associação Portuguesa de Linguística e Edições Colibri.

Bacelar do Nascimento, M. F. (2003), "O papel dos corpora especializados na criação de bases terminológicas" in CASTRO, I. et alii (org.) Razões e Emoção, Miscelânea de Estudo em Homenagem a Maria Helena Mira Mateus, vol. 2, Imprensa Nacional-Casa da Moeda, Lisboa, pp. 167-179.

Bacelar do Nascimento, M. F. (2001), "Les études portugaises sur la langue parlée" in CARREIRA, M. H. A. (org.) Travaux et Documents, Les langues romanes en dialogue(s), 11-2001, Université Paris 8, Vincennes Saint-Denis, pp. 209-221.

Bacelar do Nascimento, M. F. e M. A. Mota (2001), "Le Portugais dans ses variétés" in Revue Belge de Philologie et d'Histoire, 79, Fasc.3: Langues et Littératures Modernes, Société pour le Progrés des études philologiques et historiques, Bruxelles, pp. 931-952.

Bacelar do Nascimento, M. F. et alii (2001), Poster "Corpus de Referência do Português Contemporâneo" in Feira de Projectos, promovida pela Comissão Nacional do Ano Europeu das Línguas, Lisboa, Centro Cultural Casapiano, 27-30 de Setembro de 2001.

Bacelar do Nascimento, M. F., L. A. S. Pereira e J. Saramago (2000), "Portuguese Corpora at CLUL", in Second International Conference on Language Resources and Evaluation – Proceedings, Volume II, Athens, pp. 1603-1607.

Bacelar do Nascimento, M. F. (2000), "Corpus de Référence du Portugais Contemporain" in BILGER, M. (ed.) Corpus, Méthodologie et Applications Linguistiques, Paris, H. Champion et Presses Universitaires de Perpignan (2000), pp. 25-30.

Bacelar do Nascimento, M. F. (2000), "O corpus de referência do português contemporâneo e os projectos de investigação do Centro de Linguística da Universidade de Lisboa sobre variedades do português falado e escrito" in GÄRTNER, E. et alii (eds.) Estudos de Gramática Portuguesa (I), Biblioteca Luso-Brasileira, Centro do Livro e do Disco de Língua Portuguesa, Frankfurt am Main, pp. 185-200.

Bacelar do nascimento, M. F. (2000), "O Corpus Compartilhado VARPORT" in BRANDÃO, S. F. et alii (orgs.) Análise Contrastiva de Variedades do Português: Projecto de Pesquisa Luso-Brasileiro em Curso, Rio de Janeiro, UFRJ, Faculdade de Letras, Diretoria Adjunta de Cultura e Extensão / Setor Cultural, pp. 19-24.

Bacelar do Nascimento, M. F. (1999), "O Português Fundamental faz 30 anos" in FARIA, I. H. (org.) Lindley Cintra, Homenagem ao Homem, ao Mestre e ao Cidadão, Faculdade de Letras da Universidade de Lisboa, Lisboa, Cosmos, pp. 585-596.

Bacelar do Nascimento, M. F., T. Biderman (1999), "Unidade e Diversidade: o vocabulário da língua oral em Portugal e no Brasil" in MACÁRIO LOPES, A. C. et alii (orgs.) Actas do XIV Encontro da Associação Portuguesa de Linguística, Braga, APL, pp. 165-193.

Bacelar do Nascimento, M. F. (1999), Intervenção, como representante do Centro de Linguística da Universidade de Lisboa, no Debate Público "Apresentação do Perfil de Investigação Científica do Processamento Computacional da Língua Portuguesa", organizado pelo Ministério da Ciência e da Tecnologia - Observatório das Ciências e das Tecnologias, Lisboa, 17/04/1999, http://www.linguateca.pt/transcricao/Bacelar_1.html.

Bacelar do Nascimento, M. F. (1998), "Quelques resources linguistiques de base pour l'étude des variétés du portugais contemporain", Revue Française de Linguistique Appliquée, Vol. III - 1, Aspects de la diversité linguistique, Juin 1998, pp. 81-86.

Bacelar do Nascimento, M. F. (1997), "Contribuição da análise de corpora para a descrição lexicográfica", Sentido que a vida faz, estudos para Óscar Lopes, Porto, Ed. Campo das Letras, pp.734-744.

Bacelar do Nascimento, M. F. (1997), "A exploração de corpora linguísticos no ensino/aprendizagem do português", Actas do Seminário Internacional de Português como Língua Estrangeira, Macau, Maio de 1997, pp. 391-407.

Bacelar do Nascimento, M. F. (1996), "Aspectos da sintaxe do português falado (repetições lexicais e de estruturas sintácticas em produções orais: fenómenos de deslocação), Actas do Congresso Internacional sobre o Português, volume I, DUARTE, I. e I. LEIRIA (orgs.), APL, Lisboa, Junho de 1996, pp. 203-223.

Bacelar do Nascimento, M. F. (1996), "Apresentação da mesa-redonda sobre corpora linguísticos", Actas do XI Encontro Nacional da Associação Portuguesa de Linguística, volume I – Corpora, BACELAR DO NASCIMENTO, M. F., M. C. RODRIGUES e J. BETTENCOURT GONÇALVES (orgs.), APL, Lisboa, Setembro de 1996, pp. 19-20.

Bacelar do Nascimento, M. F. (1996), "Reiterações lexicais no discurso oral de Luís F. Lindley Cintra", Actas do Encontro Regional de Lisboa da Associação Portuguesa de Linguística, Homenagem ao Professor Lindley Cintra, 1988, Boletim de Filologia, tomo XXXIII-IV, 1993-96, Lisboa, CLUL-JNICT (no prelo).

Bacelar do Nascimento, M. F. (1996), "A observação e análise de dados reais na investigação e ensino de línguas", Actas do II Encontro da Associação Portuguesa dos Centros de Línguas do Ensino Superior, Universidade de Évora, Évora, Janeiro de 1996, pp.11-23.

Bacelar do Nascimento, M. F. e J. Bettencourt Gonçalves (1996), "Corpus de Referência do Português Contemporâneo (CRPC), desenvolvimento e aplicações", Actas do XI Encontro Nacional da Associação Portuguesa de Linguística, volume I – Corpora, BACELAR DO NASCIMENTO, M. F., M. C. RODRIGUES e J. BETTENCOURT GONÇALVES (orgs.), APL, Lisboa, Setembro de 1996, pp. 143-149.

Bacelar do Nascimento, M. F. (1995), "Corpus de Referência do Português Contemporâneo, a portuguese electronic corpus", Computers and the Humanities, Dordrecht, Boston, Klewer Academia Publishers, 1995 (no prelo).

Bacelar do Nascimento, M. F. (1994), "Aplicação de resultados de análises linguísticas, sobre corpora ao ensino do português, LE", Memórias do 3.º Congresso Internacional do Ensino de Português como Língua Estrangeira, Centro de Estudos Brasileiros e Universidade Nacional Autónoma de México, México, 1994, pp. 104-120.

Bacelar do Nascimento, M. F. e J. Bettencort Gonçalves (1994), "Variação lexical no tempo e no espaço: três momentos de um Inquérito de Disponibilidade", in Variação linguística no espaço, no tempo e na sociedade, APL, Lisboa, Edições Colibri, 1994, pp. 119-145.

Bacelar do Nascimento, M. F. (1993), "Bases de referência orais e escritas do português contemporâneo", NOESIS, n.º 26, Instituto de Inovação Educacional, Lisboa, 1993, pp. 28-29.

Bacelar do Nascimento, M. F. e A. M. Martins (1993), "Construções verbais portuguesas em -se médio observadas em textos medievais e em textos contemporâneos", Actas do XIX Congresso Internacional de Linguística e Filologia Românica, A Coruña, 1993, pp. 547-562.

Bacelar do Nascimento, M. F., J. Bettencourt Gonçalves, L. Chacoto, P. Neto e L. A. S. Pereira (1993), "Ambiguidade morfológica no Português Fundamental", Actas do 1.º Encontro de Processamento de Língua Portuguesa Escrita e Falada - EPLP'93, Lisboa, INESC, UNINOVA, CLUL, 1993, pp. 101-106.

Bacelar do Nascimento, A. Mendes e D. Santos (1993), "O corpus e a classificação sintáctica dos verbos", Actas do 1.º Encontro de Processamento de Língua Portuguesa Escrita e Falada -EPLP'93, Lisboa, INESC, UNINOVA, CLUL, 1993, pp. 125-129.

Bacelar do Nascimento, M. F. e M. A. Mota (1990), "L'intérêt des données orales dans l'élaboration des dictionnaires de langue", Travaux de Linguistique, 21, DUCULOT, Paris-Louvain-la-Neuve, 1990, pp. 71-79.

Bacelar do Nascimento, M. F., L. Chacoto e P. Neto (1989), "Como escrever o oral?", Revista Internacional de Língua Portuguesa, Lisboa, Associação das Universidades de Língua Portuguesa, n.º 2, Dezembro, 1989, pp. 36-40.

Pereira, L. A. S. e M. F. Bacelar do Nascimento (2003), "Contribuição para uma tipologia dos verbos portugueses frequentes em contexto: concordâncias do verbo contar", in Como pôr os alunos a trabalhar? Experiências formativas na aula de  Português, 5º Encontro Nacional da APP, Lisboa, pp. 241-251.

Pereira, L. A. S e M. F. Bacelar do Nascimento (CLUL), Callou, D. e C. Serra (UFRJ), (2003), "Sobre a posição do adjectivo no sintagma nominal no corpus VARPORT: séculos XIX e XX", XIX Encontro Nacional da APL, Lisboa (no prelo).

Pereira, L. A. S. e M. F. Bacelar do nascimento (2002), "A posição do adjectivo no sintagma nominal: duas perspectivas de análise", in Análise contrastiva de variedades do português: primeiros estudos, Rio de Janeiro, UFRJ, Faculdade Letras (no prelo)

Pereira, L. A. S. (2001), "The use of concordancing in Portuguese teaching", in How to Use Corpora in Language Teaching,  TWC, Pescia (with support from the European Commission's programme for Improving Human Potential) (no prelo).  

Pereira, L. A. S. (1999), "O recurso a corpora linguísticos e o contributo da abonação nos dicionários", in Actas do 2º Encontro Nacional da Associação de Professores de Português (APP), Lisboa, 16-18 de Abril de 1997, pp. 277-290.  

Pereira, L. A. S. e  M. F. Bacelar do Nascimento (1997), "Corpus de Referência do Português Contemporâneo", poster apresentado a Rencontres de Linguistique Appliquée, Construction et Utilisation de grands Corpus, Paris, 24-27 de Setembro de 1997.

Pereira, L. A. S. e Garcia M. (1994), "Inter de Milão-Sporting: o oral e o escrito na reportagem desportiva", in Variação linguística no espaço, no tempo e na sociedade, APL, Lisboa, Edições Colibri, 1994, pp. 43-53.