Imprimir

Parcerias:

Centro de Linguística da Universidade de Lisboa (Instituição Proponente)

INESC - Instituto de Engenharia de Sistemas e Computadores (Participante)

Editorial Verbo (Participante)

Istituto di Linguistica Computazionale del CNR – ILC – Pisa (Consultor)

 

Equipa:

Florbela Barreto (Bolseira)

João Malaca Casteleiro (Investigador Responsável)

Maria Fernanda Bacelar do Nascimento (Coordenadora Científica)

Maria Lúcia Garcia Marques 

Raquel Amaro (Bolseira) 

Rita Veloso (Bolseira)

 

Financiamento:

JNICT / FCT – Programa PRAXIS XXI (Contrato 2/2.1/CSH/759/95)

 

Estado do Projecto:

Concluído

 

Resumo:

Na sequência deste projecto, o português europeu conta agora com um Léxico de Frequências de 26.443 vocábulos, e das 140.315 formas lematizadas desses vocábulos, extraído de um corpus muito significativo (16.210.438 palavras1) do português contemporâneo; as entradas lexicais que o constituem atingiram, no corpus, frequências iguais ou superiores a 6. Cada entrada lexical (vocábulo) é seguida de informação gramatical (categoria morfossintáctica) e de informação quantitativa (nível de ocorrência no corpus). As mesmas informações são dadas para todas as formas lexicais (formas flexionadas e alguns compostos) de cada vocábulo. As indexações do léxico são feitas por ordem alfabética e por ordem de frequências decrescentes.

Este recurso está disponível gratuitamente no Catálogo ELRA com o International Standard Language Resource Number (ISLRN) 489-956-642-755-8.
Mais informações em http://www.islrn.org/.

DESCRIÇÃO DO PROJECTO

O corpus
Para a realização do projecto, o CLUL desenhou e extraiu do seu corpus monitor Corpus de Referência do Português Contemporâneo (CRPC)2 um corpus de 16.210.438 palavras - o CORLEX, que contém um subcorpus de língua escrita (15.354.243 palavras) e um subcorpus de língua falada (856.195 palavras).
Do CORLEX fazem parte textos orais e escritos que cobrem uma grande variedade de tipos de linguagem, sendo a diversidade de géneros e de matérias uma dominante deste corpus. A maior proporção do corpus jornalístico (56% do corpus escrito e 53% do corpus total) teve em vista o predomínio, no corpus, de uma linguagem comum e a cobertura de uma enorme diversidade de temas.
Constituição do corpus escrito (15.354.243 palavras)
Uma parte deste corpus é constituída por materiais cedidos ao CLUL pela editorial VERBO, membro da parceria deste Projecto.

Gráfico Distribuição por Género

As recolhas foram feitas em diversas Fontes, sendo o corpus constituído por amostragens dos títulos seleccionados.

Fontes do subcorpus jornalístico
 

 

Jornais
Nº de títulos de jornais Datas Nº de exemplares Nº de artigos
3 1997 e 1998 105 13.085
Revistas
Nº de títulos de jornais Datas Nº de exemplares Nº de artigos
3 1992 a 1997 105 13.085
Fontes do subcorpus literário
(Romances, Novelas, Contos, Poesia, Memórias e Teatro de autores portugueses)

 

Nº de Autores Nº de Títulos Datas
135 186 séc. XIX (2ª metade): 11 autores; 14 títulos
séc. XX: 124 autores; 172 títulos
Fontes do subcorpus Científico, Técnico e Didáctico3

 

Nº de Autores4 Nº de Títulos Datas
91
livro científico e técnico - 68
livro didáctico - 23
93
livro científico e técnico - 68
livro didáctico - 25
1980 - 1993
Fontes do subcorpus "Miscelânea"

 

Tipo de documento Nº de textos/artigos Datas
Jornais e revistas especializados 347 1900 - 1997
Outros documentos 30

Constituição do corpus oral (856.195 palavras)

O corpus oral é constituído pela transcrição ortográfica do registo magnético de conversas informais e de produções mais formais (conferências, entrevistas na rádio e na televisão, etc.).

 

Tipo de discurso Nº de palavras Nº de textos Datas
espontâneo 752.394 1409 Décadas de 1970 e 1990
formal 103.801 150 Década de 1980

O Léxico

Informação quantitativa
O INESC realizou cálculos probabilísticos para determinação das frequências de ocorrência no CORLEX, tomando como base os dados obtidos para o subcorpus PAROLE desambiguado.
A partir destes cálculos e das desambiguações manuais efectuadas no CLUL, obtiveram-se os dados quantitativos relativos aos lemas considerados no Léxico, ou seja, aqueles cuja Frequência é igual ou ultrapassa o limiar estabelecido (F6).
Assim, junto de cada entrada e de cada forma dessa entrada é apresentada uma aproximação do seu número de ocorrências. Uma vez que o intervalo de variação de ocorrência é muito grande, quer para as entradas, quer para as formas, utilizou-se uma escala logarítmica, a partir do logaritmo de base 10 (log10/2), para se obter uma distribuição mais uniforme dos dados quantitativos. Estes dados são representados por sequências de caracteres gráficos que indicam os seguintes valores:

Patamares de Frequência (log10/2):

 

Lemas:
f16 - 10
f1211 - 31
f1832 - 100
f19101 - 316
f20317 - 1.000
f211.001 - 3.162
f223.163 - 10.000
f2310.001 - 31.622
f2431.623 - 100.000
f2100.001 - 316.227
f3316.228 - 1.000.000
f41.000.001 - 3.162.277
  Formas:
f50 - 5
f66 - 10
f711 - 31
f832 - 100
f9101 - 316
f10317 - 1.000
f111.001 - 3.162
f133.163 - 10.000
f1410.001 - 31.622
f1531.623 - 100.000
f16100.001 - 316.227
f17316.228 - 1.000.000

 

Indexação do Léxico por ordem alfabética:
A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z

 

Indexação do Léxico por ordem de frequências decrescentes:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12

 

Indexação do Léxico, com frequência numérica, por ordem alfabética:
lmcpc_alf.txt

 

Indexação do Léxico, com frequência numérica, por ordem de frequências decrescentes:
lmcpc_dec.txt

 

  1. Em todos os casos em que se refere a dimensão do corpuspalavra é sinónimo de ocorrência.
  2. Corpus aberto em contínuo desenvolvimento. À data da conclusão do Léxico (2000), o CRPC continha 150 milhões de palavras.
  3. Níveis de ensino a que se reportam os livros didácticos: 5º a 11º ano de escolaridade.
  4. Autorias colectivas foram contabilizadas como um só autor.

 

Publicações:

Bacelar do Nascimento, M. F. (2001), "Um novo léxico de frequências do português" in Volume de Homenagem ao Professor Herculano de Carvalho (no prelo).

Bacelar do Nascimento, M. F. et alii (2001), Poster "Léxico Multifuncional Computorizado do Português Contemporâneo" in Feira de Projectos, promovida pela Comissão Nacional do Ano Europeu das Línguas, Lisboa, Centro Cultural Casapiano, 27-30 de Setembro.

Bacelar do Nascimento, M. F., L. A. S. Pereira e J. Saramago (2000)"Portuguese Corpora at CLUL", in Second International Conference on Language Resources and Evaluation – Proceedings, Volume II, Athens: 1603-1607.