Léxico Multifuncional Computorizado do Português Contemporâneo

Concluído
Referencia
JNICT/FCT - Programa PRAXIS XXI (Contrato 2/2.1/CSH/759/95)
Instituição financiadora
FCT – Fundação para a Ciência e a Tecnologia
IR do Projeto
João Malaca Casteleiro

Resumo:

Na sequência deste projecto, o português europeu conta agora com um Léxico de Frequências de 26.443 vocábulos, e das 140.315 formas lematizadas desses vocábulos, extraído de um corpus muito significativo (16.210.438 palavras1) do português contemporâneo; as entradas lexicais que o constituem atingiram, no corpus, frequências iguais ou superiores a 6. Cada entrada lexical (vocábulo) é seguida de informação gramatical (categoria morfossintáctica) e de informação quantitativa (nível de ocorrência no corpus). As mesmas informações são dadas para todas as formas lexicais (formas flexionadas e alguns compostos) de cada vocábulo. As indexações do léxico são feitas por ordem alfabética e por ordem de frequências decrescentes.

Este recurso está disponível gratuitamente no Catálogo ELRA com o International Standard Language Resource Number (ISLRN) 489-956-642-755-8.
Mais informações em http://www.islrn.org/.

DESCRIÇÃO DO PROJECTO

O corpus
Para a realização do projecto, o CLUL desenhou e extraiu do seu corpus monitor Corpus de Referência do Português Contemporâneo (CRPC)2 um corpus de 16.210.438 palavras - o CORLEX, que contém um subcorpus de língua escrita (15.354.243 palavras) e um subcorpus de língua falada (856.195 palavras).
Do CORLEX fazem parte textos orais e escritos que cobrem uma grande variedade de tipos de linguagem, sendo a diversidade de géneros e de matérias uma dominante deste corpus. A maior proporção do corpus jornalístico (56% do corpus escrito e 53% do corpus total) teve em vista o predomínio, no corpus, de uma linguagem comum e a cobertura de uma enorme diversidade de temas.
Constituição do corpus escrito (15.354.243 palavras)
Uma parte deste corpus é constituída por materiais cedidos ao CLUL pela editorial VERBO, membro da parceria deste Projecto.

Gráfico Distribuição por Género

As recolhas foram feitas em diversas Fontes, sendo o corpus constituído por amostragens dos títulos seleccionados.

Fontes do subcorpus jornalístico
 

 

Jornais
Nº de títulos de jornais Datas Nº de exemplares Nº de artigos
3 1997 e 1998 105 13.085
Revistas
Nº de títulos de jornais Datas Nº de exemplares Nº de artigos
3 1992 a 1997 105 13.085
Fontes do subcorpus literário
(Romances, Novelas, Contos, Poesia, Memórias e Teatro de autores portugueses)

 

Nº de Autores Nº de Títulos Datas
135 186 séc. XIX (2ª metade): 11 autores; 14 títulos
séc. XX: 124 autores; 172 títulos
Fontes do subcorpus Científico, Técnico e Didáctico3

 

Nº de Autores4 Nº de Títulos Datas
91
livro científico e técnico - 68
livro didáctico - 23
93
livro científico e técnico - 68
livro didáctico - 25
1980 - 1993
Fontes do subcorpus "Miscelânea"

 

Tipo de documento Nº de textos/artigos Datas
Jornais e revistas especializados 347 1900 - 1997
Outros documentos 30

Constituição do corpus oral (856.195 palavras)

O corpus oral é constituído pela transcrição ortográfica do registo magnético de conversas informais e de produções mais formais (conferências, entrevistas na rádio e na televisão, etc.).

 

Tipo de discurso Nº de palavras Nº de textos Datas
espontâneo 752.394 1409 Décadas de 1970 e 1990
formal 103.801 150 Década de 1980

O Léxico

Informação quantitativa
O INESC realizou cálculos probabilísticos para determinação das frequências de ocorrência no CORLEX, tomando como base os dados obtidos para o subcorpus PAROLE desambiguado.
A partir destes cálculos e das desambiguações manuais efectuadas no CLUL, obtiveram-se os dados quantitativos relativos aos lemas considerados no Léxico, ou seja, aqueles cuja Frequência é igual ou ultrapassa o limiar estabelecido (F6).
Assim, junto de cada entrada e de cada forma dessa entrada é apresentada uma aproximação do seu número de ocorrências. Uma vez que o intervalo de variação de ocorrência é muito grande, quer para as entradas, quer para as formas, utilizou-se uma escala logarítmica, a partir do logaritmo de base 10 (log10/2), para se obter uma distribuição mais uniforme dos dados quantitativos. Estes dados são representados por sequências de caracteres gráficos que indicam os seguintes valores:

Patamares de Frequência (log10/2):

 

Lemas:
f16 - 10
f1211 - 31
f1832 - 100
f19101 - 316
f20317 - 1.000
f211.001 - 3.162
f223.163 - 10.000
f2310.001 - 31.622
f2431.623 - 100.000
f2100.001 - 316.227
f3316.228 - 1.000.000
f41.000.001 - 3.162.277
  Formas:
f50 - 5
f66 - 10
f711 - 31
f832 - 100
f9101 - 316
f10317 - 1.000
f111.001 - 3.162
f133.163 - 10.000
f1410.001 - 31.622
f1531.623 - 100.000
f16100.001 - 316.227
f17316.228 - 1.000.000

 

Indexação do Léxico por ordem alfabética:
A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z

 

Indexação do Léxico por ordem de frequências decrescentes:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12

 

Indexação do Léxico, com frequência numérica, por ordem alfabética:
lmcpc_alf.txt

 

Indexação do Léxico, com frequência numérica, por ordem de frequências decrescentes:
lmcpc_dec.txt

 

  1. Em todos os casos em que se refere a dimensão do corpuspalavra é sinónimo de ocorrência.
  2. Corpus aberto em contínuo desenvolvimento. À data da conclusão do Léxico (2000), o CRPC continha 150 milhões de palavras.
  3. Níveis de ensino a que se reportam os livros didácticos: 5º a 11º ano de escolaridade.
  4. Autorias colectivas foram contabilizadas como um só autor.
Parcerias
CLUL - Centro de Linguística da Universidade de Lisboa
INESC - Instituto de Engenharia de Sistemas e Computadores
Editorial Verbo
Istituto di Linguistica Computazionale del CNR – ILC