COMBINA-PT

COMBINA-PT - Combinatórias Lexicais do Português

Concluído
Data
IR do Projeto
Amália Mendes

Descrição do projecto :
O projecto Combinatórias Lexicais do Português (COMBINA-PT) teve como objectivo estabelecer um léxico de associações lexicais significativas a partir de um corpus equilibrado de português, através de um processo informático automático, com posterior revisão manual dos resultados.

A observação de dados de corpora evidencia a existência de padrões complexos de associações de palavras, que provam que o léxico não é composto apenas por itens lexicais simples ou compostos, mas também por agrupamentos, mais ou menos previsíveis, não necessariamente fixos (Firth, 1955; Sinclair, 1991). Apesar de para muitas línguas as combinatórias lexicais terem sido bastante estudadas (existem para o inglês, por exemplo, diversos dicionários de combinatórias), este é um recurso inovador para o português.

Na perspectiva corpus-driven que foi seguida, este projecto teve como objectivo partir dos dados do corpus para a identificação de diferentes tipos de associações lexicais, utilizando um conceito lato de combinatória como ponto de partida para a reflexão sobre a tipologia de combinatórias em português. Foram assim seleccionados grupos com graus de fixidez muito variáveis, desde expressões totalmente cristalizadas até combinatórias livres que apontam para uma preferência associativa, sendo requisito a existência de uma relação sintáctica directa entre os elementos do grupo. Os resultados são fundamentais no sentido em que nos fornecem uma base empírica de trabalho para a constituição de uma tipologia variada, com disponibilidade de grande número de concordâncias, que poderá complementar os trabalhos teóricos existentes e que serve actualmente de base a um trabalho de doutoramento sobre tipologia de associações lexicais e seu tratamento lexicográfico.

São exemplos dos vários tipos de combinatórias os seguintes casos:

  • expressões fixas (patrão fora, dia santo na loja);
  • expressões semi-fixas em que o significado é não composicional (esticar o pernil) e que não aceitam alterações sintácticas (*esticar o grande pernil; *o pernil foi esticado), embora possam aceitar variação flexional de um ou mais elementos (esticar / esticaram o pernil);
  • expressões semi-fixas que podem ter significado composicional e que são, por vezes, semanticamente idiossincráticas (onda de assaltos; países membros; perder os sentidos), admitindo a substituição de um dos elementos da combinatória por outros elementos lexicais semanticamente relacionados (onda/maré/vaga de assaltos; países/estados membros);
  • associações lexicais preferenciais, que constituem unidades sintácticas. Embora estas expressões sejam semantica e sintacticamente composicionais, apresentam valores estatísticos combinatoriais muito significativos, bem como uma frequência muito alta, que pode indicar não só uma preferência associativa, mas também uma possível lexicalização progressiva do grupo de palavras (instaurar um processo; ar puro; armas de destruição massiva; erros e imprecisões; absolutamente indispensável).

A extracção de combinatórias lexicais requer o recurso a um vasto conjunto de dados do português. Para este projecto, foi desenhado o corpus COMBINA, um corpus escrito e equilibrado com 50 milhões de palavras, constituído a partir do CRPC.

O quadro seguinte apresenta a constituição do corpus Combina.

 

CONSTITUIÇÃO DO CORPUS
Jornal 30.000.000
Livro literário 6.237.551  
  técnico 3.827.551  
  didáctico 852.787 10.818.719
Revista informativa 5.709.061  
  técnica 1.790.939 7.500.000
Varia 1.851.828
Folheto 104.889
Acórdãos do Supremo Tribunal 313.962
Diário da Assembleia da República 277.586
TOTAL 50.866.984

















 

A tarefa relativa à extracção e selecção das combinatórias foi realizada com a ferramenta do CLUL Concor.cb, que permite extrair de um corpus os grupos de 2, 3, 4 ou 5 palavras que ocorram um número mínimo de vezes definido pelo utilizador. Permite ainda, opcionalmente, eliminar combinatórias que incluam elementos de pontuação e combinatórias de duas palavras em que uma delas é uma palavra gramatical. O Concor.cb trata ainda estas combinatórias estatisticamente, com aplicação da medida de associação lexical Mutual Information (Church & Hanks, 1990) e ordena os resultados de acordo com este índice, evidenciando as associações de palavras mais significativas.

O quadro seguinte apresenta um exemplo dos resultados do programa Concor.cb:

 

# 10 noite de consoada 1 eg(3) og(10) ic(8.588317) fg(10) fe(16971 2290575 52) N(50866984)
209764730 s da SIC -- que o transmitirá na noite de consoada -- tomam os se
209764737 Povinho" à droga, passando pela noite de consoada, a discoteca e
209764744 ulham presentes numa evocação da noite de consoada. À medida que
209764751 e vai continuar a trabalhar pela noite de consoada adentro. Texto
209764758 ezes, faltar alguma coisa para a noite de consoada. Ainda que o l
209764765 as. Saiu para a rua. Nem parecia noite de consoada. Aqui e ali, e
209764772 À memória vêm-lhe imagens de uma noite de Consoada, muito tradici
209764779 enor: ao falar, por telefone, na noite de consoada, no intervalo
209764786 a vida foi deslizando assim. Na noite de Consoada, porém, aconte
209764793 ário O ADEUS ÀS ARMAS Quando, na noite de consoada, se iniciou a















 

Na linha inicial do quadro acima, o programa apresenta as seguintes informações:

  • Frequência;
  • Combinatória;
  • Distância: os grupos de dois elementos podem ser contíguos ou separados por um máximo de 3 elementos, enquanto que os grupos de 3, 4 ou 5 palavras são contíguos (primeiro número após a combinatória);
  • Número de elementos do grupo (eg);
  • Frequência do grupo numa distância específica, no caso dos pares de palavras que podem ser ou não contíguos (og);
  • Medida de associação lexical, que resulta da relação entre a frequência do grupo no corpus e a frequência isolada de cada palavra do grupo (ic);
  • Frequência total do grupo em todas as distâncias em que ocorre (fg);
  • Frequência de cada palavra do grupo (fe);
  • Número total de palavras do corpus (N);

As linhas seguintes do quadro apresentam as concordâncias da combinatória no corpus em formato KWIC (Key Word in Context), com o código de indexação do contexto no corpus.

Para a fase de selecção e tratamento das combinatórias extraídas, foi desenvolvida uma ferramenta, Combina2004, que consiste numa base de dados relacional com plataforma SQL e interface em formato Access, que permite:

  • a importação automática dos resultados do Concor.cb;
  • a selecção manual das combinatórias significativas, com visualização simultânea das suas concordâncias no corpus;
  • a eliminação manual, nas concordâncias, dos casos de contextos erradamente identificados pelo programa como exemplos dessa combinatória;
  • neste último caso, a revisão automática do número de linhas de contextos e anotação automática noutro campo da base de dados da frequência real revista da combinatória no corpus;
  • a lematização das combinatórias.

Foi seleccionado um conjunto de lemas (nomes, verbos, adjectivos e advérbios) cujas combinatórias foram manualmente validadas e organizadas. As combinatórias lexicais, sendo co-ocorrências preferenciais ou sequências (semi-)fixas, mostram tendência para ocorrer apenas nalgumas das formas possíveis de um lema, pelo que não é possível proceder a uma lematização total dos dados.

Assim, num primeiro nível, foi feita uma indexação dos grupos para identificar uma forma abstracta que permite reunir possíveis variantes flexionais sob um mesmo identificador, que designamos como lema de grupo. Em muitos casos, a combinatória não apresenta qualquer variação flexional no corpus. Nestes casos, mantém-se como lema de grupo a forma que ocorreu, embora seja lematizada ao nível do lema principal.

Num segundo nível, foi identificado o lema principal da combinatória. A combinatória é lematizada de acordo com o lema a partir do qual é trabalhada, não estando assim associada a todos os lemas das formas que nela ocorrem. Assim, posto de abastecimento e postos de abastecimento são ambos associados ao lema de grupo POSTO DE ABASTECIMENTO. Por sua vez, o lema de grupo é associado ao lema ABASTECIMENTO, dado ter sido feita a selecção com base na forma abastecimento. Apresenta-se abaixo um exemplo parcial do lema de grupo posto de abastecimento (lema principal, lema de grupo, grupos e concordâncias do corpus).

 

LEMA: Abastecimento
LEMA DE GRUPO: posto de abastecimento
Grupo: posto de bastecimento
num "Honda Civic", assaltaram o posto de abastecimento "Galp", i
riação, com carácter urgente, do posto de abastecimento. Há dez d
comercial portuguesa. Num outro posto de abastecimento local, os
, disse ao JN um dos clientes do posto de abastecimento. Mais far
carem-se propositadamente ao seu posto de abastecimento. Mas já h
ssaltaram, anteontem à noite, um posto de abastecimento "Mobil",
assim, o funcionário de um outro posto de abastecimento na zona d
Vilar Formoso, que dispõe de um posto de abastecimento, o gasóle
e abrigo que não têm telefone, o posto de abastecimento, o que po
Grupo: postos de abastecimento
, afectado significativamente os postos de abastecimento localiza
de adição decorrer nos próprios postos de abastecimento, mas à r
das autoridades em controlar os postos de abastecimento. Mas que
igando ao encerramento de alguns postos de abastecimento. Nas Ast
onível na esmagadora maioria dos postos de abastecimento, pelo me
o. As entidades exploradoras dos postos de abastecimento que, à d

























 

O mesmo processo foi realizado com combinatórias que contêm uma forma verbal:

 

LEMA: Abordar
LEMA DE GRUPO: abordar a questão
Grupo: abordar a questão
go com os distribuidores, há que abordar a questão com cuidado. S
ta secção deste trabalho, tentou abordar a questão, concentrando-
e se tratava de uma boa forma de abordar a questão. Desde o login
cias" como do PÚBLICO tiveram de abordar a questão do tratamento
arco António Costa, preferiu não abordar a questão, limitando-se
Grupo: abordou a questão
sições tomadas. Arouca também já abordou a questão e o pedido de
com a vereadora da Acção Social, abordou a questão, tendo sido in
nto nos seus clubes, Artur Jorge abordou a questão assim: "Estamo
que revelou grande ironia quando abordou a questão relacionada co


















 

No final do projecto, foram seleccionadas 48.000 combinatórias e foram criados 20.291 lemas de grupo e 1170 lemas principais. O trabalho sobre este léxico de combinatórias irá ainda prosseguir através do trabalho de doutoramento que se iniciou a partir do final do projecto e que prevê, entre outros aspectos, acrescentar combinatórias extraídas do corpus oral do CLUL (subcorpus do CRPC) para uma análise contrastiva escrita/oralidade.

Os resultados do projecto podem ser consultados nesta página Consulta das Combinatórias.