Corpus

Corpus PESTRA

Apresentação

O conjunto de dados aqui disponibilizado constitui o ‘corpus’ que serviu de base à dissertação de doutoramento de Leiria (2001), “Léxico, aquisição e ensino do português europeu língua não materna”.

À semelhança da disponibilização do corpus que serviu a investigação de Leiria (1991) e dos corpora recolhidos pelo CLUL e pelo CELGA (2008-2010), a presente base de dados visa fornecer material empírico que possa apoiar a investigação em ensino e aprendizagem do português língua estrangeira, bem como a produção de materiais didácticos nessa área.

Os dados agora disponibilizados foram recolhidos no âmbito das provas de compreensão oral e produção escrita do exame do Curso Básico de língua Portuguesa do Departamento de Língua e Cultura Portuguesa da Faculdade de Letras da Universidade de Lisboa, realizadas a cargo da Prof. Doutora Isabel Leiria e da Doutora Helena Marques Dias nos anos 80 e 90.

Para o corpus que serviu a investigação de Leiria (2001), agora disponibilizado, foi seleccionado o segundo exercício, o de produção escrita. Aos alunos foi dada a possibilidade de escolher um entre vários temas possíveis, sendo que a composição poderia tratar-se de uma carta, um texto opinativo, narrativo ou até a redacção de uma receita de cozinha. 

Face aos materiais obtidos, foi possível reunir uma amostra de aproximadamente 50 documentos por L1, no qual estariam representadas duas línguas românicas (espanhol e francês), duas línguas germânicas (alemão e sueco) e uma língua não indo-europeia (chinês), o que perfaz um corpus de cerca de 250 documentos.

Os alunos, à data da recolha, tinham frequentado pelo menos um semestre lectivo (120 horas lectivas de língua, durante um período de mais ou menos 3 meses).

Metodologia

Cada produção escrita foi obtida a partir de um estímulo. As propostas de redacção estão organizadas em  três grandes áreas temáticas contempladas no projecto do Português Fundamental:

1. O indivíduo
2. A sociedade
3. O meio ambiente

Consulte aqui o quadro que dá conta da distribuição dos documentos por cada uma das áreas e sub-áreas temáticas. 
Após a sua recolha, os dados foram transcritos, codificados e organizados, segundo as directrizes a seguir apresentadas.

1. Dados dos Informantes

Os informantes têm idades compreendidas entre os 18 e os 57 anos, sendo que 64% são do sexo feminino e 36 % do sexo masculino. São caracterizados por uma grande heterogeneidade no que respeita formação académica e profissional e interesses pessoais.

Os informantes são falantes de cinco diferentes línguas maternas, o espanhol, o francês, o alemão, o sueco ou o chinês (mandarim ou cantonês) e, na maior parte dos casos, conhecem pelo menos mais uma língua além da sua L1 e do português. De acordo com Leiria (2001:196-197) “A maior parte dos espanhóis, à data do início do curso na FLUL, nunca tinha estudado português e sabia inglês; alguns sabiam também alemão ou francês. Muitos dos franceses estudaram entre 10 e 60 horas de português em França; muitos sabiam inglês e alguns um pouco de alemão, espanhol ou italiano. Muitos dos alemães estudaram entre 30 e 60 horas de português; quase todos sabiam inglês e muitos sabiam um pouco de francês. O perfil dos suecos é semelhante; além disso, à data do início do curso, vários já viviam em Lisboa há aproximadamente três meses. Todos os chineses declararam saber inglês; a maior parte já estudava português pelo menos há dois anos (em Macau ou na República Popular da China); e alguns já estudavam há um ou mesmo dois semestres, em Lisboa ou em Coimbra.”

Uma vez que não foi possível avaliar os conhecimentos dos informantes por tempo de estudo, a fim de caracterizar o seu perfil linguístico, foi considerado o nível obtido, numa escala de 0 - 4, no exercício de produção oral que constituiu a primeira parte do exame. Assim sendo, as informações obtidas permitem concluir, em traços gerais, que o nível de compreensão oral diminui à medida que a distância da L1 aumenta relativamente ao português (cf. Leiria,  2001:198). Os espanhóis, embora tenham declarado nunca ter estudado português, são os que apresentam um mais alto nível de compreensão oral e os chineses, alguns já com dois anos de estudos, são os que revelam mais dificuldades. Numa posição intermédia, e por ordem de relevância das dificuldades detectadas, encontram-se os informantes com o sueco, o alemão e o francês como L1. Consulte aqui o perfil linguístico dos informantes de acordo com a classificação na prova de compreensão oral.

Grupo de Controlo 

Para a investigação levada a cabo por Leiria (2001) foi considerado um grupo de controlo constituído por 50 falantes de português L1. Foram preparadas cópias da segunda parte dos enunciados das mesmas provas de exame que tinham sido apresentadas aos estudantes estrangeiros e foi pedido a estudantes do 1.º ano do Curso de Língua e Cultura Portuguesa e do 4.º ano do Curso de Línguas e Literaturas Modernas da Faculdade de Letras da Universidade de Lisboa que redigissem composições sobre os mesmos temas. Os materiais assim obtidos constituem o sub-corpus de controle.

2. Normas de Transcrição

À semelhança da investigação empreendida em Leiria (1991), o presente corpus foi transcrito de acordo com alguns dos símbolos e procedimentos das edições críticas de índole genética. As mesmas normas foram, inclusivamente, adoptadas em projectos de recolha de dados posteriores, nestes inspirados (cf. recolha de dados do CLUL e do CELGA), o que contribui, desde logo, para a compatibilidade dos mesmos no que respeita a este tipo de convenções. 

< xxx > segmentos riscados
< (...) > segmentos riscados ilegíveis
/ xxx / segmentos acrescentados
/* xxx / leituras conjecturadas

3. Codificação dos textos recolhidos

Cada um dos documentos que constituem o corpus PESTRA (Português Europeu Escrito por Estrangeiros) está devidamente identificado com um código que contempla:

a) L1 do informante: Espanhol, Francês, Alemão, Sueco, Chinês; 
b) número do documento: 1 – 53; 
c) área temática e tema da composição: K (a – j); X ( l – p); Z (q – v);
d) género discursivo: a: opinativo; b: narrativo; c: carta; d: outro; 
e) compreensão do oral 0 – 4;

Assim sendo, por exemplo, o código A35xlb2 indica que o documento foi produzido por um informante falante de Alemão L1, tem o número 35, a área temática X (a sociedade) e o tema L (hábitos sociais e comportamentos), é um texto narrativo (b) e à prova de compreensão oral do informante foi atribuído o nível 2.

Dados

corpus é constituído por 309 produções escritas, subdivididas em aproximadamente 50 documentos (entre 100 e 400 palavras) por cada uma das L1: 52 documentos foram produzidos pelo grupo de controle de falantes de português L1; 50 por falantes que têm o espanhol como L1; 53 que têm o francês; 53 que têm o alemão; 52 que têm o sueco; e 49 que têm o chinês (cantonês ou mandarim).

A ordem pela qual são apresentados os diferentes subcorpora foi estabelecida com base em relações tipológicas e distâncias linguísticas entre o português e as outras línguas. Assim sendo, foram consideradas a seguinte (i) ordem tipológica: línguas românicas > línguas germânicas > chinês e as seguintes (ii) distâncias linguísticas: espanhol > francês > alemão > sueco > chinês.

Na sua totalidade, o corpus soma cerca de 68.000 palavras transcritas.

 

1. Número de textos por LM dos informantes

Português 52
Espanhol 50
Francês 53
Alemão 53
Sueco 52
Chinês 49

 

2. Textos

a) Consulte um ficheiro tipo: A35xlb2
b) Aceda ao corpus integral: PESTRA_Leiria2001.rar / PESTRA_Leiria2001.zip