6 research outputs found
Contextual Label Projection for Cross-Lingual Structure Extraction
Translating training data into target languages has proven beneficial for
cross-lingual transfer. However, for structure extraction tasks, translating
data requires a label projection step, which translates input text and obtains
translated labels in the translated text jointly. Previous research in label
projection mostly compromises translation quality by either facilitating easy
identification of translated labels from translated text or using word-level
alignment between translation pairs to assemble translated phrase-level labels
from the aligned words. In this paper, we introduce CLAP, which first
translates text to the target language and performs contextual translation on
the labels using the translated text as the context, ensuring better accuracy
for the translated labels. We leverage instruction-tuned language models with
multilingual capabilities as our contextual translator, imposing the constraint
of the presence of translated labels in the translated text via instructions.
We compare CLAP with other label projection techniques for creating
pseudo-training data in target languages on event argument extraction, a
representative structure extraction task. Results show that CLAP improves by
2-2.5 F1-score over other methods on the Chinese and Arabic ACE05 datasets.Comment: Work in Progres
Suporte à extracção de traduções de termos simples ou compostos em ambiente multilingue
Trabalho apresentado no âmbito do Mestrado em
Engenharia Informática, como requisito parcial para obtenção do grau de Mestre em Engenharia InformáticaA construção automática de léxicos bilingues é indispensável para aplicações como o acesso a informação disponível em várias línguas, a tradução automática, a construção de ontologias multilingues, entre outras. Nos últimos anos tem havido alguma actividade no sentido de extrair traduções auxiliadas por léxicos bilingues existentes entre línguas com maiores recursos, X-Y e
Y-Z, por exemplo, para pares de línguas com menores recursos, X-Z, utilizando uma das línguas com mais recursos (a língua Y, no caso) como língua pivô.
Neste trabalho, assume-se o Português (PT) como língua pivô. Dada a existência de um léxico de traduções de palavras e de multi-palavras minimamente desenvolvido, com cerca de 200.000 entradas, entre Português e Inglês (EN), partindo da semelhança estrutural e lexical das línguas Portuguesa e Espanhola (ES), extraiu-se traduções de palavras para o par EN-ES, utilizando um
corpus de textos paralelos (dois textos são paralelos se forem tradução um do outro ou ambos forem tradução de um mesmo texto fonte), existente para todas as línguas da União Europeia,detectando primeiro as palavras que possam ser cognatas (semelhantes na forma e com o mesmo
significado). Considerando as entradas do léxico bilingue PT-EN, identificou-se as possíveis traduções em Inglês das palavras espanholas cognatas com palavras portuguesas previamente identificadas. Em seguida, os possíveis cognatos entre Português e Espanhol e as possíveis traduções de Espanhol em Inglês foram avaliadas adicionalmente quanto à sua semelhança nos
textos da colecção em que ocorrem, recorrendo a medidas de semelhança utilizadas para estes efeitos e definindo um limiar de semelhança para a aceitação dos cognatos entre PT e ES como traduções e das traduções inferidas, entre o Espanhol e o Inglês, via o léxico bilingue PT-EN. Os
resultados foram avaliados manualmente.
Conseguiu-se aumentar a produtividade dos avaliadores das traduções de termos, passando-lhes traduções com um elevado grau de precisão. Discute-se, os resultados obtidos fazendo variar: o grau de semelhança entre possíveis cognatos, a medida de semelhança entre termos de línguas diferentes, distinguindo-se também o tipo de contextos em que ocorrem (textos completos
paralelos, frases paralelas ou segmentos mais curtos obtidos pelo alinhamento realizado) e os limiares de aceitação utilizados