8 research outputs found
AmericasNLI: Machine translation and natural language inference systems for Indigenous languages of the Americas
Little attention has been paid to the development of human language technology for truly low-resource languages—i.e., languages with limited amounts of digitally available text data, such as Indigenous languages. However, it has been shown that pretrained multilingual models are able to perform crosslingual transfer in a zero-shot setting even for low-resource languages which are unseen during pretraining. Yet, prior work evaluating performance on unseen languages has largely been limited to shallow token-level tasks. It remains unclear if zero-shot learning of deeper semantic tasks is possible for unseen languages. To explore this question, we present AmericasNLI, a natural language inference dataset covering 10 Indigenous languages of the Americas. We conduct experiments with pretrained models, exploring zero-shot learning in combination with model adaptation. Furthermore, as AmericasNLI is a multiway parallel dataset, we use it to benchmark the performance of different machine translation models for those languages. Finally, using a standard transformer model, we explore translation-based approaches for natural language inference. We find that the zero-shot performance of pretrained models without adaptation is poor for all languages in AmericasNLI, but model adaptation via continued pretraining results in improvements. All machine translation models are rather weak, but, surprisingly, translation-based approaches to natural language inference outperform all other models on that task
Enhancing Translation for Indigenous Languages: Experiments with Multilingual Models
This paper describes CIC NLP's submission to the AmericasNLP 2023 Shared Task
on machine translation systems for indigenous languages of the Americas. We
present the system descriptions for three methods. We used two multilingual
models, namely M2M-100 and mBART50, and one bilingual (one-to-one) -- Helsinki
NLP Spanish-English translation model, and experimented with different transfer
learning setups. We experimented with 11 languages from America and report the
setups we used as well as the results we achieved. Overall, the mBART setup was
able to improve upon the baseline for three out of the eleven languages.Comment: Accepted to Third Workshop on NLP for Indigenous Languages of the
America
A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language
Para las comunidades más pequeñas y nativas en un paÃs, es muy difÃcil encontrar información que se encuentre en su idioma original, esto debido a que su lengua no tiene el alcance ni la cantidad suficiente de hablantes, para poder seguir siendo transmitida. A este tipo de lengua se le denomina minoritaria o de pocos recursos.
Una de las principales formas en las que el gobierno incentiva el proceso de multilingüismo es proporcionando educación en el idioma nativo a su población, tal es el caso de los hablantes de Shipibo-Konibo que se encuentran dispersos a lo largo de la amazonÃa del Perú. Ellos cuentan con colegios donde se les imparten clases en su lengua nativa para los niveles de primaria y secundaria. Sin embargo, una necesidad con la que cuentan los pobladores es que la cantidad de material educativo completamente traducido a Shipibo-Konibo es reducida. Esto debido a que el proceso de traducción es muy costoso y poco confiable.
El Grupo de investigación en Inteligencia Artificial de la PUCP (IA-PUCP, ex GRPIAA) ha desarrollado una plataforma que utiliza corpus paralelos la creación de un modelo estadÃstico de traducción automática para las lenguas Shipibo-Konibo y español. Este modelo sufre de ciertas limitantes, entre las cuales tenemos: la cantidad de recursos bibliográficos y material completamente traducido, esto debido a que al ser una lengua minoritaria o de pocos recursos carecen de facilidades para la generación de nuevos corpus. Por otro lado, se desea mejorar el modelo actual en parámetros de eficiencia y obtener mejores resultados en las traducciones.
En este contexto nace la pregunta que motiva el presente trabajo: ¿de qué manera podemos incrementar el corpus paralelo de forma eficiente y confiable para la mejora del modelo actual de traducción automática? Por consiguiente, en el presente trabajo se propone desarrollar un agente conversacional que permita la generación de nuevos corpus paralelos entre Shipibo-Konibo y español que permitan mejorar un modelo de traducción automática neuronal en las lenguas ya mencionadas.Tesi
Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
De acuerdo a la Base de Datos Oficial de Pueblos IndÃgenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indÃgenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüÃsticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica.Tesi
Hacia una tipologÃa de los fenómenos de variación morfológica en el Shipibo-Konibo: una contribución para su traducción automática
La lengua shipibo-konibo (SK) es una de las más grandes de la AmazonÃa peruana.
Debido a su numerosa población vernácula que alcanza los 23.000 hablantes, fue
favorecida por un proyecto que busca proveer a las lenguas minoritarias del Perú de
herramientas computacionales. Desarrollado en el marco del proyecto del Fondo
Nacional de Desarrollo CientÃfico Tecnológico y de Innovación Tecnológica
(FONDECYT), la iniciativa tiene como meta desarrollar una plataforma para la
traducción automática desde el shipibo-konibo al castellano y viceversa. Este proyecto
llamado Chana, ha formado un equipo interdisciplinario de ingenieros y lingüistas con el
objetivo de desarrollar el software y corpus necesario para implementar dicho traductor.
En este contexto, la presente investigación propone una tipologÃa que describe la lengua
para los fines prácticos de la traducción automática y con ella, ayudar a la solución de
problemas que se presentarán en el nivel de programación morfológico del traductor. La
tipologÃa expuesta busca clasificar las variaciones alomórficas en cuatro frentes, primero
en su nivel lingüÃstico de condicionamiento en que se presenta la alomorfÃa, luego ofrece
el número de variaciones formales que alcanza en el SK, también menciona el nivel de
predictibilidad de dichas variaciones y finalmente describe la semejanza formal entre los
alomorfos de un morfema. Estos elementos permitirán a los ingenieros del proyecto
identificar las alomorfÃas por medio del inventario entregado y recomendar algunos
ajustes que creo necesarios se deberán considerar en la programación en el nivel
morfológico del TA y que servirán para solucionar los problemas cuando el traductor en
lÃnea deba traducir desde castellano al SK.The Shipibo-Konibo (SK) language is one the largest ones in the Peruvian Amazonia.
Due to its numerous vernacular population that reaches 23,000 speakers, it was favored
by a project which seeks to provide some minority languages in Peru with computational
tools. Developed under the framework of the project of the Fondo Nacional de Desarrollo
CientÃfico Tecnológico y de Innovación Tecnológica (FONDECYT), the initiative has as
goal to develop a platform for a machine translation (MT) from Shipibo-Konibo to
Spanish and vice versa. This project called Chana has formed an interdisciplinary team
of engineers and linguists with the goal of developing the necessary software and corpus
for the implementation of such translator. In this context, the present investigation
proposes a typology that describes the language with practical purposes for automated
(MT) and, with this, help to solve problems that will come up at the level of the
morphological programming of the translator. The typology exposed here looks to
classify the alomorphic variations in four fronts, first the linguistic level of conditioning
in which the allomorphy presents itself, then it offers the number of formal variations that
reaches in the SK, it also mentions the level of predictability of such variations and finally
it describes the formal similarity between the allomorphs of a morpheme. These elements
will allow the engineers of the project to identify the allomorphies through the delivered
inventory and to recommend some adjustments that I see necessary to be considered in
the programming at the morphological level of the MT and that will be useful to solve the
problems when the online translator should translate from Spanish to SK.Tesi