8 research outputs found

    AmericasNLI: Machine translation and natural language inference systems for Indigenous languages of the Americas

    Full text link
    Little attention has been paid to the development of human language technology for truly low-resource languages—i.e., languages with limited amounts of digitally available text data, such as Indigenous languages. However, it has been shown that pretrained multilingual models are able to perform crosslingual transfer in a zero-shot setting even for low-resource languages which are unseen during pretraining. Yet, prior work evaluating performance on unseen languages has largely been limited to shallow token-level tasks. It remains unclear if zero-shot learning of deeper semantic tasks is possible for unseen languages. To explore this question, we present AmericasNLI, a natural language inference dataset covering 10 Indigenous languages of the Americas. We conduct experiments with pretrained models, exploring zero-shot learning in combination with model adaptation. Furthermore, as AmericasNLI is a multiway parallel dataset, we use it to benchmark the performance of different machine translation models for those languages. Finally, using a standard transformer model, we explore translation-based approaches for natural language inference. We find that the zero-shot performance of pretrained models without adaptation is poor for all languages in AmericasNLI, but model adaptation via continued pretraining results in improvements. All machine translation models are rather weak, but, surprisingly, translation-based approaches to natural language inference outperform all other models on that task

    Enhancing Translation for Indigenous Languages: Experiments with Multilingual Models

    Full text link
    This paper describes CIC NLP's submission to the AmericasNLP 2023 Shared Task on machine translation systems for indigenous languages of the Americas. We present the system descriptions for three methods. We used two multilingual models, namely M2M-100 and mBART50, and one bilingual (one-to-one) -- Helsinki NLP Spanish-English translation model, and experimented with different transfer learning setups. We experimented with 11 languages from America and report the setups we used as well as the results we achieved. Overall, the mBART setup was able to improve upon the baseline for three out of the eleven languages.Comment: Accepted to Third Workshop on NLP for Indigenous Languages of the America

    A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language

    Get PDF
    Para las comunidades más pequeñas y nativas en un país, es muy difícil encontrar información que se encuentre en su idioma original, esto debido a que su lengua no tiene el alcance ni la cantidad suficiente de hablantes, para poder seguir siendo transmitida. A este tipo de lengua se le denomina minoritaria o de pocos recursos. Una de las principales formas en las que el gobierno incentiva el proceso de multilingüismo es proporcionando educación en el idioma nativo a su población, tal es el caso de los hablantes de Shipibo-Konibo que se encuentran dispersos a lo largo de la amazonía del Perú. Ellos cuentan con colegios donde se les imparten clases en su lengua nativa para los niveles de primaria y secundaria. Sin embargo, una necesidad con la que cuentan los pobladores es que la cantidad de material educativo completamente traducido a Shipibo-Konibo es reducida. Esto debido a que el proceso de traducción es muy costoso y poco confiable. El Grupo de investigación en Inteligencia Artificial de la PUCP (IA-PUCP, ex GRPIAA) ha desarrollado una plataforma que utiliza corpus paralelos la creación de un modelo estadístico de traducción automática para las lenguas Shipibo-Konibo y español. Este modelo sufre de ciertas limitantes, entre las cuales tenemos: la cantidad de recursos bibliográficos y material completamente traducido, esto debido a que al ser una lengua minoritaria o de pocos recursos carecen de facilidades para la generación de nuevos corpus. Por otro lado, se desea mejorar el modelo actual en parámetros de eficiencia y obtener mejores resultados en las traducciones. En este contexto nace la pregunta que motiva el presente trabajo: ¿de qué manera podemos incrementar el corpus paralelo de forma eficiente y confiable para la mejora del modelo actual de traducción automática? Por consiguiente, en el presente trabajo se propone desarrollar un agente conversacional que permita la generación de nuevos corpus paralelos entre Shipibo-Konibo y español que permitan mejorar un modelo de traducción automática neuronal en las lenguas ya mencionadas.Tesi

    Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia

    Get PDF
    De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüísticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica.Tesi

    Hacia una tipología de los fenómenos de variación morfológica en el Shipibo-Konibo: una contribución para su traducción automática

    Get PDF
    La lengua shipibo-konibo (SK) es una de las más grandes de la Amazonía peruana. Debido a su numerosa población vernácula que alcanza los 23.000 hablantes, fue favorecida por un proyecto que busca proveer a las lenguas minoritarias del Perú de herramientas computacionales. Desarrollado en el marco del proyecto del Fondo Nacional de Desarrollo Científico Tecnológico y de Innovación Tecnológica (FONDECYT), la iniciativa tiene como meta desarrollar una plataforma para la traducción automática desde el shipibo-konibo al castellano y viceversa. Este proyecto llamado Chana, ha formado un equipo interdisciplinario de ingenieros y lingüistas con el objetivo de desarrollar el software y corpus necesario para implementar dicho traductor. En este contexto, la presente investigación propone una tipología que describe la lengua para los fines prácticos de la traducción automática y con ella, ayudar a la solución de problemas que se presentarán en el nivel de programación morfológico del traductor. La tipología expuesta busca clasificar las variaciones alomórficas en cuatro frentes, primero en su nivel lingüístico de condicionamiento en que se presenta la alomorfía, luego ofrece el número de variaciones formales que alcanza en el SK, también menciona el nivel de predictibilidad de dichas variaciones y finalmente describe la semejanza formal entre los alomorfos de un morfema. Estos elementos permitirán a los ingenieros del proyecto identificar las alomorfías por medio del inventario entregado y recomendar algunos ajustes que creo necesarios se deberán considerar en la programación en el nivel morfológico del TA y que servirán para solucionar los problemas cuando el traductor en línea deba traducir desde castellano al SK.The Shipibo-Konibo (SK) language is one the largest ones in the Peruvian Amazonia. Due to its numerous vernacular population that reaches 23,000 speakers, it was favored by a project which seeks to provide some minority languages in Peru with computational tools. Developed under the framework of the project of the Fondo Nacional de Desarrollo Científico Tecnológico y de Innovación Tecnológica (FONDECYT), the initiative has as goal to develop a platform for a machine translation (MT) from Shipibo-Konibo to Spanish and vice versa. This project called Chana has formed an interdisciplinary team of engineers and linguists with the goal of developing the necessary software and corpus for the implementation of such translator. In this context, the present investigation proposes a typology that describes the language with practical purposes for automated (MT) and, with this, help to solve problems that will come up at the level of the morphological programming of the translator. The typology exposed here looks to classify the alomorphic variations in four fronts, first the linguistic level of conditioning in which the allomorphy presents itself, then it offers the number of formal variations that reaches in the SK, it also mentions the level of predictability of such variations and finally it describes the formal similarity between the allomorphs of a morpheme. These elements will allow the engineers of the project to identify the allomorphies through the delivered inventory and to recommend some adjustments that I see necessary to be considered in the programming at the morphological level of the MT and that will be useful to solve the problems when the online translator should translate from Spanish to SK.Tesi
    corecore