2 research outputs found
VarClass: An open-source language identification tool for language varieties
This paper presents VarClass, an open-source tool for language identification available both to be downloaded as well as through a graphical user-friendly interface. The main difference of VarClass in comparison to other state-of-the-art language identification tools is its focus on language varieties. General purpose language identification tools do not take language varieties into account and our work aims to fill this gap. VarClass currently contains language models for over 27 languages in which 10 of them are language varieties. We report an average performance of over 90.5% accuracy in a challenging dataset. More language models will be included in the upcoming month
Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital
Debido a la revitalización lingüÃstica en el Perú a lo largo de los últimos años, existe un
creciente interés por reforzar la educación bilingüe en el paÃs y aumentar la investigación
enfocada en sus lenguas nativas. Asimismo, hay que considerar que en el Perú actualmente
alrededor de 4 millones de personas hablan alguna de las 47 lenguas nativas conservadas. Por
tanto, hay una gran variedad de lenguas con las cuales trabajar, por lo que serÃa de utilidad
contar con herramientas automáticas que permitan agilizar algunas tareas en el estudio e
investigación de dichas lenguas.
De este modo, y desde el punto de vista de la informática, una de las primeras y
principales tareas lingüÃsticas que incorporan métodos computacionales es la identificación
automática de lenguaje, la cual se refiere a determinar el lenguaje en el que está escrito un
texto dado, el cual puede ser un documento, un párrafo o incluso una oración. Este además es
un paso esencial en el procesamiento automático de los datos del mundo real, donde una
multitud de lenguajes pueden estar presentes, ya que las técnicas de procesamiento del
lenguaje natural tÃpicamente presuponen que todos los documentos a ser procesados están
escritos en un lenguaje dado.
Por lo tanto, este trabajo se enfoca en tres pasos: (1) en construir desde cero un corpus
anotado digital para 49 lenguas y dialectos indÃgenas peruanos, (2) en adaptarse a los
enfoques de aprendizaje de máquina estándar y profundo para la identificación de lenguas, y
(3) en comparar estadÃsticamente los resultados obtenidos.
Los resultados obtenidos fueron prometedores, el modelo estándar superó al modelo de
aprendizaje profundo tal como se esperaba, con una precisión promedio de 95.9%. En el
futuro, se espera que se aproveche el corpus y el modelo para tareas más complejas.Tesi