11 research outputs found

    Desarrollo de recursos léxicos multi-dialécticos para el quechua

    Get PDF
    Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este tipo, de esa forma poder contribuir en la preservación de la lengua. El objetivo de esta investigación es construir una WordNet (base de datos léxica) para las variedades quechua sureño, central, amazónico y norteño, y un un etiquetado gramatical de secuencias de palabras (POS tagging) para la variedad del quechua sureño. Para el desarrollo de esta investigación se recopiló información de los diccionarios y se creó corpus paralelo quechua - español, se implementó un algoritmo de clasificación para alinear el sentido de las palabras con el synset del significado en español para cada variedad de la lengua quechua y finalmente se creó un modelo de etiquetación gramatical basado en el modelo BERT. El score obtenido para el POS tagging de la variedad quechua sureño fue 0.85% y para el quechua central 0.8 %

    Medida de distancia semántica en grafos UNL

    Get PDF
    El trabajo que se presenta a continuación desarrolla un modelo para calcular la distancia semántica entre dos oraciones representadas por grafos UNL. Este problema se plantea en el contexto de la traducción automática donde diferentes traductores pueden generar oraciones ligeramente diferentes partiendo del mismo original. La medida de distancia que se propone tiene como objetivo proporcionar una evaluación objetiva sobre la calidad del proceso de generación del texto. El autor realiza una exploración del estado del arte sobre esta materia, reuniendo en un único trabajo los modelos propuestos de distancia semántica entre conceptos, los modelos de comparación de grafos y las pocas propuestas realizadas para calcular distancias entre grafos conceptuales. También evalúa los pocos recursos disponibles para poder experimentar el modelo y plantea una metodología para generar los conjuntos de datos que permitirían aplicar la propuesta con el rigor científico necesario y desarrollar la experimentación. Utilizando las piezas anteriores se propone un modelo novedoso de comparación entre grafos conceptuales que permite utilizar diferentes algoritmos de distancia entre conceptos y establecer umbrales de tolerancia para permitir una comparación flexible entre las oraciones. Este modelo se programa utilizando C++, se alimenta con los recursos a los que se ha hecho referencia anteriormente, y se experimenta con un conjunto de oraciones creado por el autor ante la falta de otros recursos disponibles. Los resultados del modelo muestran que la metodología y la implementación pueden conducir a la obtención de una medida de distancia entre grafos UNL con aplicación en sistemas de traducción automática, sin embargo, la carencia de recursos y de datos etiquetados con los que validar el algoritmo requieren un esfuerzo previo importante antes de poder ofrecer resultados concluyentes.---ABSTRACT---The work presented here develops a model to calculate the semantic distance between two sentences represented by their UNL graphs. This problem arises in the context of machine translation where different translators can generate slightly different sentences from the same original. The distance measure that is proposed aims to provide an objective evaluation on the quality of the process involved in the generation of text. The author carries out an exploration of the state of the art on this subject, bringing together in a single work the proposed models of semantic distance between concepts, models for comparison of graphs and the few proposals made to calculate distances between conceptual graphs. It also assesses the few resources available to experience the model and presents a methodology to generate the datasets that would be needed to develop the proposal with the scientific rigor required and to carry out the experimentation. Using the previous parts a new model is proposed to compute differences between conceptual graphs; this model allows the use of different algorithms of distance between concepts and is parametrized in order to be able to perform a flexible comparison between the resulting sentences. This model is implemented in C++ programming language, it is powered with the resources referenced above and is experienced with a set of sentences created by the author due to the lack of other available resources. The results of the model show that the methodology and the implementation can lead to the achievement of a measure of distance between UNL graphs with application in machine translation systems, however, lack of resources and of labeled data to validate the algorithm requires an important effort to be done first in order to be able to provide conclusive results

    XR Academia:Research and Experiences in Virtual Reality, Augmented Reality, Mixed Reality, and Artificial Intelligence in Latin America and Europe

    Get PDF
    The book XR Academia: Research and Experiences in Virtual Reality, Augmented Reality, Mixed Reality, and Artificial Intelligence in Latin America and Europe, has at its core the objective of making immersive technology accessible and visible worldwide, with the simultaneous breaking-down of linguistic barriers. Both European and Latin American authors can read each other’s work(s), allowing knowledge and experience in extended reality to be shared. Another important aspect of XR Academia is its attempt to introduce an open science contribution to the issues of immersive technologies, in order to inspire new generations that do not have access to increasingly expensive publications. This volume includes fourteen selected chapters from presenters from the 2020 and 2021 events. These chapters describe research and experiences on a wide range of XR applications, which include entertainment, health, narration, education, psychotherapy, guidance, language, culture and arts. Considering that great inventions and innovations are developed in Latin America but fail to be published internationally, our aim was to open a door to allow the permanent exchange between two languages: Spanish and English

    A revision of techniques for WordNet construction following the expand model

    Get PDF
    Este artículo ofrece una revisión de métodos para la construcción de WordNets siguiendo la estrategia de expansión, es decir, mediante la traducción de las variantes inglesas del Princeton WordNet. En el proceso de construcción se han utilizado recursos libres disponibles en Internet. El artículo presenta también los resultados de la evaluación de las técnicas en la construcción de los WordNets 3.0 para el castellano y catalán. Estas técnicas se pueden utilizar para la construcción de WordNets para otras lenguas.This paper presents a review of methods for building WordNets following the expand model, that is, by translating the English variants of the Princeton WordNet. Only free resources available online have been used. The paper also presents the evaluation of the techniques applied in the construction of Spanish and Catalan WordNets 3.0. These techniques can be also used for other languages.Este trabajo se ha llevado a cabo dentro del proyecto Know2 Language understanding technologies for multilingual domain-oriented information access (MICINN, TINN2009-14715-C04-04)

    Aproximación a la lingüística computacional

    Get PDF
    520 p.Esta tesis surge con el objetivo de intentar dar respuesta, desde la perspectiva de la Lingüística, a una serie de preguntas básicas planteadas a raíz de una primera toma de contacto con el campo de la Lingüística Computacional. En primer lugar, buscando delimitar el objeto, finalidad, líneas de investigación e historia de la disciplina. En segundo lugar, analizando las implicaciones del tratamiento computacional del lenguaje a través de sus principales áreas de trabajo, así como algunas de las aplicaciones de la LC. Por último, incidiendo en uno de los aspectos que más interés han suscitado, el de la recopilación de grandes muestras textuales de uso de la lengua, o corpus. Todos estos puntos se han articulado en sendos materiales en línea que sirven desde hace algunos años como apoyo de la docencia de las asignaturas correspondientes de la licenciatura en Lingüística y que son de consulta libre para todos aquellos que quieran utilizarlo

    Subsidia: Tools and Resources for Speech Sciences

    Get PDF
    Este libro, resultado de la colaboración de investigadores expertos en sus respectivas áreas, pretende ser una ayuda a la comunidad científica en tanto en cuanto recopila y describe una serie de materiales de gran utilidad para seguir avanzando en la investigació

    Análisis comparativo de los subencabezamientos de forma independientes en lengua española

    Get PDF
    La presente tesis exhibe la variedad lingüística que existe en la lengua española, a través del estudio de los subencabezamientos de forma independientes, establecidos en la sección H 1095 del Subject Headings Manual de la Library of Congress de Estados Unidos, incluidos en las listas de encabezamientos de materia en lengua española. Pese a que en Hispanoamérica se habla una misma lengua, cada país presenta sus particularidades de tipo cultural y social, lo que la hace una lengua con múltiples matices lingüísticos presentes en su léxico. Esto influye ampliamente en los vocablos utilizados para describir el contenido de las obras. Para evitar caer en los accidentes propios del significado, como la polisemia, la antonimia, la homonimia y la sinonimia, se han desarrollado lenguajes controlados. Los lenguajes controlados cumplen con normas y estándares para su desarrollo, lo que les permite la compatibilidad en su aplicación y el establecimiento de redes de cooperación. Entre estos lenguajes se encuentran las listas de encabezamientos de materia, empleadas para la indización en las unidades de información, principalmente en las bibliotecas. Aunque existen un gran número de listas editadas en lengua española, no siempre se han actualizado, quedándose muchas de ellas obsoletas, ante el ingreso de la nueva terminología nacida de las constantes innovaciones tecnológicas. Los resultados obtenidos en esta investigación, ofrecen la oportunidad de conocer la variedad de la lengua española y la situación en que se encuentran los subencabezamientos, que se aplican como unidades lingüísticas, para describir la forma de un documento. Como producto final, se ofrece una herramienta que incluye cada una de las variantes en lengua española, que se identifican en las listas de encabezamientos hispanoamericanas

    Revisión de técnicas para la construcción de WordNets mediante la estrategia de expansión

    No full text
    Este artículo ofrece una revisión de métodos para la construcción de WordNets siguiendo la estrategia de expansión, es decir, mediante la traducción de las variants inglesas del Princeton WordNet. En el proceso de construcción se han utilizado recursos libres disponibles en Internet. El artículo presenta también los resultados de la evaluación de las técnicas en la construcción de los WordNets 3.0 para el castellano y catalán. Estas técnicas se pueden utilizar para la construcción de WordNets para otras lenguas.This paper presents a review of methods for building WordNets following the expand model, that is, by translating the English variants of the Princeton WordNet. Only free resources available online have been used. The paper also presents the evaluation of the techniques applied in the construction of Spanish and Catalan WordNets 3.0. These techniques can be also used for other languages.Aquest article ofereix una revisió de mètodes per a la construcció de WordNets seguint l'estratègia d'expansió, és a dir, mitjançant la traducció de les variants angleses del Princeton WordNet. En el procés de construcció s'han utilitzat recursos lliures disponibles en Internet. L'article presenta també els resultats de l'avaluació de les tècniques en la construcció dels WordNets 3.0 per al castellà i català. Aquestes tècniques es poden utilitzar per la construcció de WordNets per a altres llengües

    Proceedings of the International Congress on Interdisciplinarity in Social and Human Sciences

    Get PDF
    Interdisciplinarity is the main topic and the main goal of this conference. Since the sixteen century with the creation of the first Academy of Sciences, in Napoles (Italy) (1568), and before that with the creation of the Fine Arts Academies, the world of science and arts began to work independently, on the contrary of the Academy of Plato, in Classical Antiquity, where science, art and sport went interconnected. Over time, specific sciences began to be independent, and the specificity of sciences caused an increased difficulty in mutual understanding. The same trend has affected the Human and Social Sciences. Each of the specific sciences gave rise to a wide range of particular fields. This has the advantage of allowing the deepening of specialised knowledge, but it means that there is often only a piecemeal approach of the research object, not taking into account the its overall complexity. So, it is important to work for a better understanding of the scientific phenomena with the complementarity of the different sciences, in an interdisciplinary perspective. With this growing specialisation of sciences, Interdisciplinarity acquired more relevance for scientists to find moreencompassing and useful answers for their research questions.info:eu-repo/semantics/publishedVersio
    corecore