11 research outputs found
Desarrollo de recursos léxicos multi-dialécticos para el quechua
Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de
ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas
de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este
tipo, de esa forma poder contribuir en la preservación de la lengua. El objetivo de esta investigación
es construir una WordNet (base de datos léxica) para las variedades quechua sureño,
central, amazónico y norteño, y un un etiquetado gramatical de secuencias de palabras (POS
tagging) para la variedad del quechua sureño. Para el desarrollo de esta investigación se recopiló
información de los diccionarios y se creó corpus paralelo quechua - español, se implementó
un algoritmo de clasificación para alinear el sentido de las palabras con el synset del significado
en español para cada variedad de la lengua quechua y finalmente se creó un modelo de
etiquetación gramatical basado en el modelo BERT. El score obtenido para el POS tagging de
la variedad quechua sureño fue 0.85% y para el quechua central 0.8 %
Medida de distancia semántica en grafos UNL
El trabajo que se presenta a continuación desarrolla un modelo para calcular la
distancia semántica entre dos oraciones representadas por grafos UNL. Este problema
se plantea en el contexto de la traducción automática donde diferentes traductores
pueden generar oraciones ligeramente diferentes partiendo del mismo
original. La medida de distancia que se propone tiene como objetivo proporcionar
una evaluación objetiva sobre la calidad del proceso de generación del texto.
El autor realiza una exploración del estado del arte sobre esta materia, reuniendo
en un único trabajo los modelos propuestos de distancia semántica entre conceptos,
los modelos de comparación de grafos y las pocas propuestas realizadas para
calcular distancias entre grafos conceptuales. También evalúa los pocos recursos
disponibles para poder experimentar el modelo y plantea una metodología para
generar los conjuntos de datos que permitirían aplicar la propuesta con el rigor
científico necesario y desarrollar la experimentación.
Utilizando las piezas anteriores se propone un modelo novedoso de comparación
entre grafos conceptuales que permite utilizar diferentes algoritmos de distancia
entre conceptos y establecer umbrales de tolerancia para permitir una comparación
flexible entre las oraciones.
Este modelo se programa utilizando C++, se alimenta con los recursos a los que se
ha hecho referencia anteriormente, y se experimenta con un conjunto de oraciones
creado por el autor ante la falta de otros recursos disponibles.
Los resultados del modelo muestran que la metodología y la implementación pueden
conducir a la obtención de una medida de distancia entre grafos UNL con
aplicación en sistemas de traducción automática, sin embargo, la carencia de recursos
y de datos etiquetados con los que validar el algoritmo requieren un esfuerzo
previo importante antes de poder ofrecer resultados concluyentes.---ABSTRACT---The work presented here develops a model to calculate the semantic distance between
two sentences represented by their UNL graphs. This problem arises in the
context of machine translation where different translators can generate slightly
different sentences from the same original. The distance measure that is proposed
aims to provide an objective evaluation on the quality of the process involved in
the generation of text.
The author carries out an exploration of the state of the art on this subject, bringing
together in a single work the proposed models of semantic distance between concepts,
models for comparison of graphs and the few proposals made to calculate
distances between conceptual graphs. It also assesses the few resources available
to experience the model and presents a methodology to generate the datasets that
would be needed to develop the proposal with the scientific rigor required and to
carry out the experimentation.
Using the previous parts a new model is proposed to compute differences between
conceptual graphs; this model allows the use of different algorithms of distance
between concepts and is parametrized in order to be able to perform a flexible
comparison between the resulting sentences.
This model is implemented in C++ programming language, it is powered with the
resources referenced above and is experienced with a set of sentences created by
the author due to the lack of other available resources.
The results of the model show that the methodology and the implementation can
lead to the achievement of a measure of distance between UNL graphs with application
in machine translation systems, however, lack of resources and of labeled
data to validate the algorithm requires an important effort to be done first in order
to be able to provide conclusive results
XR Academia:Research and Experiences in Virtual Reality, Augmented Reality, Mixed Reality, and Artificial Intelligence in Latin America and Europe
The book XR Academia: Research and Experiences in Virtual Reality, Augmented Reality, Mixed Reality, and Artificial Intelligence in Latin America and Europe, has at its core the objective of making immersive technology accessible and visible worldwide, with the simultaneous breaking-down of linguistic barriers. Both European and Latin American authors can read each other’s work(s), allowing knowledge and experience in extended reality to be shared. Another important aspect of XR Academia is its attempt to introduce an open science contribution to the issues of immersive technologies, in order to inspire new generations that do not have access to increasingly expensive publications. This volume includes fourteen selected chapters from presenters from the 2020 and 2021 events. These chapters describe research and experiences on a wide range of XR applications, which include entertainment, health, narration, education, psychotherapy, guidance, language, culture and arts. Considering that great inventions and innovations are developed in Latin America but fail to be published internationally, our aim was to open a door to allow the permanent exchange between two languages: Spanish and English
A revision of techniques for WordNet construction following the expand model
Este artículo ofrece una revisión de métodos para la construcción de WordNets siguiendo la estrategia de expansión, es decir, mediante la traducción de las variantes inglesas del Princeton WordNet. En el proceso de construcción se han utilizado recursos libres disponibles en Internet. El artículo presenta también los resultados de la evaluación de las técnicas en la construcción de los WordNets 3.0 para el castellano y catalán. Estas técnicas se pueden utilizar para la construcción de WordNets para otras lenguas.This paper presents a review of methods for building WordNets following the expand model, that is, by translating the English variants of the Princeton WordNet. Only free resources available online have been used. The paper also presents the evaluation of the techniques applied in the construction of Spanish and Catalan WordNets 3.0. These techniques can be also used for other languages.Este trabajo se ha llevado a cabo dentro del proyecto Know2 Language understanding technologies for multilingual domain-oriented information access (MICINN, TINN2009-14715-C04-04)
Aproximación a la lingüística computacional
520 p.Esta tesis surge con el objetivo de intentar dar respuesta, desde la perspectiva de la Lingüística, a una serie de preguntas básicas planteadas a raíz de una primera toma de contacto con el campo de la Lingüística Computacional. En primer lugar, buscando delimitar el objeto, finalidad, líneas de investigación e historia de la disciplina. En segundo lugar, analizando las implicaciones del tratamiento computacional del lenguaje a través de sus principales áreas de trabajo, así como algunas de las aplicaciones de la LC. Por último, incidiendo en uno de los aspectos que más interés han suscitado, el de la recopilación de grandes muestras textuales de uso de la lengua, o corpus. Todos estos puntos se han articulado en sendos materiales en línea que sirven desde hace algunos años como apoyo de la docencia de las asignaturas correspondientes de la licenciatura en Lingüística y que son de consulta libre para todos aquellos que quieran utilizarlo
Subsidia: Tools and Resources for Speech Sciences
Este libro, resultado de la colaboración de investigadores expertos en sus respectivas áreas, pretende ser una ayuda a la comunidad científica en tanto en cuanto recopila y describe una serie de materiales de gran utilidad para seguir avanzando en la investigació
Análisis comparativo de los subencabezamientos de forma independientes en lengua española
La presente tesis exhibe la variedad lingüística que existe en la lengua española, a través del estudio de los subencabezamientos de forma independientes, establecidos en la sección H 1095 del Subject Headings Manual de la Library of Congress de Estados Unidos, incluidos en las listas de encabezamientos de materia en lengua española. Pese a que en Hispanoamérica se habla una misma lengua, cada país presenta sus particularidades de tipo cultural y social, lo que la hace una lengua con múltiples matices lingüísticos presentes en su léxico. Esto influye ampliamente en los vocablos utilizados para describir el contenido de las obras. Para evitar caer en los accidentes propios del significado, como la polisemia, la antonimia, la homonimia y la sinonimia, se han desarrollado lenguajes controlados.
Los lenguajes controlados cumplen con normas y estándares para su desarrollo, lo que les permite la compatibilidad en su aplicación y el establecimiento de redes de cooperación. Entre estos lenguajes se encuentran las listas de encabezamientos de materia, empleadas para la indización en las unidades de información, principalmente en las bibliotecas. Aunque existen un gran número de listas editadas en lengua española, no siempre se han actualizado, quedándose muchas de ellas obsoletas, ante el ingreso de la nueva terminología nacida de las constantes innovaciones tecnológicas.
Los resultados obtenidos en esta investigación, ofrecen la oportunidad de conocer la variedad de la lengua española y la situación en que se encuentran los subencabezamientos, que se aplican como unidades lingüísticas, para describir la forma de un documento. Como producto final, se ofrece una herramienta que incluye cada una de las variantes en lengua española, que se identifican en las listas de encabezamientos hispanoamericanas
Revisión de técnicas para la construcción de WordNets mediante la estrategia de expansión
Este artículo ofrece una revisión de métodos para la construcción de WordNets siguiendo la estrategia de expansión, es decir, mediante la traducción de las variants inglesas del Princeton WordNet. En el proceso de construcción se han utilizado recursos libres disponibles en Internet. El artículo presenta también los resultados de la evaluación de las técnicas en la construcción de los WordNets 3.0 para el castellano y catalán. Estas técnicas se pueden utilizar para la construcción de WordNets para otras lenguas.This paper presents a review of methods for building WordNets following the expand model, that is, by translating the English variants of the Princeton WordNet. Only free resources available online have been used. The paper also presents the evaluation of the techniques applied in the construction of Spanish and Catalan WordNets 3.0. These techniques can be also used for other languages.Aquest article ofereix una revisió de mètodes per a la construcció de WordNets seguint l'estratègia d'expansió, és a dir, mitjançant la traducció de les variants angleses del Princeton WordNet. En el procés de construcció s'han utilitzat recursos lliures disponibles en Internet. L'article presenta també els resultats de l'avaluació de les tècniques en la construcció dels WordNets 3.0 per al castellà i català. Aquestes tècniques es poden utilitzar per la construcció de WordNets per a altres llengües
Proceedings of the International Congress on Interdisciplinarity in Social and Human Sciences
Interdisciplinarity is the main topic and the main goal of this conference.
Since the sixteen century with the creation of the first Academy of Sciences, in Napoles (Italy) (1568), and before
that with the creation of the Fine Arts Academies, the world of science and arts began to work independently, on
the contrary of the Academy of Plato, in Classical Antiquity, where science, art and sport went interconnected. Over
time, specific sciences began to be independent, and the specificity of sciences caused an increased difficulty in mutual
understanding.
The same trend has affected the Human and Social Sciences. Each of the specific sciences gave rise to a wide
range of particular fields. This has the advantage of allowing the deepening of specialised knowledge, but it means
that there is often only a piecemeal approach of the research object, not taking into account the its overall complexity.
So, it is important to work for a better understanding of the scientific phenomena with the complementarity of the different sciences, in an interdisciplinary perspective.
With this growing specialisation of sciences, Interdisciplinarity acquired more relevance for scientists to find moreencompassing and useful answers for their research questions.info:eu-repo/semantics/publishedVersio