15 research outputs found
Aplicaciones del procesamiento del lenguaje natural en la recuperación de información en español
[Resumen]
La relación entre Procesamiento del Lenguaje Natural y Recuperación de Información viene dada por la variación lingüística del idioma, es decir, cómo un mismo concepto se puede expresar de formas diferentes mediante modificaciones en la expresión, constituyendo el principal problema en el ámbito de la Recuperación de Información, El objetivo de esta tesis es el desarrollo de tecnología de base para el Procesamiento del Lenguaje Natural y el estudio de la viabilidad de su aplicación en sistemas de Recuperación de Información sobre documentos en español. Si bien existen estudios similares para otras lenguas, con un claro dominio del inglés, el español ha quedado relegado frecuentemente a un segundo plano. Además, su mayor complejidad lingüística no permite una extrapolación inmediata de los resultados obtenidos para el inglés, demandando la realización de experimentos específicos.
Sin embargo, hemos tenido que hacer frente a la carencia de recursos lingüísticos libremente accesibles para el español. Para ello se ha debido restringir la complejidad de las soluciones propuestas, centrándose en la utilización de información léxica, de obtención más sencilla. Además, para minimizar el coste computacional de cara a la aplicación en entornos prácticos, se ha hecho amplio uso de tecnología de estado finito.
En este contexto se ha desarrollado, en primer lugar, un preprocesador avanzado de base lingüística para la tokenización y segmentación de textos.
A nivel flexivo, se ha estudiado la utilización de la lematización en la normalización de términos simples. A nivel derivativo, se ha desarrollado una herramienta de generación automática de familias morfológicas - conjuntos de palabras ligadas derivativamente y que comparten la misma raiz - para su empleo en la normalización de términos simples
Procesamiento de lenguaje natural para estudiar completitud de requisitos
La Ingeniería de Software incluye el estudio inicial de los requisitos del sistema de software a desarrollar. A ello se dedican los Ingenieros de Requisitos, generando modelos que logren representar las necesidades de los clientes y usuarios y las soluciones a las mismas. El desarrollo de modelos de requisitos en lenguaje natural facilita la interacción entre todos los involucrados, aunque contribuye a generar ambigüedades. Por otro lado se ha comprobado la existencia de omisiones en una cantidad muy superior a la imaginada intuitivamente. Por su propia naturaleza, las omisiones son notoriamente elusivas. El desarrollo de un mismo modelo acerca del mismo problema por personas diferentes es la forma más eficaz para vislumbrar la magnitud de las omisiones en el dominio de la Ingeniería de Requisitos y posiblemente en muchas otras áreas. Para realizar estudios sobre la completitud de los modelos desarrollados, a fin de mejorar la calidad de los mismos, se ha propuesto la generación de una herramienta de software que permita comparar modelos escritos en lenguaje natural. Se propone que esta herramienta utilice recursos del Procesamiento del Lenguaje Natural.Eje: Ingeniería de SoftwareRed de Universidades con Carreras en Informátic
Procesamiento de lenguaje natural para estudiar completitud de requisitos
La Ingeniería de Software incluye el estudio inicial de los requisitos del sistema de software a desarrollar. A ello se dedican los Ingenieros de Requisitos, generando modelos que logren representar las necesidades de los clientes y usuarios y las soluciones a las mismas. El desarrollo de modelos de requisitos en lenguaje natural facilita la interacción entre todos los involucrados, aunque contribuye a generar ambigüedades. Por otro lado se ha comprobado la existencia de omisiones en una cantidad muy superior a la imaginada intuitivamente. Por su propia naturaleza, las omisiones son notoriamente elusivas. El desarrollo de un mismo modelo acerca del mismo problema por personas diferentes es la forma más eficaz para vislumbrar la magnitud de las omisiones en el dominio de la Ingeniería de Requisitos y posiblemente en muchas otras áreas. Para realizar estudios sobre la completitud de los modelos desarrollados, a fin de mejorar la calidad de los mismos, se ha propuesto la generación de una herramienta de software que permita comparar modelos escritos en lenguaje natural. Se propone que esta herramienta utilice recursos del Procesamiento del Lenguaje Natural.Eje: Ingeniería de SoftwareRed de Universidades con Carreras en Informátic
Procesamiento de lenguaje natural para estudiar completitud de requisitos
La Ingeniería de Software incluye el estudio inicial de los requisitos del sistema de software a desarrollar. A ello se dedican los Ingenieros de Requisitos, generando modelos que logren representar las necesidades de los clientes y usuarios y las soluciones a las mismas. El desarrollo de modelos de requisitos en lenguaje natural facilita la interacción entre todos los involucrados, aunque contribuye a generar ambigüedades. Por otro lado se ha comprobado la existencia de omisiones en una cantidad muy superior a la imaginada intuitivamente. Por su propia naturaleza, las omisiones son notoriamente elusivas. El desarrollo de un mismo modelo acerca del mismo problema por personas diferentes es la forma más eficaz para vislumbrar la magnitud de las omisiones en el dominio de la Ingeniería de Requisitos y posiblemente en muchas otras áreas. Para realizar estudios sobre la completitud de los modelos desarrollados, a fin de mejorar la calidad de los mismos, se ha propuesto la generación de una herramienta de software que permita comparar modelos escritos en lenguaje natural. Se propone que esta herramienta utilice recursos del Procesamiento del Lenguaje Natural.Eje: Ingeniería de SoftwareRed de Universidades con Carreras en Informátic
MARCO ONTOLÓGICO PARA LA ESTRUCTURACIÓN SEMÁNTICA Y LA RECUPERACIÓN DE RECURSOS BIBLIOGRÁFICOS EMPLEANDO PROCESAMIENTO DEL LENGUAJE NATURAL
Resumen: El proyecto tiene como propósito crear un modelo ontológico que describa y relacione los elementos requeridos para el procesamiento del lenguaje natural en el dominio de las búsquedas bibliográficas semánticas. Esta propuesta será abordada como una investigación del tipo descriptiva bajo un enfoque mixto dado que se pretende describir de modo sistemático las características de un modelo que describe una problemática muy común que puede ser abordada desde una perspectiva tecnológica. Palabras clave: Recuperación de la información, web semántica, procesamiento de lenguaje natural
Methods on Natural Language Processing for Information Retrieval
En este artículo se describe el efecto de la integración de varias técnicas basadas en el procesamiento
del lenguaje natural en sistemas de recuperación de información. Se estudiarán, en concreto, métodos
de lematización, anotación de categorías morfosintácticas, identificación de nombres propios
compuestos y análisis en dependencias. Una evaluación a gran escala con colecciones de documentos
en español nos permitirá verificar que la combinación de estas técnicas con otras menos sofisticadas,
tales como tokenización y eliminación de palabras gramaticales, contribuye a una mejora significativa
de la calidad de los sistemas de recuperaciónIn this article, we describe the way in which different methods based on Natural Language Processing
(NLP) can be integrated in Information Retrieval systems. More precisely, we will study NLP strategies
such as lemmatization, PoS tagging, named entities recognition, and dependency-based parsing. A large
scale evaluation on Spanish documents will be performed. This will allow us to verify whether these
strategies combined with less complex NLP techniques (e.g., tokenization and stopwords removal)
improve the quality of IR systems. The results reported at the end of the paper show that NLP-based
strategies yield significant improvementsS
Estudio de la portabilidad de un sistema de análisis de sentimiento de Tweets en castellano para el catalán
[ES] El análisis de sentimiento en redes sociales, especialmente en Twitter, Facebook o
Instagram ha sido objeto de central interés en los últimos años. Este análisis es clave
para las compañías que buscan crecer su influencia, alcance y resultados. Para ello hay
que recopilar datos de las redes y/o campañas sociales que después se puedan usar
para dar seguimiento a tu rendimiento y así mejorarlo.
Hay mucho trabajo relacionado para idiomas de uso extendido como el inglés o el
español. Sin embargo, para otros idiomas más minoritarios, como el catalán, no existen
tales herramientas. El objetivo de este TFG será desarrollar un sistema para tweets en
catalán. Se realizará un doble enfoque para obtener el objetivo deseado: usar
herramientas de traducción automática para utilizar modelos entrenados para otros
idiomas (en particular, en español) y, adicionalmente, entrenar nuevos modelos
específicos para el catalán a partir de datos originalmente creado en catalán y/o
traducidos de datos en español. Finalmente, se compararán ambas aproximaciones y
se generará un modelo híbrido.[CA] L'anàlisi de sentiment en xarxes socials, especialment en Twitter, Facebook o
Instagram ha sigut objecte de central interés en els últims anys. Aquesta anàlisi és clau
per a les companyies que busquen créixer la seua influència, abast i resultats. Per a
això cal recopilar dades de les xarxes i/o campanyes socials que després es puguen
usar per a donar seguiment al teu rendiment i així millorar-ho.
Hi ha molta faena relacionada per a idiomes d'ús estés com l'anglés o l'espanyol. No
obstant això, per a altres idiomes més minoritaris, com el català, no existeixen tals eines.
L'objectiu d'aquest TFG serà desenvolupar un sistema per a tuits en català. Es realitzarà
un doble enfocament per a obtindre l'objectiu desitjat: usar eines de traducció automàtica
per a utilitzar models entrenats per a altres idiomes (en particular, en espanyol) i,
addicionalment, entrenar nous models específics per al català a partir de dades
originalment creat en català i/o traduïts de dades en espanyol. Finalment, es compararan
totes dues aproximacions i es generarà un model hibride.[EN] Sentiment analysis on social networks, especially on Twitter, Facebook or Instagram,
has been of central interest in recent years. This analysis is key for companies looking
to grow their influence, reach and results. To do this you need to collect data from social
networks and/or campaigns that can then be used to track and improve your
performance.
There is a lot of related work for widely used languages such as English or Spanish.
However, for other more minority languages, such as Catalan, there are no such tools.
The objective of this TFG will be to develop a system for tweets in Catalan. A two-fold
approach will be carried out to obtain the desired goal: using machine translation tools
to use models trained for other languages (in particular, Spanish) and, additionally,
training new models specific for Catalan from data originally created in Catalan and/or
translated from Spanish data. Finally, both approaches will be compared and a hybrid
model will be generated.Davia García, A. (2021). Estudio de la portabilidad de un sistema de análisis de sentimiento de Tweets en castellano para el catalán. Universitat Politècnica de València. http://hdl.handle.net/10251/173681TFG
Aplicaciones del procesamiento del lenguaje natural en la recuperación de información en español
Tesis doctoral en Informática realizada por Jesús Vilares Ferro bajo la dirección de los doctores Miguel Ángel Alonso Pardo y José Luis Freire Nistal (Universidade da Coruña). El acto de defensa de la tesis tuvo lugar el 20 de mayo de 2005 ante el tribunal formado por los doctores Gabriel Pereira Lopes (Universidade Nova de Lisboa, Portugal), John Irving Tait (University of Sunderland, Reino Unido), Carlos Martín Vide (Universidad Rovira i Virgili), Eric Villemonte de la Clergerie (Institut National de Recherche en Informatique et en Automatique - INRIA, Francia) y Jorge Graña Gil (Universidade da Coruña). La calificación obtenida fue Sobresaliente Cum Laude, con mención de Doctor Europeo. Se puede obtener más información acerca de la tesis en http://www.grupocole.org.PhD Thesis in Computer Science written by Jesús Vilares Ferro under the supervision of Dr. Miguel Ángel Alonso Pardo and Dr. José Luis Freire Nistal (Universidade da Coruña, Spain). The author was examined on 20th May, 2005 by the commitee formed by Dr. Gabriel Pereira Lopes (Universidade Nova de Lisboa, Portugal), Dr. John Irving Tait (University of Sunderland, United Kingdom), Dr. Carlos Martín Vide (Universidad Rovira i Virgili, Spain), Dr. Eric Villemonte de la Clergerie (Institut National de Recherche en Informatique et en Automatique - INRIA, France) and Dr. Jorge Graña Gil (Universidade da Coruña, Spain). The grade obtained was Sobresaliente Cum Laude, with a European Doctor mention. Further information is available at http://www.grupocole.org
Análisis de expresiones de búsqueda relacionadas con industrias culturales en un motor de búsqueda
[ES] En este trabajo se ha desarrollado un análisis sobre un listado de
expresiones de búsqueda relacionas con industrias culturales en un motor de
búsqueda. El objetivo principal de este estudio es encontrar una metodología de
trabajo efectiva sobre conjuntos masivos de datos consistentes en expresiones de
búsqueda o palabras clave extraídas de motores de búsqueda, con independencia de
su temática. Para llevarlo a cabo se partió de un listado de expresiones de búsqueda
relacionas con industrias culturales extraídas de Google mediante el uso de la
herramienta Google Keyword Planner. Tras probar diferentes conjuntos de datos y
herramientas especializadas en análisis de grafos, finalmente se decidió trabajar con
una muestra aleatoria del 5% de los datos originales y el programa Gephi. A partir de
esta muestra se creó una matriz que enfrentaba cada búsqueda de la muestra con el
resto de búsquedas y recogía el número de palabras que coincidían en cada caso.
Además, se eliminó la diagonal de la matriz y los conectores más comunes de las
búsquedas para evitar sesgos y ruido. Con esta matriz y mediante el algoritmo
Fruchterman Reingold se obtuvo un grafo formado por 1.506 nodos y 28.242 aristas
que contenía 27 comunidades, siendo la comunidad más grande y céntrica, la
correspondiente al conjunto formado por las expresiones contenedoras de la palabra
clave “libros”. Dados los resultados, les puede considerar que la metodología final
propuesta es efectiva y cabría tenerla en cuenta para poder replicarla en el futuro a
una escala mayor[EN] In this paper an analysis has been developed on a list of queries related to cultural
industries in a search engine. The main objective of the study is to find an effective
working methodology on massive datasets consisting of queries or keywords extracted
from search engines, regardless of their subject matter. To carry it out, we started from
a list of search expressions related to cultural industries extracted from Google using
the Google Keyword Planner tool. After testing different data sets and specialized tools
in graph analysis, it was decided to work with a random sample of a 5% of the original
dataset and the Gephi software. From this sample, a matrix was created that compared
each query of the sample with the rest of the queries and collected the number of
words that matched in each case. In addition, the diagonal of the matrix and the most
common connectors of the searches were eliminated to avoid bias and noise. With this
matrix and working with the Fruchterman Reingold algorithm, a graph formed by 1,506
nodes and 28,242 edges was obtained that contained 27 communities, where the
largest and most central community being the one corresponding to the set formed by
the expressions containing the keyword “libros”. Given the results, it can be considered
that the final proposed methodology is effective and should be taken into account to be
able to replicate it in the future on a larger scaleDasí Osca, A. (2020). Análisis de expresiones de búsqueda relacionadas con industrias culturales en un motor de búsqueda. http://hdl.handle.net/10251/153761TFG
Interfaz de consulta en idioma español para la búsqueda de información en un ambiente académico
98 páginas. Maestría en Ciencias de la Computación.En este trabajo se aborda un sistema de consulta en idioma español de México para la búsqueda de información de dominio académico, mediante un modelo de segmentación y construcción de recursos léxicos, así como un análisis y enriquecimiento de un sistema de ontologías modulares en un ambiente académico. El sistema de consulta es implementado para recibir como entrada preguntas en idioma español del tipo ¿Dónde?, ¿Cuándo? y ¿Quién?, las cuales permiten identificar una tupla ontológica para la consulta al sistema de ontologías y que no utilizan un módulo de traducción como los trabajos reportados en la literatura. La metodología implementada permite la identificación de patrones estructurales para la búsqueda en SQWRL en el sistema de ontologías. Se realizó una evaluación en el reconocimiento de voz y en las respuestas recibidas por parte del modelo semántico, las preguntas son extraídas de expertos en el dominio académico. En esta tesis se realiza una interfaz de consulta en idioma español dentro de un dominio académico con una precisión de 92 %. Su evaluación es una aportación dentro del procesamiento de lenguaje natural con lexicones especializados, patrones estructurales que permiten realizar la búsqueda dentro de un sistema de ontologías, con un enriquecimiento en sus propiedades, clases e individuos