15 research outputs found

    Aplicaciones del procesamiento del lenguaje natural en la recuperación de información en español

    Get PDF
    [Resumen] La relación entre Procesamiento del Lenguaje Natural y Recuperación de Información viene dada por la variación lingüística del idioma, es decir, cómo un mismo concepto se puede expresar de formas diferentes mediante modificaciones en la expresión, constituyendo el principal problema en el ámbito de la Recuperación de Información, El objetivo de esta tesis es el desarrollo de tecnología de base para el Procesamiento del Lenguaje Natural y el estudio de la viabilidad de su aplicación en sistemas de Recuperación de Información sobre documentos en español. Si bien existen estudios similares para otras lenguas, con un claro dominio del inglés, el español ha quedado relegado frecuentemente a un segundo plano. Además, su mayor complejidad lingüística no permite una extrapolación inmediata de los resultados obtenidos para el inglés, demandando la realización de experimentos específicos. Sin embargo, hemos tenido que hacer frente a la carencia de recursos lingüísticos libremente accesibles para el español. Para ello se ha debido restringir la complejidad de las soluciones propuestas, centrándose en la utilización de información léxica, de obtención más sencilla. Además, para minimizar el coste computacional de cara a la aplicación en entornos prácticos, se ha hecho amplio uso de tecnología de estado finito. En este contexto se ha desarrollado, en primer lugar, un preprocesador avanzado de base lingüística para la tokenización y segmentación de textos. A nivel flexivo, se ha estudiado la utilización de la lematización en la normalización de términos simples. A nivel derivativo, se ha desarrollado una herramienta de generación automática de familias morfológicas - conjuntos de palabras ligadas derivativamente y que comparten la misma raiz - para su empleo en la normalización de términos simples

    Procesamiento de lenguaje natural para estudiar completitud de requisitos

    Get PDF
    La Ingeniería de Software incluye el estudio inicial de los requisitos del sistema de software a desarrollar. A ello se dedican los Ingenieros de Requisitos, generando modelos que logren representar las necesidades de los clientes y usuarios y las soluciones a las mismas. El desarrollo de modelos de requisitos en lenguaje natural facilita la interacción entre todos los involucrados, aunque contribuye a generar ambigüedades. Por otro lado se ha comprobado la existencia de omisiones en una cantidad muy superior a la imaginada intuitivamente. Por su propia naturaleza, las omisiones son notoriamente elusivas. El desarrollo de un mismo modelo acerca del mismo problema por personas diferentes es la forma más eficaz para vislumbrar la magnitud de las omisiones en el dominio de la Ingeniería de Requisitos y posiblemente en muchas otras áreas. Para realizar estudios sobre la completitud de los modelos desarrollados, a fin de mejorar la calidad de los mismos, se ha propuesto la generación de una herramienta de software que permita comparar modelos escritos en lenguaje natural. Se propone que esta herramienta utilice recursos del Procesamiento del Lenguaje Natural.Eje: Ingeniería de SoftwareRed de Universidades con Carreras en Informátic

    Procesamiento de lenguaje natural para estudiar completitud de requisitos

    Get PDF
    La Ingeniería de Software incluye el estudio inicial de los requisitos del sistema de software a desarrollar. A ello se dedican los Ingenieros de Requisitos, generando modelos que logren representar las necesidades de los clientes y usuarios y las soluciones a las mismas. El desarrollo de modelos de requisitos en lenguaje natural facilita la interacción entre todos los involucrados, aunque contribuye a generar ambigüedades. Por otro lado se ha comprobado la existencia de omisiones en una cantidad muy superior a la imaginada intuitivamente. Por su propia naturaleza, las omisiones son notoriamente elusivas. El desarrollo de un mismo modelo acerca del mismo problema por personas diferentes es la forma más eficaz para vislumbrar la magnitud de las omisiones en el dominio de la Ingeniería de Requisitos y posiblemente en muchas otras áreas. Para realizar estudios sobre la completitud de los modelos desarrollados, a fin de mejorar la calidad de los mismos, se ha propuesto la generación de una herramienta de software que permita comparar modelos escritos en lenguaje natural. Se propone que esta herramienta utilice recursos del Procesamiento del Lenguaje Natural.Eje: Ingeniería de SoftwareRed de Universidades con Carreras en Informátic

    Procesamiento de lenguaje natural para estudiar completitud de requisitos

    Get PDF
    La Ingeniería de Software incluye el estudio inicial de los requisitos del sistema de software a desarrollar. A ello se dedican los Ingenieros de Requisitos, generando modelos que logren representar las necesidades de los clientes y usuarios y las soluciones a las mismas. El desarrollo de modelos de requisitos en lenguaje natural facilita la interacción entre todos los involucrados, aunque contribuye a generar ambigüedades. Por otro lado se ha comprobado la existencia de omisiones en una cantidad muy superior a la imaginada intuitivamente. Por su propia naturaleza, las omisiones son notoriamente elusivas. El desarrollo de un mismo modelo acerca del mismo problema por personas diferentes es la forma más eficaz para vislumbrar la magnitud de las omisiones en el dominio de la Ingeniería de Requisitos y posiblemente en muchas otras áreas. Para realizar estudios sobre la completitud de los modelos desarrollados, a fin de mejorar la calidad de los mismos, se ha propuesto la generación de una herramienta de software que permita comparar modelos escritos en lenguaje natural. Se propone que esta herramienta utilice recursos del Procesamiento del Lenguaje Natural.Eje: Ingeniería de SoftwareRed de Universidades con Carreras en Informátic

    MARCO ONTOLÓGICO PARA LA ESTRUCTURACIÓN SEMÁNTICA Y LA RECUPERACIÓN DE RECURSOS BIBLIOGRÁFICOS EMPLEANDO PROCESAMIENTO DEL LENGUAJE NATURAL

    Get PDF
    Resumen: El proyecto tiene como propósito crear un modelo ontológico que describa y relacione los elementos requeridos para el procesamiento del lenguaje natural en el dominio de las búsquedas bibliográficas semánticas. Esta propuesta será abordada como una investigación del tipo descriptiva bajo un enfoque mixto dado que se pretende describir de modo sistemático las características de un modelo que describe una problemática muy común que puede ser abordada desde una perspectiva tecnológica. Palabras clave: Recuperación de la información, web semántica, procesamiento de lenguaje natural

    Methods on Natural Language Processing for Information Retrieval

    Get PDF
    En este artículo se describe el efecto de la integración de varias técnicas basadas en el procesamiento del lenguaje natural en sistemas de recuperación de información. Se estudiarán, en concreto, métodos de lematización, anotación de categorías morfosintácticas, identificación de nombres propios compuestos y análisis en dependencias. Una evaluación a gran escala con colecciones de documentos en español nos permitirá verificar que la combinación de estas técnicas con otras menos sofisticadas, tales como tokenización y eliminación de palabras gramaticales, contribuye a una mejora significativa de la calidad de los sistemas de recuperaciónIn this article, we describe the way in which different methods based on Natural Language Processing (NLP) can be integrated in Information Retrieval systems. More precisely, we will study NLP strategies such as lemmatization, PoS tagging, named entities recognition, and dependency-based parsing. A large scale evaluation on Spanish documents will be performed. This will allow us to verify whether these strategies combined with less complex NLP techniques (e.g., tokenization and stopwords removal) improve the quality of IR systems. The results reported at the end of the paper show that NLP-based strategies yield significant improvementsS

    Estudio de la portabilidad de un sistema de análisis de sentimiento de Tweets en castellano para el catalán

    Full text link
    [ES] El análisis de sentimiento en redes sociales, especialmente en Twitter, Facebook o Instagram ha sido objeto de central interés en los últimos años. Este análisis es clave para las compañías que buscan crecer su influencia, alcance y resultados. Para ello hay que recopilar datos de las redes y/o campañas sociales que después se puedan usar para dar seguimiento a tu rendimiento y así mejorarlo. Hay mucho trabajo relacionado para idiomas de uso extendido como el inglés o el español. Sin embargo, para otros idiomas más minoritarios, como el catalán, no existen tales herramientas. El objetivo de este TFG será desarrollar un sistema para tweets en catalán. Se realizará un doble enfoque para obtener el objetivo deseado: usar herramientas de traducción automática para utilizar modelos entrenados para otros idiomas (en particular, en español) y, adicionalmente, entrenar nuevos modelos específicos para el catalán a partir de datos originalmente creado en catalán y/o traducidos de datos en español. Finalmente, se compararán ambas aproximaciones y se generará un modelo híbrido.[CA] L'anàlisi de sentiment en xarxes socials, especialment en Twitter, Facebook o Instagram ha sigut objecte de central interés en els últims anys. Aquesta anàlisi és clau per a les companyies que busquen créixer la seua influència, abast i resultats. Per a això cal recopilar dades de les xarxes i/o campanyes socials que després es puguen usar per a donar seguiment al teu rendiment i així millorar-ho. Hi ha molta faena relacionada per a idiomes d'ús estés com l'anglés o l'espanyol. No obstant això, per a altres idiomes més minoritaris, com el català, no existeixen tals eines. L'objectiu d'aquest TFG serà desenvolupar un sistema per a tuits en català. Es realitzarà un doble enfocament per a obtindre l'objectiu desitjat: usar eines de traducció automàtica per a utilitzar models entrenats per a altres idiomes (en particular, en espanyol) i, addicionalment, entrenar nous models específics per al català a partir de dades originalment creat en català i/o traduïts de dades en espanyol. Finalment, es compararan totes dues aproximacions i es generarà un model hibride.[EN] Sentiment analysis on social networks, especially on Twitter, Facebook or Instagram, has been of central interest in recent years. This analysis is key for companies looking to grow their influence, reach and results. To do this you need to collect data from social networks and/or campaigns that can then be used to track and improve your performance. There is a lot of related work for widely used languages such as English or Spanish. However, for other more minority languages, such as Catalan, there are no such tools. The objective of this TFG will be to develop a system for tweets in Catalan. A two-fold approach will be carried out to obtain the desired goal: using machine translation tools to use models trained for other languages (in particular, Spanish) and, additionally, training new models specific for Catalan from data originally created in Catalan and/or translated from Spanish data. Finally, both approaches will be compared and a hybrid model will be generated.Davia García, A. (2021). Estudio de la portabilidad de un sistema de análisis de sentimiento de Tweets en castellano para el catalán. Universitat Politècnica de València. http://hdl.handle.net/10251/173681TFG

    Aplicaciones del procesamiento del lenguaje natural en la recuperación de información en español

    No full text
    Tesis doctoral en Informática realizada por Jesús Vilares Ferro bajo la dirección de los doctores Miguel Ángel Alonso Pardo y José Luis Freire Nistal (Universidade da Coruña). El acto de defensa de la tesis tuvo lugar el 20 de mayo de 2005 ante el tribunal formado por los doctores Gabriel Pereira Lopes (Universidade Nova de Lisboa, Portugal), John Irving Tait (University of Sunderland, Reino Unido), Carlos Martín Vide (Universidad Rovira i Virgili), Eric Villemonte de la Clergerie (Institut National de Recherche en Informatique et en Automatique - INRIA, Francia) y Jorge Graña Gil (Universidade da Coruña). La calificación obtenida fue Sobresaliente Cum Laude, con mención de Doctor Europeo. Se puede obtener más información acerca de la tesis en http://www.grupocole.org.PhD Thesis in Computer Science written by Jesús Vilares Ferro under the supervision of Dr. Miguel Ángel Alonso Pardo and Dr. José Luis Freire Nistal (Universidade da Coruña, Spain). The author was examined on 20th May, 2005 by the commitee formed by Dr. Gabriel Pereira Lopes (Universidade Nova de Lisboa, Portugal), Dr. John Irving Tait (University of Sunderland, United Kingdom), Dr. Carlos Martín Vide (Universidad Rovira i Virgili, Spain), Dr. Eric Villemonte de la Clergerie (Institut National de Recherche en Informatique et en Automatique - INRIA, France) and Dr. Jorge Graña Gil (Universidade da Coruña, Spain). The grade obtained was Sobresaliente Cum Laude, with a European Doctor mention. Further information is available at http://www.grupocole.org

    Análisis de expresiones de búsqueda relacionadas con industrias culturales en un motor de búsqueda

    Full text link
    [ES] En este trabajo se ha desarrollado un análisis sobre un listado de expresiones de búsqueda relacionas con industrias culturales en un motor de búsqueda. El objetivo principal de este estudio es encontrar una metodología de trabajo efectiva sobre conjuntos masivos de datos consistentes en expresiones de búsqueda o palabras clave extraídas de motores de búsqueda, con independencia de su temática. Para llevarlo a cabo se partió de un listado de expresiones de búsqueda relacionas con industrias culturales extraídas de Google mediante el uso de la herramienta Google Keyword Planner. Tras probar diferentes conjuntos de datos y herramientas especializadas en análisis de grafos, finalmente se decidió trabajar con una muestra aleatoria del 5% de los datos originales y el programa Gephi. A partir de esta muestra se creó una matriz que enfrentaba cada búsqueda de la muestra con el resto de búsquedas y recogía el número de palabras que coincidían en cada caso. Además, se eliminó la diagonal de la matriz y los conectores más comunes de las búsquedas para evitar sesgos y ruido. Con esta matriz y mediante el algoritmo Fruchterman Reingold se obtuvo un grafo formado por 1.506 nodos y 28.242 aristas que contenía 27 comunidades, siendo la comunidad más grande y céntrica, la correspondiente al conjunto formado por las expresiones contenedoras de la palabra clave “libros”. Dados los resultados, les puede considerar que la metodología final propuesta es efectiva y cabría tenerla en cuenta para poder replicarla en el futuro a una escala mayor[EN] In this paper an analysis has been developed on a list of queries related to cultural industries in a search engine. The main objective of the study is to find an effective working methodology on massive datasets consisting of queries or keywords extracted from search engines, regardless of their subject matter. To carry it out, we started from a list of search expressions related to cultural industries extracted from Google using the Google Keyword Planner tool. After testing different data sets and specialized tools in graph analysis, it was decided to work with a random sample of a 5% of the original dataset and the Gephi software. From this sample, a matrix was created that compared each query of the sample with the rest of the queries and collected the number of words that matched in each case. In addition, the diagonal of the matrix and the most common connectors of the searches were eliminated to avoid bias and noise. With this matrix and working with the Fruchterman Reingold algorithm, a graph formed by 1,506 nodes and 28,242 edges was obtained that contained 27 communities, where the largest and most central community being the one corresponding to the set formed by the expressions containing the keyword “libros”. Given the results, it can be considered that the final proposed methodology is effective and should be taken into account to be able to replicate it in the future on a larger scaleDasí Osca, A. (2020). Análisis de expresiones de búsqueda relacionadas con industrias culturales en un motor de búsqueda. http://hdl.handle.net/10251/153761TFG

    Interfaz de consulta en idioma español para la búsqueda de información en un ambiente académico

    Get PDF
    98 páginas. Maestría en Ciencias de la Computación.En este trabajo se aborda un sistema de consulta en idioma español de México para la búsqueda de información de dominio académico, mediante un modelo de segmentación y construcción de recursos léxicos, así como un análisis y enriquecimiento de un sistema de ontologías modulares en un ambiente académico. El sistema de consulta es implementado para recibir como entrada preguntas en idioma español del tipo ¿Dónde?, ¿Cuándo? y ¿Quién?, las cuales permiten identificar una tupla ontológica para la consulta al sistema de ontologías y que no utilizan un módulo de traducción como los trabajos reportados en la literatura. La metodología implementada permite la identificación de patrones estructurales para la búsqueda en SQWRL en el sistema de ontologías. Se realizó una evaluación en el reconocimiento de voz y en las respuestas recibidas por parte del modelo semántico, las preguntas son extraídas de expertos en el dominio académico. En esta tesis se realiza una interfaz de consulta en idioma español dentro de un dominio académico con una precisión de 92 %. Su evaluación es una aportación dentro del procesamiento de lenguaje natural con lexicones especializados, patrones estructurales que permiten realizar la búsqueda dentro de un sistema de ontologías, con un enriquecimiento en sus propiedades, clases e individuos
    corecore