39,575 research outputs found

    Inducción de medidas de similitud utilizadas en tareas de procesamiento de lenguaje natural, mediante regresión simbólica

    Get PDF
    El procesamiento de lenguaje natural es un conjunto de tareas capaces de procesar el lenguaje oral y escrito mediante técnicas y métodos computacionales que permitan la manipulación de lenguajes naturales. Algunas de las tareas creadas para el procesamiento de lenguaje natural son: Recuperación de información, Detección de plagio, Desambiguación del sentido de las palabras, Generación automática de resúmenes, Detección de nombres de medicamentos confusos, Detección de palabras clave, Clasificación de tópicos, Clasificación de documentos, entre otras. A pesar de que el objetivo de las tareas del procesamiento de lenguaje natural es especifico para cada una de ellas, estas tareas comparten algunas características en común. Las características que comparten la mayoría de las tareas de procesamiento de lenguaje natural son: 1) Precisan una forma de representación de la información, 2) Requieren una función de similitud, 3) Necesitan un paradigma de evaluación. Estos tres elementos son de gran importancia al momento de desarrollar una aplicación de procesamiento de lenguaje natural, pero el elemento que más impacto tienen en su desarrollo es la función de similitud que se utiliza. Existe una gran cantidad de funciones de similitud que pueden ser aplicadas al procesamiento de lenguaje natural, y aunque estas funciones han demostrado generar buenos resultados, aún no existe una “mejor” función de similitud que genere resultados competitivos para todas las tareas de procesamiento de lenguaje. Existen investigaciones que tratan de resolver el problema de la “mejor” función de similitud, pero centrándose en generar una función de similitud especifica a cada aplicación de procesamiento de lenguaje natural. Una de las maneras de crear funciones de similitud especificas es a través de la inducción de los valores generados por funciones de similitud conocidas. A este proceso se le conoce como inducción de funciones de similitud. Existen diversos métodos de inducción, entre ellos análisis de regresión (técnica estadística), algoritmos genéticos, redes neuronales, regresión simbólica (técnicas computacionales), entre otras. Es esta tesis se propuso la aplicación de un método de inducción de funciones de similitud a través de regresión simbólica. El método propuesto genera funciones de similitud a través de la combinación inducida de valores de similitud generados por funciones conocidas. El método propuesto fue probado en dos tareas del procesamiento de lenguaje natural: detección de nombres de medicamentos confusos y desambiguación del sentido de las palabras. Los resultados del método propuesto aplicado a ambas tareas del procesamiento de lenguaje natural mencionadas generan buenas funciones de similitud, y los resultados al 7 evaluar las tareas con sus respectivos paradigmas de evaluación, muestran resultados superiores a otros métodos del estado del arte de dichas tareas. Los resultados finales de la evaluación de las tareas de procesamiento de lenguaje natural utilizando la función de similitud inducida por el método propuesto general resultados superiores a otros trabajos, por lo cual se comprueba la eficacia del método propuesto. El método propuesto está diseñado de tal forma que puede ser utilizado por diversas tareas del procesamiento de lenguaje natural, siempre y cuando estas cumplan con los tres componentes antes mencionados (una forma de representación de la información, función de similitud y paradigma de evaluación). En esta tesis se demuestra la aplicación del método a la detección de nombres de medicamentos confusos y desambiguación del sentido de las palabras, y se deja abierta la futura aplicación del método a otras tareas del procesamiento de lenguaje natural

    Aplicaciones del procesamiento del lenguaje natural en la recuperación de información en español

    Get PDF
    [Resumen] La relación entre Procesamiento del Lenguaje Natural y Recuperación de Información viene dada por la variación lingüística del idioma, es decir, cómo un mismo concepto se puede expresar de formas diferentes mediante modificaciones en la expresión, constituyendo el principal problema en el ámbito de la Recuperación de Información, El objetivo de esta tesis es el desarrollo de tecnología de base para el Procesamiento del Lenguaje Natural y el estudio de la viabilidad de su aplicación en sistemas de Recuperación de Información sobre documentos en español. Si bien existen estudios similares para otras lenguas, con un claro dominio del inglés, el español ha quedado relegado frecuentemente a un segundo plano. Además, su mayor complejidad lingüística no permite una extrapolación inmediata de los resultados obtenidos para el inglés, demandando la realización de experimentos específicos. Sin embargo, hemos tenido que hacer frente a la carencia de recursos lingüísticos libremente accesibles para el español. Para ello se ha debido restringir la complejidad de las soluciones propuestas, centrándose en la utilización de información léxica, de obtención más sencilla. Además, para minimizar el coste computacional de cara a la aplicación en entornos prácticos, se ha hecho amplio uso de tecnología de estado finito. En este contexto se ha desarrollado, en primer lugar, un preprocesador avanzado de base lingüística para la tokenización y segmentación de textos. A nivel flexivo, se ha estudiado la utilización de la lematización en la normalización de términos simples. A nivel derivativo, se ha desarrollado una herramienta de generación automática de familias morfológicas - conjuntos de palabras ligadas derivativamente y que comparten la misma raiz - para su empleo en la normalización de términos simples

    Diseño y construcción de procesos de explotación de información para el área de ciencias de la computación

    Get PDF
    El desarrollo de procesos de explotación de información aplicado a la recuperación de producciones científico-tecnológicas, exige resolver problemáticas específicas relacionadas con las entidades del dominio, tales como publicaciones, instituciones, y autores. Continuando con la línea general de este grupo de investigación, este trabajo aborda dos problemáticas actuales para la adecuada gestión de un servicio de recuperación de información en general, y del área de las Ciencias de la Computación en particular. Estas problemáticas incluyen la desambiguación y la recomendación de entidades asociadas a las producciones cientifico-tecnológicas. El abordaje propuesto de estas problemáticas se enfoca principalmente en la aplicación de técnicas como el Procesamiento de Lenguaje Natural, Aprendizaje de Máquina y Análisis de Redes Sociales. Estas propuestas prevén la evaluación experimental en el contexto de un servicio de metabuscador de publicaciones científicas del área de las Ciencias de la Computación, desarrollado y mantenido por este grupo de investigación. Mediante este trabajo se pretende contribuir en la mejora del desempeño de procesos actuales de explotación de información asociados a la recuperación de producciones científicotecnológicas.Eje: Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Diseño y construcción de procesos de explotación de información para el área de ciencias de la computación

    Get PDF
    El desarrollo de procesos de explotación de información aplicado a la recuperación de producciones científico-tecnológicas, exige resolver problemáticas específicas relacionadas con las entidades del dominio, tales como publicaciones, instituciones, y autores. Continuando con la línea general de este grupo de investigación, este trabajo aborda dos problemáticas actuales para la adecuada gestión de un servicio de recuperación de información en general, y del área de las Ciencias de la Computación en particular. Estas problemáticas incluyen la desambiguación y la recomendación de entidades asociadas a las producciones cientifico-tecnológicas. El abordaje propuesto de estas problemáticas se enfoca principalmente en la aplicación de técnicas como el Procesamiento de Lenguaje Natural, Aprendizaje de Máquina y Análisis de Redes Sociales. Estas propuestas prevén la evaluación experimental en el contexto de un servicio de metabuscador de publicaciones científicas del área de las Ciencias de la Computación, desarrollado y mantenido por este grupo de investigación. Mediante este trabajo se pretende contribuir en la mejora del desempeño de procesos actuales de explotación de información asociados a la recuperación de producciones científicotecnológicas.Eje: Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Diseño y construcción de procesos de explotación de información para el área de ciencias de la computación

    Get PDF
    El desarrollo de procesos de explotación de información aplicado a la recuperación de producciones científico-tecnológicas, exige resolver problemáticas específicas relacionadas con las entidades del dominio, tales como publicaciones, instituciones, y autores. Continuando con la línea general de este grupo de investigación, este trabajo aborda dos problemáticas actuales para la adecuada gestión de un servicio de recuperación de información en general, y del área de las Ciencias de la Computación en particular. Estas problemáticas incluyen la desambiguación y la recomendación de entidades asociadas a las producciones cientifico-tecnológicas. El abordaje propuesto de estas problemáticas se enfoca principalmente en la aplicación de técnicas como el Procesamiento de Lenguaje Natural, Aprendizaje de Máquina y Análisis de Redes Sociales. Estas propuestas prevén la evaluación experimental en el contexto de un servicio de metabuscador de publicaciones científicas del área de las Ciencias de la Computación, desarrollado y mantenido por este grupo de investigación. Mediante este trabajo se pretende contribuir en la mejora del desempeño de procesos actuales de explotación de información asociados a la recuperación de producciones científicotecnológicas.Eje: Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    AORESCU: Opinion Analysis in Social Networks and User-Generated Contents

    Get PDF
    El proyecto AORESCU tiene como objetivos la recopilación y el procesamiento de la información generada por los usuarios sobre una entidad con idea de obtener a partir de ella una serie de indicadores que permitan evaluar la imagen que los usuarios tienen de la misma. La información recuperada puede ser estructurada (p.e. valoraciones numéricas) y no estructurada (fundamentalmente en forma de textos en lenguaje natural). Las técnicas y herramientas utilizadas en el proyecto son adaptables a cualquier dominio. No obstante, se ha elegido el ámbito turístico como dominio de aplicación al tratarse de un sector con una importante actividad económica y para el que es fácil encontrar contenidos para analizar. El proyecto tiene cuatro partes fundamentales: la recuperación de información de distintas fuentes sobre las entidades que pertenecen al dominio de aplicación (hoteles, restaurantes, espacios naturales, monumentos,…), la definición de un modelo de datos para representar esta información, el desarrollo de herramientas de análisis de textos para procesar los comentarios de los usuarios y el desarrollo de una aplicación web que permita analizar los datos procesados.AORESCU project main goals are focused on the retrieval and processing of information generated by users about an entity. The idea is to get insights from this information that help us to understand the perception of users about an entity. We can retrieve two types of information from web 2.0 sources: structured information (e.g. numerical rating) and unstructured (mainly in the form of texts in natural language). The techniques and tools used in the project are adaptable to any domain. We chose the tourism sector as application domain since it is a sector with an important economic activity and because it is easy to find user generated content about touristic resources. The project has four main phases: the retrieval of information from different sources about the entities (for the tourism sector, these entities are hotels, restaurants, natural spaces, monuments,...), the definition of a data model to represent this information, the development of text analysis tools to process user comments and the development of a web application to query and analyze the processed data.El proyecto AORESCU (P11-TIC-7684 MO) está financiado por la Consejería de Innovación, Ciencia y Empresas de la Junta de Andalucía

    Aplicación de técnicas descriptivas de minería de textos sobre contenido digital realizando análisis inteligente

    Get PDF
    El presente proyecto pretende implementar técnicas de Minería de Textos o Text Mining en conjunción con técnicas de Minería Web o Web Mining (metodología para la recuperación y extracción de información desde páginas web) para poder realizar un estudio de los Patrones de Escritura empleados para la confección de documentos digitales científicos. Tanto Text Mining como Web Mining se encuadran dentro de las técnicas de Minería de Datos y son técnicas que permiten descubrir patrones usados en grandes volúmenes de texto. El proyecto también incluirá una investigación sobre la aplicación de técnicas o algoritmos orientados al Procesamiento del Lenguaje Natural usados en el análisis de textos o documentos obtenidos de Redes Sociales, por ejemplo, y se persigue, a través de su empleo, la obtención de prototipos de sistema que faciliten el análisis en cuestión. Los textos o documentos digitales, sobre los cuales se trabajará en este proyecto, se obtendrán principalmente desde la Web, considerando que en la Sociedad del Conocimiento actual, la gestión de la información y conocimiento es un componente estratégico para el análisis inteligente de la información digital, para la clasificación de contenidos y la extracción de conceptos, entre algunos de los principales tópicos que estudia Text Mining.Eje: Base de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Web semántica : un nuevo enfoque para la organización y recuperación de información en el web

    Get PDF
    A theoretical and conceptual approach to the development of the information organization and retrieval is made in an automatic environment by means of the automatic indexing and classification of the information as processes prior to information retrieval. The evolution experienced by the systems of organization of information and knowledge is analysed by taxonomies, thesaurus and Topic Maps toward more complex structures, such as ontologies. Some metadata schemes created for the description of the information in the web, as well as the components and technologies that integrate the theoretical model of the web semantics, are examined. Finally, the constructive stratum model that will guarantee the functioning of its entire infrastructure is explained

    Desarrollos de modelos de Deep Learning para comprensión de textos usando técnicas NLP

    Get PDF
    La necesidad de tratar con grandes volúmenes de datos plantea ciertas dificultades a la hora de su procesamiento y almacenamiento por parte del software y los sistemas de gestión de bases de datos tradicionales, más aún si estos datos son no estructurados, como ocurre con los datos textuales, que son los tratados en este Trabajo Fin de Máster. La utilización de métodos de Deep Learning es cada vez más habitual cuando se trabaja con conjuntos de datos de gran tamaño, ya que permiten una mejor representación de los mismos y por lo tanto mejores resultados. Se ha trabajo sobre estos métodos en el área particular de la minería de textos, y el procesamiento del lenguaje natural (NLP). El objetivo del presente trabajo es estudiar el aunamiento de los sistemas basados en el conocimiento y los sistemas de almacenamiento, así como estudiarlos desde un punto de vista analítico y de optimización que permitiese conocer a fondo su funcionamiento para así poder obtener un mayor rendimiento. Estos sistemas, conocidos como "redes de memoria", combinan algoritmos de aprendizaje automático, en particular las redes neuronales, con una memoria que permita almacenar y recuperar información de forma relevante según el objetivo buscado. La recuperación de información relevante es la técnica de la minería de textos en la que se centran los modelos que se van a estudiar, con la aplicación de la "búsqueda de respuestas" (Question Answering). La búsqueda de respuestas consiste en que dada una cierta cantidad de documentos con datos en forma de texto, el sistema debe ser capaz de generar respuestas a preguntas planteadas en lenguaje natural, a partir de la información disponible. Además, también se han analizado diferentes formas de representación de la información para mejorar la eficiencia de las redes estudiadas: las Redes de Memoria End-to-End (MemN2N) y las Redes de Memoria Clave-Valor (KV-MemNN). Como parte práctica del trabajo, se presentan los análisis realizados y los mejores resultados obtenidos en la validación de los modelos con consideraciones sobre la influencia de los parámetros en la construcción de estos modelos. Finalmente, se exponen futuras líneas de trabajo a seguir y posibles aplicaciones

    ATTOS: Trend Analysis and Thematic through Opinions and Sentiments

    Get PDF
    El proyecto ATTOS centra su actividad en el estudio y desarrollo de técnicas de análisis de opiniones, enfocado a proporcionar toda la información necesaria para que una empresa o una institución pueda tomar decisiones estratégicas en función a la imagen que la sociedad tiene sobre esa empresa, producto o servicio. El objetivo último del proyecto es la interpretación automática de estas opiniones, posibilitando así su posterior explotación. Para ello se estudian parámetros tales como la intensidad de la opinión, ubicación geográfica y perfil de usuario, entre otros factores, para facilitar la toma de decisiones. El objetivo general del proyecto se centra en el estudio, desarrollo y experimentación de técnicas, recursos y sistemas basados en Tecnologías del Lenguaje Humano (TLH), para conformar una plataforma de monitorización de la Web 2.0 que genere información sobre tendencias de opinión relacionadas con un tema.The ATTOS project will be focused on the study and development of Sentiment Analysis techniques. Thanks to such techniques and resources, companies, but also institutions will be better understood which is the public opinion on them and thus will be able to develop their strategies according to their purposes. The final aim of the project is the automatic interpretation of such opinions according to different variables: opinion, intensity, geographical area, user profile, to support the decision process. The main objective of the project is the study, development and evaluation of techniques, resources and systems based on Human Language Technologies to build up a monitoring platform of the Web 2.0 that generates information on opinion trends related with a topic.El proyecto ATTOS está financiado por el Ministerio de Economía y Competitividad con número de referencia TIN2012-38536-C03-01, TIN2012-38536-C03-02 y TIN2012-38536-C03-03. Con el apoyo de la Red Temática TIMM: Tratamiento de Información Multimodal y Multilingüe. (TIN2011-13070-E)
    corecore