13,273 research outputs found

    Conocimiento de la lengua y técnicas estadísticas en el análisis lingüístico

    Get PDF
    International audienceSon comparados los resultados obtenidos sobre un mismo corpus en la tarea del POS tagging por dos sistemas orientados por enfoques diferentes en lingüística computacional, el uno orientado por el Conocimiento de la lengua (sistema CL) y el otro por Técnicas estadísticas (sistema EST). Se trata de no limitarse a consideraciones globales sobre el « costo » de obtención de los dos tipos de resultados, noción mal definida, ni a cotejar resultados globales, sino de poner en relación los resultados obtenidos con las características lingüísticas involucradas. La problemática de la comparación es clarificada, los sistemas CL y EST presentados, la metodología de la comparación definida y los resultados obtenidos presentados. En el caso comparado, el sistema CL ofrece mejores resultados, pero la conclusión más interesante es la posibilidad de establecer correlaciones entre aspectos de la estructura lingüística y resultados obtenidos por técnicas estadísticas

    Desarrollo, implementación y utilización de modelos para el procesamiento automático de textos

    Get PDF
    El libro recoge ponencias y talleres seleccionados de JALIMI 2005 (Jornadas Argentinas de Lingüística Informática: Modelización e Ingeniería), y está organizado en nueve capítulos y un apéndice. Si bien hay sustantivas diferencias en los enfoques, las metodologías, las propiedades específicas estudiadas y las aplicaciones propuestas o proyectadas, todos los capítulos comunican resultados de investigaciones que pretenden contribuir a alcanzar el objetivo a largo plazo de la Lingüística Informática, a saber: emular en términos cibernéticos la extraordinaria capacidad humana de producir y comprender textos en lengua natural

    Methods on Natural Language Processing for Information Retrieval

    Get PDF
    En este artículo se describe el efecto de la integración de varias técnicas basadas en el procesamiento del lenguaje natural en sistemas de recuperación de información. Se estudiarán, en concreto, métodos de lematización, anotación de categorías morfosintácticas, identificación de nombres propios compuestos y análisis en dependencias. Una evaluación a gran escala con colecciones de documentos en español nos permitirá verificar que la combinación de estas técnicas con otras menos sofisticadas, tales como tokenización y eliminación de palabras gramaticales, contribuye a una mejora significativa de la calidad de los sistemas de recuperaciónIn this article, we describe the way in which different methods based on Natural Language Processing (NLP) can be integrated in Information Retrieval systems. More precisely, we will study NLP strategies such as lemmatization, PoS tagging, named entities recognition, and dependency-based parsing. A large scale evaluation on Spanish documents will be performed. This will allow us to verify whether these strategies combined with less complex NLP techniques (e.g., tokenization and stopwords removal) improve the quality of IR systems. The results reported at the end of the paper show that NLP-based strategies yield significant improvementsS

    Semantic expansion of queries for web search (MSEC)

    Get PDF
    Internet has become the largest repository of human knowledge, and the amount of stored information increases day by day. This increase of information affects the levels of precision reported by Web search engines regarding  documents retrieved for the user. One strategy being used to address this problem is a focus on a personalized resource recovery. Several projects currently offer semantic methods for improving the relevance of search results  through the use of ontologies, natural language processing, knowledge based systems, query specification languages, and user profile, among others. Results are generally better than for web search engines that do not use these  techniques. However, the high cost of these improvements in precision relate to use of more complex algorithms in carrying out the search and which are more wasteful of computational resources. This article describes a semantic  query expansion model called MSEC, which is based mostly on the concept of semantic similarity, starting from domain ontologies and on the use of user profile in order to customize user searches so to improve their precision. In order to evaluate the proposed model, a software prototype was created. Preliminary experimental results show an improvement compared to the traditional web search approach. Finally the model was compared against the best  state of the art semantic search engine, called GoPubMed, for the MEDLINE collection. Internet se ha convertido en el mayor repositorio de conocimiento humano y la cantidad de información almacenada crece cada día más. Esto último repercute en el bajo nivel de precisión que reportan los sistemas de búsqueda Web respecto a los documentos que son recuperados para el usuario. Para enfrentar este problema, una de las estrategias utilizadas  es  la  recuperación  personalizada  de  recursos. Actualmente  existen  varios  proyectos  que  proponen  métodos semánticos para aumentar la relevancia de las búsquedas, a través del uso de ontologías, procesamiento de lenguaje natural, sistemas basados en conocimiento, lenguajes de especificación de consultas y perfil de usuario, entre otras. Los resultados generalmente son mejores que los obtenidos por  buscadores que no usan éstas técnicas.  Sin embargo, el costo que se paga por estas mejoras en precisión se centra en el uso de algoritmos más complejos en implementación y que consumen más recursos computacionales.  Este artículo describe un modelo semántico de expansión de consultas denominado MSEC, el cual está basado principalmente en el concepto de similitud semántica a partir de Ontologías de dominio y en el uso del perfil de usuario para personalizar las búsquedas y así mejorar la precisión de las mismas. Para evaluar el modelo propuesto se creó un prototipo software. Los resultados experimentales preliminares muestran una mejora respecto al enfoque tradicional de búsqueda. Finalmente se comparó con el mejor buscador semántico del estado del arte, llamado GoPubMed para la colección MEDLINE

    Diseño de un modelo de recuperación de información usando expansión de consultas basadas en ontologías en el dominio de la ciencia de la computación

    Get PDF
    A lo largo de los años, y particularmente a partir de la aparición del Internet, se ha venido dando un aumento en la cantidad de información disponible para ser consultada por las personas. Sin embargo, la aparición de los sistemas de recuperación de información ha contribuido a facilitar la búsqueda de información para los usuarios, disminuyendo los tiempos invertidos en dicha búsqueda, y hasta cierto punto, mejorando la relevancia de la información recuperada. Sin embargo, se ha identificado que aún persisten algunos elementos que dificultan la obtención de resultados relevantes tales como características propias del lenguaje natural como ambigüedad, desconocimiento del usuario respecto a qué puede ser relevante para él, entre otros. Ante esto, en el presente proyecto se propone una alternativa de solución de forma tal que los documentos recuperados sean en mayor medida relevantes. Esta recuperación se tratará bajo el enfoque específico de la expansión de consultas, proceso para el cual se emplearán modelos de conocimiento como lo son las ontologías.Tesi

    Semantic expansion of queries for web search (MSEC)

    Get PDF
    Internet has become the largest repository of human knowledge, and the amount of stored information increases day by day. This increase of information affects the levels of precision reported by Web search engines regarding  documents retrieved for the user. One strategy being used to address this problem is a focus on a personalized resource recovery. Several projects currently offer semantic methods for improving the relevance of search results  through the use of ontologies, natural language processing, knowledge based systems, query specification languages, and user profile, among others. Results are generally better than for web search engines that do not use these  techniques. However, the high cost of these improvements in precision relate to use of more complex algorithms in carrying out the search and which are more wasteful of computational resources. This article describes a semantic  query expansion model called MSEC, which is based mostly on the concept of semantic similarity, starting from domain ontologies and on the use of user profile in order to customize user searches so to improve their precision. In order to evaluate the proposed model, a software prototype was created. Preliminary experimental results show an improvement compared to the traditional web search approach. Finally the model was compared against the best  state of the art semantic search engine, called GoPubMed, for the MEDLINE collection. Internet se ha convertido en el mayor repositorio de conocimiento humano y la cantidad de información almacenada crece cada día más. Esto último repercute en el bajo nivel de precisión que reportan los sistemas de búsqueda Web respecto a los documentos que son recuperados para el usuario. Para enfrentar este problema, una de las estrategias utilizadas  es  la  recuperación  personalizada  de  recursos. Actualmente  existen  varios  proyectos  que  proponen  métodos semánticos para aumentar la relevancia de las búsquedas, a través del uso de ontologías, procesamiento de lenguaje natural, sistemas basados en conocimiento, lenguajes de especificación de consultas y perfil de usuario, entre otras. Los resultados generalmente son mejores que los obtenidos por  buscadores que no usan éstas técnicas.  Sin embargo, el costo que se paga por estas mejoras en precisión se centra en el uso de algoritmos más complejos en implementación y que consumen más recursos computacionales.  Este artículo describe un modelo semántico de expansión de consultas denominado MSEC, el cual está basado principalmente en el concepto de similitud semántica a partir de Ontologías de dominio y en el uso del perfil de usuario para personalizar las búsquedas y así mejorar la precisión de las mismas. Para evaluar el modelo propuesto se creó un prototipo software. Los resultados experimentales preliminares muestran una mejora respecto al enfoque tradicional de búsqueda. Finalmente se comparó con el mejor buscador semántico del estado del arte, llamado GoPubMed para la colección MEDLINE

    Búsqueda eficaz de información en la web

    Get PDF
    En este trabajo se describe someramente lo que es un Sistema de Recuperación de Información, para posteriormente poder profundizar en algunos aspectos específicos. Se presentan las herramientas de búsqueda Web más usadas actualmente, haciendo especial hincapié en los buscadores y en los metabuscadores, con el fin de proporcionar ciertos “trucos” para ayudar a mejorar nuestro acceso y búsqueda en los contenidos de la Web (por ejemplo explicando el uso de algunos operadores de búsqueda, cómo funcionan los algoritmos de ranking, como mejorar la posición de una página Web en los buscadores o cuáles son las peculiaridades de las arquitecturas computacionales de algunos motores de búsqueda). Finalmente, se propone el desarrollo y pruebas de mecanismos más “inteligentes” de acceso, búsqueda, gestión y recuperación de información y conocimiento contenidos en la Web. Para ello se muestra el uso de técnicas avanzadas de Inteligencia Artificial, en particular aquellas más cercanas a la manipulación del lenguaje natural y al comportamiento humano.XV Escuela Internacional de Informática, realizada durante el XVII Congreso Argentino de Ciencia de la Computación (CACIC 2011).Red de Universidades con Carreras en Informática (RedUNCI

    Búsqueda eficaz de información en la web

    Get PDF
    En este trabajo se describe someramente lo que es un Sistema de Recuperación de Información, para posteriormente poder profundizar en algunos aspectos específicos. Se presentan las herramientas de búsqueda Web más usadas actualmente, haciendo especial hincapié en los buscadores y en los metabuscadores, con el fin de proporcionar ciertos “trucos” para ayudar a mejorar nuestro acceso y búsqueda en los contenidos de la Web (por ejemplo explicando el uso de algunos operadores de búsqueda, cómo funcionan los algoritmos de ranking, como mejorar la posición de una página Web en los buscadores o cuáles son las peculiaridades de las arquitecturas computacionales de algunos motores de búsqueda). Finalmente, se propone el desarrollo y pruebas de mecanismos más “inteligentes” de acceso, búsqueda, gestión y recuperación de información y conocimiento contenidos en la Web. Para ello se muestra el uso de técnicas avanzadas de Inteligencia Artificial, en particular aquellas más cercanas a la manipulación del lenguaje natural y al comportamiento humano.XV Escuela Internacional de Informática, realizada durante el XVII Congreso Argentino de Ciencia de la Computación (CACIC 2011).Red de Universidades con Carreras en Informática (RedUNCI

    La búsqueda de información jurídica: de los tesauros a la inteligencia artificial

    Get PDF
    The evolution of search technologies in electronic legal information, along its 25 years of existence, is reviewed. Special attention is given to those developed by the R & D team of Wolters Kluwer Spain, which are based on natural language search with semantic expansion and advanced algorithms for the presentation of results by relevance, and have been at the forefront of the technology in this field worldwide. Recent studies on user behavior show the need for further progress in these developments to solve the complex problems detected, involving the improvement of the search engines with new and enhanced artificial intelligence techniques.Se repasa la evolución de las tecnologías de búsqueda de información legal en soporte electrónico, a lo largo de sus 25 años de existencia. Se presta especial atención a las desarrolladas por el Departamento de I+D de Wolters Kluwer España que, basadas en la búsqueda en lenguaje natural, con expansión semántica y avanzados algoritmos de presentación de resultados por relevancia, se han situado a la cabeza de la tecnología mundial en este ámbito. Los últimos estudios sobre el comportamiento de los usuarios evidencian la necesidad de continuar avanzando en estos desarrollos para dar solución a los complejos problemas detectados, incorporando a los motores de búsqueda nuevas y mejores técnicas de inteligencia artificial

    Aplicaciones de la expansión de consultas basadas en ontologías de dominio a la búsqueda de objetos de aprendizaje en repositorios

    Get PDF
    Prieto Méndez, Manuel Emilio, codir.En el campo del e-learning se realizan grandes esfuerzos dedicados al mejoramiento del proceso de enseñanza ? aprendizaje, uno de ellos está dirigido a motivar el uso y reutilización de los recursos digitales en repositorios. En un comienzo, los esfuerzos se dirigieron a aumentar la cantidad de recursos disponibles, hoy en día existe una gran cantidad de recursos almacenados en repositorios heterogéneos, por lo tanto el desafío se traslada a mejorar y hacer más eficientes las formas de buscar, seleccionar, localizar y acceder a recursos dispersos y distribuidos en repositorios. Dentro de esta línea, el objetivo de esta tesis es proponer una estrategia para la expansión de consultas basadas en ontologías de dominio que permita al diseñador instruccional obtener, desde un repositorio, objetos de aprendizaje relevantes para el diseño de sus cursos o la composición de otros recursos más complejos. Para lograr este objetivo se analizan las propuestas de expansión de consultas ya sea en el campo de la recuperación de información en general o específicamente, en los repositorios de objetos de aprendizaje. A partir de lo anterior, se establecen los criterios para la expansión de consultas basada en ontologías, se define la forma como serán abordados los problemas detectados, y por último, se formula, diseña e implementa la estrategia de expansión de consultas basada en ontología de dominio aplicada en el contexto de la búsqueda de objetos de aprendizaje en repositorios. Para la evaluación de nuestra propuesta se diseña un experimento dentro del dominio de genética, utilizando la ontología Gene como base de conocimiento y el repositorio MERLOT como proveedor de los objetos de aprendizaje en este dominio. Las consultas de prueba se definen a partir de los contenidos tratados en un conjunto de cursos de genética publicados en la Web por instituciones de educación superior para el año 2009. La evaluación de la relevancia de los resultados es realizada por 3 expertos en el dominio. El análisis de la concordancia y asociación entre las evaluaciones de los expertos es realizado por medio del análisis de Kappa de Cohen y el coeficiente de correlación de Spearman. Finalmente, la efectividad de la propuesta de expansión se evalúa a partir de las métricas de cobertura y novedad aplicadas a los resultados recuperados de las consultas con y sin expansión. La principal aportación de nuestra propuesta es una estrategia para la expansión de consultas basada en ontologías de dominio que permita al diseñador instruccional obtener resultados relevantes que sin la expansión no podrían ser recuperados desde los repositorios de objetos de aprendizaje. Suponemos que en la medida que los diseñadores intruccionales puedan acceder a recursos relevantes es posible contribuir en la calidad de los cursos e-learning o en la calidad de los nuevos recursos creados a partir de ellos. Cabe destacar que la efectividad de nuestra propuesta se ve afectada por el sistema de recuperación utilizado en cada repositorio, la calidad de los recursos almacenados y su etiquetado, así como la completitud y calidad de la base de conocimiento utilizada para la expansión
    corecore