11 research outputs found

    Búsqueda de documentos basada en el uso de índices ontológicos creados con MapReduce

    Get PDF
    This paper presents a search system supported on an ontological indexing system. The approach we present is based on lattice matching. The system performs a matching operation that takes as input a pruned lattice of ontological terms associated with the documents in a corpus and  a query lattice. The matching process selects relevant documents and ranks them in accordance to their closeness to the user’s query. We have implemented our approach on top of MapReduce. The experimental results support the efficacy of the system by providing users with a greater consistency among the results and the search domain. The results displayed to the users also show performance enhancements and improved accuracy. The test results are included at the end of the paper.Este artículo presenta un sistema de búsqueda soportado en un sistema de indexación ontológico. La técnica presentada utiliza emparejamiento de retículos. El proceso de emparejamiento se realiza  entre el  retículo podado con el espacio de búsqueda del corpus y el retículo con el espacio de búsqueda de la consulta.  Dicho proceso permite realizar un filtrado con  los documentos que deben presentarse al usuario. El sistema propuesto fue implementado utilizando el modelo de programación MapReduce.  Los resultados experimentales reflejan la eficacia del sistema, al brindar al usuario una mayor correspondencia de los resultados con el dominio de búsqueda. Además, se evidencian mejoras en el rendimiento y mayor precisión en los resultados mostrados al usuario. La evaluación realizada se incluye al final del artículo.

    Coping with Data Scarcity: First Steps towards Word Expansion for a Chatbot in the Urban transportation Domain

    Get PDF
    Hizkuntzaren Prozesamenduan (HP) zenbait arlotan hitzak erabili izan dira tradizionalki zabaltze-tekniken garapenean, hala nola Informazioaren Berreskurapenean (IB) edota Galdera-Erantzun (GE) sistemetan. Master tesi honek bi hurbilpen aurkezten ditu Elkarrizketa-Sistemen (ES) arloan zabaltze-teknikak garatze aldera, zehazkiago Donostiako (Gipuzkoa) hiri-garraiorako chatbot baten ulertze-modulua garatzera zuzendurik. Lehenengo hurbilpenak hitz-bektoreak erabiltzen ditu semantikoki antzekoak diren terminoak erauzteko, kasu honetan FastText-eko aurre-entreinaturiko embedding sorta espainieraz eta bigarren hurbiltzeak hitzen adiera-desanbiguazioa erabiltzen du sinonimoak datu-base lexiko baten bidez erauzteko, kasu honetan espainierazko WordNet-a. Horretarako, ataza kolaboratibo bat diseinatu da, non corpusa osatuko baitugu balizko-egoera erreal baten sarrerak jasoz. Bestalde, domeinuz kanpo dauden sarrerak identi katze aldera, bi esperimentu sorta garatu dira. Lehenengo fasean kali katze sistema bat garatu da, non corpuseko terminoak Term Frequency-Inverse Document Frequency (TF-IDF) erabiliz ordenatzen baitiren eta ondoren kali katze-sistema kosinu-antzekotasunaren bidez osatzen da. Bigarren faseak aurreko kali katze-sistema formalizatuko da, hiru datu-multzo prestatuz eta estrati katuz. Datu-multzo hauek erregresore lineal bat eta Kernel linealarekin euskarri bektoredun makina bat entreinatzeko erabili dira. Emaitzen arabera, aurre-entreinaturiko bektoreek leialtasun handiagoa daukate input errealari dagokionez. Hala ere, datu-base lexikoek estaldura linguistiko zabalagoa gehituko diote zabalduriko corpus hipotetikoari. Azkenik, domeinuaren diskriminazioari dagokionez, emaitzek TF-IDF-tik erauzitako termino gehienen zeukan datu-multzoa hobesten dute.Text expansion techniques have been used in some sub elds of Natural Language Processing (NLP) such as Information Retrieval or Question-Answering Systems. This Master's Thesis presents two approaches for expansion within the context of Dialogue Systems (DS), more precisely for the Natural Language Understanding (NLU) module of a chatbot for the urban transportation domain in San Sebastian (Gipuzkoa). The rst approach uses word vectors to obtain semantically similar terms while the second one involves synonym extraction from a lexical database. For this purpose, a corpus composed of real case scenario inputs has been exploited. Furthermore, the qualitative analysis of the implemented expansion techniques revealed a need to lter out-of-domain inputs. In relation to this problem, two di erent sets of experiments have been carried out. First, the feasibility of using Term Frequency-Inverse Document Frequency (TF-IDF) and cosine similarity as discrimination features was explored. Then, linear regression and Support Vector Machine (SVM) classi ers were trained and tested. Results show that pre-trained word embedding expansion constitutes a more loyal representation of real case scenario inputs, whereas lexical database expansion adds a wider linguistic coverage to a hypothetically expanded version of the corpus. For out-of-domain detection, increasing the number of features improves both, linear regression and SVM classi cation results

    Método de reglas de asociación para el análisis de afinidad entre objetos de tipo texto

    Get PDF
    Maestría en IngenieríaData mining is considered a tool to extract knowledge in large volumes of information. One of the analyzes performed in data mining is the association rules, whose purpose is to look for co-occurrences among the records of a set of data. Its main application is in the analysis of market basket, where criteria for decision making are established based on the buying behavior of customers. Some of the algorithms are A priori, Frequent Parent Growth, QFP Algorithm, CBA, CMAR, CPAR. These algorithms have been designed to analyze structured databases; At present, various applications require the processing of unstructured data known as text type Objects. The purpose of this research is to generate a method to establish the relationship between the elements that make up an object of text type, for the acquisition of relevant information from the analysis of massive data sources of the same type.La minería de datos es considerada una herramienta para extraer conocimiento en grandes volúmenes de información. Uno de los análisis realizados en minería de datos son las reglas de asociación, cuyo propósito es buscar co-ocurrencias entre los registros de un conjunto de datos. Su principal aplicación se encuentra en el análisis de canasta de mercado, donde se establecen criterios para la toma de decisiones a partir del comportamiento de compra de los clientes. Algunos de los algoritmos son Apriori, Frequent Parent Growth, QFP Algorithm, CBA, CMAR, CPAR. Estos algoritmos han sido diseñados para analizar bases de datos estructuradas; en la actualidad, diversas aplicaciones requieren el procesamiento de datos no estructurados, como es el caso de los objetos de tipo texto. La investigación planteada tiene como propósito generar un método que permita establecer la relación existente entre los elementos que componen un objeto de tipo texto, para la adquisición de información relevante a partir del análisis de fuentes masivas de datos del mismo tipo

    Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets

    Get PDF
    This thesis addresses two main problems in IR: automatic query weighting and document semantic indexing. Our global contribution consists on the definition of a theoretical flexible information retrieval (IR) model based on CP-Nets. The CP-Net formalism is used for the graphical representation of flexible queries expressing qualitative preferences and for automatic weighting of such queries. Furthermore, the CP-Net formalism is used as an indexing language in order to represent document representative concepts and related relations in a roughly compact way. Concepts are identified by projection on WordNet. Concept relations are discovered by means of semantic association rules. A query evaluation mechanism based on CP-Nets graph similarity is also proposed.Ce travail de thèse adresse deux principaux problèmes en recherche d'information : (1) la formalisation automatique des préférences utilisateur, (ou la pondération automatique de requêtes) et (2) l'indexation sémantique. Dans notre première contribution, nous proposons une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de préférences qualitatives est plus simple et plus intuitive que la formulation de poids numériques les quantifiant. Cependant, un système automatisé raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondération automatique des requêtes par quantification des CP-Nets correspondants par des valeurs d'utilité. Cette quantification conduit à un UCP-Net qui correspond à une requête booléenne pondérée. Une utilisation des CP-Nets est également proposée pour la représentation des documents dans la perspective d'une évaluation flexible des requêtes ainsi pondéreés. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basée sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de représenter les concepts et les relations conditionnelles entre eux d'une manière relativement compacte. Les noeuds du CP-Net sont les concepts représentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts résultants forment les noeuds du CP-Net. D'autre part, nous proposons d'étendre et d'utiliser la technique de règles d'association afin de découvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mécanisme d'évaluation des requêtes basé sur l'appariement de graphes (les CP-Nets document et requête en l'occurrence)

    Aplicaciones de la expansión de consultas basadas en ontologías de dominio a la búsqueda de objetos de aprendizaje en repositorios

    Get PDF
    Prieto Méndez, Manuel Emilio, codir.En el campo del e-learning se realizan grandes esfuerzos dedicados al mejoramiento del proceso de enseñanza ? aprendizaje, uno de ellos está dirigido a motivar el uso y reutilización de los recursos digitales en repositorios. En un comienzo, los esfuerzos se dirigieron a aumentar la cantidad de recursos disponibles, hoy en día existe una gran cantidad de recursos almacenados en repositorios heterogéneos, por lo tanto el desafío se traslada a mejorar y hacer más eficientes las formas de buscar, seleccionar, localizar y acceder a recursos dispersos y distribuidos en repositorios. Dentro de esta línea, el objetivo de esta tesis es proponer una estrategia para la expansión de consultas basadas en ontologías de dominio que permita al diseñador instruccional obtener, desde un repositorio, objetos de aprendizaje relevantes para el diseño de sus cursos o la composición de otros recursos más complejos. Para lograr este objetivo se analizan las propuestas de expansión de consultas ya sea en el campo de la recuperación de información en general o específicamente, en los repositorios de objetos de aprendizaje. A partir de lo anterior, se establecen los criterios para la expansión de consultas basada en ontologías, se define la forma como serán abordados los problemas detectados, y por último, se formula, diseña e implementa la estrategia de expansión de consultas basada en ontología de dominio aplicada en el contexto de la búsqueda de objetos de aprendizaje en repositorios. Para la evaluación de nuestra propuesta se diseña un experimento dentro del dominio de genética, utilizando la ontología Gene como base de conocimiento y el repositorio MERLOT como proveedor de los objetos de aprendizaje en este dominio. Las consultas de prueba se definen a partir de los contenidos tratados en un conjunto de cursos de genética publicados en la Web por instituciones de educación superior para el año 2009. La evaluación de la relevancia de los resultados es realizada por 3 expertos en el dominio. El análisis de la concordancia y asociación entre las evaluaciones de los expertos es realizado por medio del análisis de Kappa de Cohen y el coeficiente de correlación de Spearman. Finalmente, la efectividad de la propuesta de expansión se evalúa a partir de las métricas de cobertura y novedad aplicadas a los resultados recuperados de las consultas con y sin expansión. La principal aportación de nuestra propuesta es una estrategia para la expansión de consultas basada en ontologías de dominio que permita al diseñador instruccional obtener resultados relevantes que sin la expansión no podrían ser recuperados desde los repositorios de objetos de aprendizaje. Suponemos que en la medida que los diseñadores intruccionales puedan acceder a recursos relevantes es posible contribuir en la calidad de los cursos e-learning o en la calidad de los nuevos recursos creados a partir de ellos. Cabe destacar que la efectividad de nuestra propuesta se ve afectada por el sistema de recuperación utilizado en cada repositorio, la calidad de los recursos almacenados y su etiquetado, así como la completitud y calidad de la base de conocimiento utilizada para la expansión

    Aplicaciones de la expansión de consultas basadas en ontologías de dominio a la búsqueda de objetos de aprendizaje en repositorios

    Get PDF
    Prieto Méndez, Manuel Emilio, codir.En el campo del e-learning se realizan grandes esfuerzos dedicados al mejoramiento del proceso de enseñanza ? aprendizaje, uno de ellos está dirigido a motivar el uso y reutilización de los recursos digitales en repositorios. En un comienzo, los esfuerzos se dirigieron a aumentar la cantidad de recursos disponibles, hoy en día existe una gran cantidad de recursos almacenados en repositorios heterogéneos, por lo tanto el desafío se traslada a mejorar y hacer más eficientes las formas de buscar, seleccionar, localizar y acceder a recursos dispersos y distribuidos en repositorios. Dentro de esta línea, el objetivo de esta tesis es proponer una estrategia para la expansión de consultas basadas en ontologías de dominio que permita al diseñador instruccional obtener, desde un repositorio, objetos de aprendizaje relevantes para el diseño de sus cursos o la composición de otros recursos más complejos. Para lograr este objetivo se analizan las propuestas de expansión de consultas ya sea en el campo de la recuperación de información en general o específicamente, en los repositorios de objetos de aprendizaje. A partir de lo anterior, se establecen los criterios para la expansión de consultas basada en ontologías, se define la forma como serán abordados los problemas detectados, y por último, se formula, diseña e implementa la estrategia de expansión de consultas basada en ontología de dominio aplicada en el contexto de la búsqueda de objetos de aprendizaje en repositorios. Para la evaluación de nuestra propuesta se diseña un experimento dentro del dominio de genética, utilizando la ontología Gene como base de conocimiento y el repositorio MERLOT como proveedor de los objetos de aprendizaje en este dominio. Las consultas de prueba se definen a partir de los contenidos tratados en un conjunto de cursos de genética publicados en la Web por instituciones de educación superior para el año 2009. La evaluación de la relevancia de los resultados es realizada por 3 expertos en el dominio. El análisis de la concordancia y asociación entre las evaluaciones de los expertos es realizado por medio del análisis de Kappa de Cohen y el coeficiente de correlación de Spearman. Finalmente, la efectividad de la propuesta de expansión se evalúa a partir de las métricas de cobertura y novedad aplicadas a los resultados recuperados de las consultas con y sin expansión. La principal aportación de nuestra propuesta es una estrategia para la expansión de consultas basada en ontologías de dominio que permita al diseñador instruccional obtener resultados relevantes que sin la expansión no podrían ser recuperados desde los repositorios de objetos de aprendizaje. Suponemos que en la medida que los diseñadores intruccionales puedan acceder a recursos relevantes es posible contribuir en la calidad de los cursos e-learning o en la calidad de los nuevos recursos creados a partir de ellos. Cabe destacar que la efectividad de nuestra propuesta se ve afectada por el sistema de recuperación utilizado en cada repositorio, la calidad de los recursos almacenados y su etiquetado, así como la completitud y calidad de la base de conocimiento utilizada para la expansión

    4th International Symposium on Ambient Intelligence (ISAmI 2013)

    Get PDF
    Ambient Intelligence (AmI) is a recent paradigm emerging from Artificial Intelligence (AI), where computers are used as proactive tools assisting people with their day-to-day activities, making everyone’s life more comfortable. Another main concern of AmI originates from the human computer interaction domain and focuses on offering ways to interact with systems in a more natural way by means user friendly interfaces. This field is evolving quickly as can be witnessed by the emerging natural language and gesture based types of interaction. The inclusion of computational power and communication technologies in everyday objects is growing and their embedding into our environments should be as invisible as possible. In order for AmI to be successful, human interaction with computing power and embedded systems in the surroundings should be smooth and happen without people actually noticing it. The only awareness people should have arises from AmI: more safety, comfort and wellbeing, emerging in a natural and inherent way. ISAmI is the International Symposium on Ambient Intelligence and aiming to bring together researchers from various disciplines that constitute the scientific field of Ambient Intelligence to present and discuss the latest results, new ideas, projects and lessons learned, namely in terms of software and applications, and aims to bring together researchers from various disciplines that are interested in all aspects of this area
    corecore