11 research outputs found
Búsqueda de documentos basada en el uso de Ãndices ontológicos creados con MapReduce
This paper presents a search system supported on an ontological indexing system. The approach we present is based on lattice matching. The system performs a matching operation that takes as input a pruned lattice of ontological terms associated with the documents in a corpus and a query lattice. The matching process selects relevant documents and ranks them in accordance to their closeness to the user’s query. We have implemented our approach on top of MapReduce. The experimental results support the efficacy of the system by providing users with a greater consistency among the results and the search domain. The results displayed to the users also show performance enhancements and improved accuracy. The test results are included at the end of the paper.Este artÃculo presenta un sistema de búsqueda soportado en un sistema de indexación ontológico. La técnica presentada utiliza emparejamiento de retÃculos. El proceso de emparejamiento se realiza entre el retÃculo podado con el espacio de búsqueda del corpus y el retÃculo con el espacio de búsqueda de la consulta. Dicho proceso permite realizar un filtrado con los documentos que deben presentarse al usuario. El sistema propuesto fue implementado utilizando el modelo de programación MapReduce. Los resultados experimentales reflejan la eficacia del sistema, al brindar al usuario una mayor correspondencia de los resultados con el dominio de búsqueda. Además, se evidencian mejoras en el rendimiento y mayor precisión en los resultados mostrados al usuario. La evaluación realizada se incluye al final del artÃculo.
Coping with Data Scarcity: First Steps towards Word Expansion for a Chatbot in the Urban transportation Domain
Hizkuntzaren Prozesamenduan (HP) zenbait arlotan hitzak erabili izan dira tradizionalki
zabaltze-tekniken garapenean, hala nola Informazioaren Berreskurapenean (IB) edota
Galdera-Erantzun (GE) sistemetan. Master tesi honek bi hurbilpen aurkezten ditu
Elkarrizketa-Sistemen (ES) arloan zabaltze-teknikak garatze aldera, zehazkiago
Donostiako (Gipuzkoa) hiri-garraiorako chatbot baten ulertze-modulua garatzera
zuzendurik. Lehenengo hurbilpenak hitz-bektoreak erabiltzen ditu semantikoki antzekoak
diren terminoak erauzteko, kasu honetan FastText-eko aurre-entreinaturiko embedding
sorta espainieraz eta bigarren hurbiltzeak hitzen adiera-desanbiguazioa erabiltzen du
sinonimoak datu-base lexiko baten bidez erauzteko, kasu honetan espainierazko
WordNet-a. Horretarako, ataza kolaboratibo bat diseinatu da, non corpusa osatuko
baitugu balizko-egoera erreal baten sarrerak jasoz. Bestalde, domeinuz kanpo dauden
sarrerak identi katze aldera, bi esperimentu sorta garatu dira. Lehenengo fasean
kali katze sistema bat garatu da, non corpuseko terminoak Term Frequency-Inverse
Document Frequency (TF-IDF) erabiliz ordenatzen baitiren eta ondoren
kali katze-sistema kosinu-antzekotasunaren bidez osatzen da. Bigarren faseak aurreko
kali katze-sistema formalizatuko da, hiru datu-multzo prestatuz eta estrati katuz.
Datu-multzo hauek erregresore lineal bat eta Kernel linealarekin euskarri bektoredun
makina bat entreinatzeko erabili dira. Emaitzen arabera, aurre-entreinaturiko bektoreek
leialtasun handiagoa daukate input errealari dagokionez. Hala ere, datu-base lexikoek
estaldura linguistiko zabalagoa gehituko diote zabalduriko corpus hipotetikoari. Azkenik,
domeinuaren diskriminazioari dagokionez, emaitzek TF-IDF-tik erauzitako termino
gehienen zeukan datu-multzoa hobesten dute.Text expansion techniques have been used in some sub elds of Natural Language
Processing (NLP) such as Information Retrieval or Question-Answering Systems. This
Master's Thesis presents two approaches for expansion within the context of Dialogue
Systems (DS), more precisely for the Natural Language Understanding (NLU) module of
a chatbot for the urban transportation domain in San Sebastian (Gipuzkoa). The rst
approach uses word vectors to obtain semantically similar terms while the second one
involves synonym extraction from a lexical database. For this purpose, a corpus composed
of real case scenario inputs has been exploited. Furthermore, the qualitative analysis of
the implemented expansion techniques revealed a need to lter out-of-domain inputs. In
relation to this problem, two di erent sets of experiments have been carried out. First,
the feasibility of using Term Frequency-Inverse Document Frequency (TF-IDF) and
cosine similarity as discrimination features was explored. Then, linear regression and
Support Vector Machine (SVM) classi ers were trained and tested. Results show that
pre-trained word embedding expansion constitutes a more loyal representation of real case
scenario inputs, whereas lexical database expansion adds a wider linguistic coverage to a
hypothetically expanded version of the corpus. For out-of-domain detection, increasing
the number of features improves both, linear regression and SVM classi cation results
Método de reglas de asociación para el análisis de afinidad entre objetos de tipo texto
MaestrÃa en IngenierÃaData mining is considered a tool to extract knowledge in large volumes of information. One of the analyzes performed in data mining is the association rules, whose purpose is to look for co-occurrences among the records of a set of data.
Its main application is in the analysis of market basket, where criteria for decision making are established based on the buying behavior of customers. Some of the algorithms are A priori, Frequent Parent Growth, QFP Algorithm, CBA, CMAR, CPAR. These algorithms have been designed to analyze structured databases; At present, various applications require the processing of unstructured data known as text type Objects. The purpose of this research is to generate a method to establish the relationship between the elements that make up an object of text type, for the acquisition of relevant information from the analysis of massive data sources of the same type.La minerÃa de datos es considerada una herramienta para extraer conocimiento en grandes volúmenes de información. Uno de los análisis realizados en minerÃa de datos son las reglas de asociación, cuyo propósito es buscar co-ocurrencias entre los registros de un conjunto de datos.
Su principal aplicación se encuentra en el análisis de canasta de mercado, donde se establecen criterios para la toma de decisiones a partir del comportamiento de compra de los clientes. Algunos de los algoritmos son Apriori, Frequent Parent Growth, QFP Algorithm, CBA, CMAR, CPAR. Estos algoritmos han sido diseñados para analizar bases de datos estructuradas; en la actualidad, diversas aplicaciones requieren el procesamiento de datos no estructurados, como es el caso de los objetos de tipo texto. La investigación planteada tiene como propósito generar un método que permita establecer la relación existente entre los elementos que componen un objeto de tipo texto, para la adquisición de información relevante a partir del análisis de fuentes masivas de datos del mismo tipo
Recommended from our members
Investigating ontology based query expansion using a probabilistic retrieval model
This research briefly outlines the problems of traditional information retrieval systems and discusses the different approaches to inferring context in document retrieval. By context we mean word disambiguation which is achieved by exploring the generalisation-specialisation hierarchies within a given ontology. Specifically, we examine the use of ontology based query expansion for defining query context. Query expansion can be done in many ways and in this work we consider the use of relevance feedback and pseudo-relevance feedback for query expansion. We examine relevance feedback and pseudo-relevance to ascertain the existence of performance differences between relevance feedback and pseudo-relevance feedback. The information retrieval system used is based on the probabilistic retrieval model and the query expansion method is extended using information from a news domain ontology. The aim of this project is to assess the impact of the use of the ontology on the query expansion results. Our results show that ontology based query expansion has resulted in a higher number of relevant documents being retrieved compared to the standard relevance feedback process. Overall, ontology based query expansion improves recall but does not produce any significant improvements for the precision results. Pseudo-relevance feedback has achieved better results than relevance feedback. We also found that reducing or increasing the relevance feedback parameters (number of terms or number of documents) does not correlate with the results. When comparing the effect of varying the number of terms parameter with the number of documents parameter, the former benefits the pseudo-relevance feedback results but the latter has an additional effect on the relevance feedback results. There are many factors which influence the success of ontology based query expansion. The thesis discusses these factors and gives some guidelines on using ontologies for the purpose of query expansion
Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets
This thesis addresses two main problems in IR: automatic query weighting and document semantic indexing. Our global contribution consists on the definition of a theoretical flexible information retrieval (IR) model based on CP-Nets. The CP-Net formalism is used for the graphical representation of flexible queries expressing qualitative preferences and for automatic weighting of such queries. Furthermore, the CP-Net formalism is used as an indexing language in order to represent document representative concepts and related relations in a roughly compact way. Concepts are identified by projection on WordNet. Concept relations are discovered by means of semantic association rules. A query evaluation mechanism based on CP-Nets graph similarity is also proposed.Ce travail de thèse adresse deux principaux problèmes en recherche d'information : (1) la formalisation automatique des préférences utilisateur, (ou la pondération automatique de requêtes) et (2) l'indexation sémantique. Dans notre première contribution, nous proposons une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de préférences qualitatives est plus simple et plus intuitive que la formulation de poids numériques les quantifiant. Cependant, un système automatisé raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondération automatique des requêtes par quantification des CP-Nets correspondants par des valeurs d'utilité. Cette quantification conduit à un UCP-Net qui correspond à une requête booléenne pondérée. Une utilisation des CP-Nets est également proposée pour la représentation des documents dans la perspective d'une évaluation flexible des requêtes ainsi pondéreés. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basée sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de représenter les concepts et les relations conditionnelles entre eux d'une manière relativement compacte. Les noeuds du CP-Net sont les concepts représentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts résultants forment les noeuds du CP-Net. D'autre part, nous proposons d'étendre et d'utiliser la technique de règles d'association afin de découvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mécanisme d'évaluation des requêtes basé sur l'appariement de graphes (les CP-Nets document et requête en l'occurrence)
Aplicaciones de la expansión de consultas basadas en ontologÃas de dominio a la búsqueda de objetos de aprendizaje en repositorios
Prieto Méndez, Manuel Emilio, codir.En el campo del e-learning se realizan grandes esfuerzos dedicados al mejoramiento del proceso de enseñanza ? aprendizaje, uno de ellos está dirigido a motivar el uso y reutilización de los recursos digitales en repositorios. En un comienzo, los esfuerzos se dirigieron a aumentar la cantidad de recursos disponibles, hoy en dÃa existe una gran cantidad de recursos almacenados en repositorios heterogéneos, por lo tanto el desafÃo se traslada a mejorar y hacer más eficientes las formas de buscar, seleccionar, localizar y acceder a recursos dispersos y distribuidos en repositorios. Dentro de esta lÃnea, el objetivo de esta tesis es proponer una estrategia para la expansión de consultas basadas en ontologÃas de dominio que permita al diseñador instruccional obtener, desde un repositorio, objetos de aprendizaje relevantes para el diseño de sus cursos o la composición de otros recursos más complejos. Para lograr este objetivo se analizan las propuestas de expansión de consultas ya sea en el campo de la recuperación de información en general o especÃficamente, en los repositorios de objetos de aprendizaje. A partir de lo anterior, se establecen los criterios para la expansión de consultas basada en ontologÃas, se define la forma como serán abordados los problemas detectados, y por último, se formula, diseña e implementa la estrategia de expansión de consultas basada en ontologÃa de dominio aplicada en el contexto de la búsqueda de objetos de aprendizaje en repositorios. Para la evaluación de nuestra propuesta se diseña un experimento dentro del dominio de genética, utilizando la ontologÃa Gene como base de conocimiento y el repositorio MERLOT como proveedor de los objetos de aprendizaje en este dominio. Las consultas de prueba se definen a partir de los contenidos tratados en un conjunto de cursos de genética publicados en la Web por instituciones de educación superior para el año 2009. La evaluación de la relevancia de los resultados es realizada por 3 expertos en el dominio. El análisis de la concordancia y asociación entre las evaluaciones de los expertos es realizado por medio del análisis de Kappa de Cohen y el coeficiente de correlación de Spearman. Finalmente, la efectividad de la propuesta de expansión se evalúa a partir de las métricas de cobertura y novedad aplicadas a los resultados recuperados de las consultas con y sin expansión. La principal aportación de nuestra propuesta es una estrategia para la expansión de consultas basada en ontologÃas de dominio que permita al diseñador instruccional obtener resultados relevantes que sin la expansión no podrÃan ser recuperados desde los repositorios de objetos de aprendizaje. Suponemos que en la medida que los diseñadores intruccionales puedan acceder a recursos relevantes es posible contribuir en la calidad de los cursos e-learning o en la calidad de los nuevos recursos creados a partir de ellos. Cabe destacar que la efectividad de nuestra propuesta se ve afectada por el sistema de recuperación utilizado en cada repositorio, la calidad de los recursos almacenados y su etiquetado, asà como la completitud y calidad de la base de conocimiento utilizada para la expansión
Aplicaciones de la expansión de consultas basadas en ontologÃas de dominio a la búsqueda de objetos de aprendizaje en repositorios
Prieto Méndez, Manuel Emilio, codir.En el campo del e-learning se realizan grandes esfuerzos dedicados al mejoramiento del proceso de enseñanza ? aprendizaje, uno de ellos está dirigido a motivar el uso y reutilización de los recursos digitales en repositorios. En un comienzo, los esfuerzos se dirigieron a aumentar la cantidad de recursos disponibles, hoy en dÃa existe una gran cantidad de recursos almacenados en repositorios heterogéneos, por lo tanto el desafÃo se traslada a mejorar y hacer más eficientes las formas de buscar, seleccionar, localizar y acceder a recursos dispersos y distribuidos en repositorios. Dentro de esta lÃnea, el objetivo de esta tesis es proponer una estrategia para la expansión de consultas basadas en ontologÃas de dominio que permita al diseñador instruccional obtener, desde un repositorio, objetos de aprendizaje relevantes para el diseño de sus cursos o la composición de otros recursos más complejos. Para lograr este objetivo se analizan las propuestas de expansión de consultas ya sea en el campo de la recuperación de información en general o especÃficamente, en los repositorios de objetos de aprendizaje. A partir de lo anterior, se establecen los criterios para la expansión de consultas basada en ontologÃas, se define la forma como serán abordados los problemas detectados, y por último, se formula, diseña e implementa la estrategia de expansión de consultas basada en ontologÃa de dominio aplicada en el contexto de la búsqueda de objetos de aprendizaje en repositorios. Para la evaluación de nuestra propuesta se diseña un experimento dentro del dominio de genética, utilizando la ontologÃa Gene como base de conocimiento y el repositorio MERLOT como proveedor de los objetos de aprendizaje en este dominio. Las consultas de prueba se definen a partir de los contenidos tratados en un conjunto de cursos de genética publicados en la Web por instituciones de educación superior para el año 2009. La evaluación de la relevancia de los resultados es realizada por 3 expertos en el dominio. El análisis de la concordancia y asociación entre las evaluaciones de los expertos es realizado por medio del análisis de Kappa de Cohen y el coeficiente de correlación de Spearman. Finalmente, la efectividad de la propuesta de expansión se evalúa a partir de las métricas de cobertura y novedad aplicadas a los resultados recuperados de las consultas con y sin expansión. La principal aportación de nuestra propuesta es una estrategia para la expansión de consultas basada en ontologÃas de dominio que permita al diseñador instruccional obtener resultados relevantes que sin la expansión no podrÃan ser recuperados desde los repositorios de objetos de aprendizaje. Suponemos que en la medida que los diseñadores intruccionales puedan acceder a recursos relevantes es posible contribuir en la calidad de los cursos e-learning o en la calidad de los nuevos recursos creados a partir de ellos. Cabe destacar que la efectividad de nuestra propuesta se ve afectada por el sistema de recuperación utilizado en cada repositorio, la calidad de los recursos almacenados y su etiquetado, asà como la completitud y calidad de la base de conocimiento utilizada para la expansión
4th International Symposium on Ambient Intelligence (ISAmI 2013)
Ambient Intelligence (AmI) is a recent paradigm emerging from Artificial Intelligence (AI), where computers are used as proactive tools assisting people with their day-to-day activities, making everyone’s life more comfortable. Another main concern of AmI originates from the human computer interaction domain and focuses on offering ways to interact with systems in a more natural way by means user friendly interfaces. This field is evolving quickly as can be witnessed by the emerging natural language and gesture based types of interaction. The inclusion of computational power and communication technologies in everyday objects is growing and their embedding into our environments should be as invisible as possible. In order for AmI to be successful, human interaction with computing power and embedded systems in the surroundings should be smooth and happen without people actually noticing it. The only awareness people should have arises from AmI: more safety, comfort and wellbeing, emerging in a natural and inherent way. ISAmI is the International Symposium on Ambient Intelligence and aiming to bring together researchers from various disciplines that constitute the scientific field of Ambient Intelligence to present and discuss the latest results, new ideas, projects and lessons learned, namely in terms of software and applications, and aims to bring together researchers from various disciplines that are interested in all aspects of this area