94 research outputs found

    Top-k Keyword Search Over Graphs Based On Backward Search

    Full text link

    Semantic Keyword-based Search on Heterogeneous Information Systems

    Get PDF
    En los últimos años, con la difusión y el uso de Internet, el volumen de información disponible para los usuarios ha crecido exponencialmente. Además, la posibilidad de acceder a dicha información se ha visto impulsada por los niveles de conectividad de los que disfrutamos actualmente gracias al uso de los móviles de nueva generación y las redes inalámbricas (e.g., 3G, Wi-Fi). Sin embargo, con los métodos de acceso actuales, este exceso de información es tan perjudicial como la falta de la misma, ya que el usuario no tiene tiempo de procesarla en su totalidad. Por otro lado, esta información está detrás de sistemas de información de naturaleza muy heterogénea (e.g., buscadores Web, fuentes de Linked Data, etc.), y el usuario tiene que conocerlos para poder explotar al máximo sus capacidades. Esta diversidad se hace más patente si consideramos cualquier servicio de información como potencial fuente de información para el usuario (e.g., servicios basados en la localización, bases de datos exportadas mediante Servicios Web, etc.). Dado este nivel de heterogeneidad, la integración de estos sistemas se debe hacer externamente, ocultando su complejidad al usuario y dotándole de mecanismos para que pueda expresar sus consultas de forma sencilla. En este sentido, el uso de interfaces basados en palabras clave (keywords) se ha popularizado gracias a su sencillez y a su adopción por parte de los buscadores Web más usados. Sin embargo, esa sencillez que es su mayor virtud también es su mayor defecto, ya que genera problemas de ambigüedad en las consultas. Las consultas expresadas como conjuntos de palabras clave son inherentemente ambiguas al ser una proyección de la verdadera pregunta que el usuario quiere hacer. En la presente tesis, abordamos el problema de integrar sistemas de información heterogéneos bajo una búsqueda guiada por la semántica de las palabras clave; y presentamos QueryGen, un prototipo de nuestra solución. En esta búsqueda semántica abogamos por establecer la consulta que el usuario tenía en mente cuando escribió sus palabras clave, en un lenguaje de consulta formal para evitar posibles ambigüedades. La integración de los sistemas subyacentes se realiza a través de la definición de sus lenguajes de consulta y de sus modelos de ejecución. En particular, nuestro sistema: - Descubre el significado de las palabras clave consultando un conjunto dinámico de ontologías, y desambigua dichas palabras teniendo en cuenta su contexto (el resto de palabras clave), ya que cada una de las palabras tiene influencia sobre el significado del resto de la entrada. Durante este proceso, los significados que son suficientemente similares son fusionados y el sistema propone aquellos más probables dada la entrada del usuario. La información semántica obtenida en el proceso es integrada y utilizada en fases posteriores para obtener la correcta interpretación del conjunto de palabras clave. - Un mismo conjunto de palabras pueden representar diversas consultas aún cuando se conoce su significado individual. Por ello, una vez establecidos los significados de cada palabra y para obtener la consulta exacta del usuario, nuestro sistema encuentra todas las preguntas posibles utilizando las palabras clave. Esta traducción de palabras clave a preguntas se realiza empleando lenguajes de consulta formales para evitar las posibles ambigüedades y expresar la consulta de manera precisa. Nuestro sistema evita la generación de preguntas semánticamente incorrectas o duplicadas con la ayuda de un razonador basado en Lógicas Descriptivas (Description Logics). En este proceso, nuestro sistema es capaz de reaccionar ante entradas insuficientes (e.g., palabras omitidas) mediante la adición de términos virtuales, que representan internamente palabras que el usuario tenía en mente pero omitió cuando escribió su consulta. - Por último, tras la validación por parte del usuario de su consulta, nuestro sistema accede a los sistemas de información registrados que pueden responderla y recupera la respuesta de acuerdo a la semántica de la consulta. Para ello, nuestro sistema implementa una arquitectura modular permite añadir nuevos sistemas al vuelo siempre que se proporcione su especificación (lenguajes de consulta soportados, modelos y formatos de datos, etc.). Por otro lado, el trabajar con sistemas de información heterogéneos, en particular sistemas relacionados con la Computación Móvil, ha permitido que las contribuciones de esta tesis no se limiten al campo de la búsqueda semántica. A este respecto, se ha estudiado el ámbito de la semántica de las consultas basadas en la localización, y especialmente, la influencia de la semántica de las localizaciones en el procesado e interpretación de las mismas. En particular, se proponen dos modelos ontológicos para modelar y capturar la relaciones semánticas de las localizaciones y ampliar la expresividad de las consultas basadas en la localización. Durante el desarrollo de esta tesis, situada entre el ámbito de la Web Semántica y el de la Computación Móvil, se ha abierto una nueva línea de investigación acerca del modelado de conocimiento volátil, y se ha estudiado la posibilidad de utilizar razonadores basados en Lógicas Descriptivas en dispositivos basados en Android. Por último, nuestro trabajo en el ámbito de las búsquedas semánticas a partir de palabras clave ha sido extendido al ámbito de los agentes conversacionales, haciéndoles capaces de explotar distintas fuentes de datos semánticos actualmente disponibles bajo los principios del Linked Data

    Doctor of Philosophy

    Get PDF
    dissertationLinked data are the de-facto standard in publishing and sharing data on the web. To date, we have been inundated with large amounts of ever-increasing linked data in constantly evolving structures. The proliferation of the data and the need to access and harvest knowledge from distributed data sources motivate us to revisit several classic problems in query processing and query optimization. The problem of answering queries over views is commonly encountered in a number of settings, including while enforcing security policies to access linked data, or when integrating data from disparate sources. We approach this problem by efficiently rewriting queries over the views to equivalent queries over the underlying linked data, thus avoiding the costs entailed by view materialization and maintenance. An outstanding problem of query rewriting is the number of rewritten queries is exponential to the size of the query and the views, which motivates us to study problem of multiquery optimization in the context of linked data. Our solutions are declarative and make no assumption for the underlying storage, i.e., being store-independent. Unlike relational and XML data, linked data are schema-less. While tracking the evolution of schema for linked data is hard, keyword search is an ideal tool to perform data integration. Existing works make crippling assumptions for the data and hence fall short in handling massive linked data with tens to hundreds of millions of facts. Our study for keyword search on linked data brought together the classical techniques in the literature and our novel ideas, which leads to much better query efficiency and quality of the results. Linked data also contain rich temporal semantics. To cope with the ever-increasing data, we have investigated how to partition and store large temporal or multiversion linked data for distributed and parallel computation, in an effort to achieve load-balancing to support scalable data analytics for massive linked data

    Semantic multimedia modelling & interpretation for annotation

    Get PDF
    The emergence of multimedia enabled devices, particularly the incorporation of cameras in mobile phones, and the accelerated revolutions in the low cost storage devices, boosts the multimedia data production rate drastically. Witnessing such an iniquitousness of digital images and videos, the research community has been projecting the issue of its significant utilization and management. Stored in monumental multimedia corpora, digital data need to be retrieved and organized in an intelligent way, leaning on the rich semantics involved. The utilization of these image and video collections demands proficient image and video annotation and retrieval techniques. Recently, the multimedia research community is progressively veering its emphasis to the personalization of these media. The main impediment in the image and video analysis is the semantic gap, which is the discrepancy among a user’s high-level interpretation of an image and the video and the low level computational interpretation of it. Content-based image and video annotation systems are remarkably susceptible to the semantic gap due to their reliance on low-level visual features for delineating semantically rich image and video contents. However, the fact is that the visual similarity is not semantic similarity, so there is a demand to break through this dilemma through an alternative way. The semantic gap can be narrowed by counting high-level and user-generated information in the annotation. High-level descriptions of images and or videos are more proficient of capturing the semantic meaning of multimedia content, but it is not always applicable to collect this information. It is commonly agreed that the problem of high level semantic annotation of multimedia is still far from being answered. This dissertation puts forward approaches for intelligent multimedia semantic extraction for high level annotation. This dissertation intends to bridge the gap between the visual features and semantics. It proposes a framework for annotation enhancement and refinement for the object/concept annotated images and videos datasets. The entire theme is to first purify the datasets from noisy keyword and then expand the concepts lexically and commonsensical to fill the vocabulary and lexical gap to achieve high level semantics for the corpus. This dissertation also explored a novel approach for high level semantic (HLS) propagation through the images corpora. The HLS propagation takes the advantages of the semantic intensity (SI), which is the concept dominancy factor in the image and annotation based semantic similarity of the images. As we are aware of the fact that the image is the combination of various concepts and among the list of concepts some of them are more dominant then the other, while semantic similarity of the images are based on the SI and concept semantic similarity among the pair of images. Moreover, the HLS exploits the clustering techniques to group similar images, where a single effort of the human experts to assign high level semantic to a randomly selected image and propagate to other images through clustering. The investigation has been made on the LabelMe image and LabelMe video dataset. Experiments exhibit that the proposed approaches perform a noticeable improvement towards bridging the semantic gap and reveal that our proposed system outperforms the traditional systems

    Defining interoperability standards: A case study of public health observatory websites

    Get PDF
    The Association of Public Health Observatories (APHO) is a group of region-based health-information providers. Each PHO publishes health-related data for their specific region. Each observatory has taken a national lead in one or more key health area - such as 'cancer' or Obesity'. In 2003, a project was initiated to develop 'interoperability' between public health observatory websites, so the national resources published by one lead observatory could be found on the websites for each other PHO. The APHO interoperability project defined a set of requirements for each PHO - websites should comply with the current government data standards and provide webservices to allow data to be searched in real-time between different PHOs. This thesis describes the production of an interoperable website for the North East Public Health Observatory (NEPHO) and the problems faced during implementation to comply with the APHO interoperability requirements. The areas of interoperability, e-Government and metadata were investigated specifically in suitability for NEPHO and an action list of tasks necessary to achieve the project aims was drawn up. This project has resulted in the successful introduction of a new NEPHO website that complies with the APHO and e-Govemment requirements, however interoperability with other organisations has been difficult to achieve. This thesis describes how other organisations approached the same APHO interoperability criteria and questions whether the national project governance could be improved

    Multimedia Retrieval

    Get PDF

    Sistema de extracción de información semántica de la DBpedia

    Get PDF
    Hoy en día, nos podemos encontrar cada vez con más información en la Web. Los usuarios, con la llamada Web 2.0, se han vuelto también proveedores de información y cada vez son más los datos disponibles en Internet. La Web Semántica dota toda ésta información de semántica y relaciones, de manera que éstos recursos, hasta ahora sólo consumibles por seres humanos, pueden ser entendidos y tratados por máquinas. Para poder dar formato semántico a los recursos presentes en la Web se usan ontologías, que denen de una manera exhaustiva y rigurosa el modelo conceptual de uno o varios dominios dados. Éstas son utilizadas para etiquetar distintos tipos de recursos de manera que los contenidos pasen a ser procesables por los computadores, pasando a formar parte de esta forma de la Web Semántica, donde los recursos se encuentran estructurados según dichas ontologías. La aparición de estos datos estructurados abre un nuevo camino para las técnicas de Information Retrieval (IR). En este momento, estas técnicas básicamente se realizan como búsquedas sintácticas y probabilísticas, buscando exclusivamente por lexemas y realzando el peso de los resultados más populares en cada búsqueda. El objetivo de este proyecto ha sido el diseño e implementación de una solución de búsqueda híbrida basada en keywords que utiliza la semántica de los recursos para enfocar la búsqueda y posibilitar la búsqueda sobre datos estructurados. Llamamos a este tipo de búsqueda híbrida ya que utiliza técnicas sintácticas y semánticas. Esto se ha implementado sobre un servicio web con los métodos necesarios para poder realizar búsquedas sobre el dominio denido por el usuario. El sistema permite al usuario realizar búsquedas de este tipo sin necesidad de disponer del conocimiento sobre lenguajes de consulta formales que este tipo de búsqueda normalmente requieren. Para realizar tales búsquedas ha sido necesario realizar el aprendizaje de diversas tecnologías hasta ahora no utilizadas durante la carrera. Entre estas tecnologías destacan primero los lenguajes de modelado semántico propuestos por el W3C: OWL y RDF. OWL es un lenguaje para la representación de ontologías basado en Lógicas Descriptivas (Description Logics, DL), mientras que RDF es un lenguaje de modelado de conocimiento con menor expresividad destinado a describir recursos de acuerdo a vocabularios u ontologías externas. El lenguaje RDF ha sido tomado como estándar por la iniciativa Linked Data para la publicación de datos. Dicha iniciativa propone la publicación de datos de manera que éstos queden vinculados semánticamente entre sí. Después de estudiar la relación entre RDF y OWL y su correcto uso, se estudió el lenguaje de consultas SPARQL, sucesor semántico de SQL y lenguaje estándar del W3C para la consulta sobre RDF. Las consultas SPARQL en este proyecto se realizan sobre uno de los puntos de acceso a la DBPedia. Dicho proyecto se dedica a la extracción automática de información semántica de la Wikipedia y actualmente es un referente por la cantidad de datos de los que dispone. Aunque DBPedia dispone de una cantidad de datos considerable, estos están etiquetados según varias ontologías, proporcionando cada una una visión distinta de los contenidos o, como ocurre a menudo, la misma visión doblemente etiquetada o con sutiles diferencias; el estudio de este problema para poner en valor la cantidad de datos que proporciona la iniciativa Linked Data también forma parte del proyecto con objeto de conseguir una recuperación de datos más útil de datos. Por las especificaciones de un proyecto paralelo, el cual requería de este PFC como punto para recuperar información, y con los conocimientos adquiridos durante la fase de aprendizaje, se ha decidido crear un servicio web con diversos métodos que permitan la realización de estas búsquedas de manera desacoplada y general, de manera que el sistema desarrollado no sólo sirviese como punto de acceso para el proyecto paralelo y en el dominio particular especicado (en este caso, el dominio de la mecánica de uidos), sino que este pudiese ser usado en cualquier otro dominio y en otras herramientas con diversos propósitos
    corecore