17 research outputs found

    The State-of-the-arts in Focused Search

    Get PDF
    The continuous influx of various text data on the Web requires search engines to improve their retrieval abilities for more specific information. The need for relevant results to a user’s topic of interest has gone beyond search for domain or type specific documents to more focused result (e.g. document fragments or answers to a query). The introduction of XML provides a format standard for data representation, storage, and exchange. It helps focused search to be carried out at different granularities of a structured document with XML markups. This report aims at reviewing the state-of-the-arts in focused search, particularly techniques for topic-specific document retrieval, passage retrieval, XML retrieval, and entity ranking. It is concluded with highlight of open problems

    Examining the Effects of Html, Xml and Web Services on Internet Servers

    Get PDF
    DergiPark: 245962trakyafbdWWW (World Wide Web) kavramının ortaya çıkışı ile birlikte bilginin ve görselliğin saklandığı HTML (HyperText Markup Language) işaretleme dili İnternetin temelini oluşturmuştur. HTML’in veriyi göstermedeki yetersizlikleri nedeniyle XML (Extensible Markup Language) işaretleme dili İnternet dünyasındaki yerini almaya başlamıştır. XML ile birlikte Web Servisleri kavramı doğmuştur. Bu çalışmanın amacı İnternet üzerinde bilginin paylaşımında kullanılabilecek HTML, XML ve Web Servislerinin İnternet sunucularına etkisini incelemektir. Bu etki incelenirken dilbilim uygulamalarında için kullandığımız İnternet tabanlı sözlük uygulamaları ve geliştirdiğimiz sözlük uygulamasından yararlanılacaktır.Since the emergence of the concept of WWW, the HTML markup language that encodes visual or non-visual information has become the base of the Internet. Because of the inefficiency of HTML to show data, the XML markup language has begun to take a place in the domain of Internet. With XML, the concept of Web services came to existence. The aim of this study is to examine the effect of HTML, XML and Web Services on Internet servers. When examining this effect, we will make use of some dictionaries available on the Internet and similar dictionary which we developed to use in linguistic applications

    Is searching full text more effective than searching abstracts?

    Get PDF
    <p>Abstract</p> <p>Background</p> <p>With the growing availability of full-text articles online, scientists and other consumers of the life sciences literature now have the ability to go beyond searching bibliographic records (title, abstract, metadata) to directly access full-text content. Motivated by this emerging trend, I posed the following question: is searching full text more effective than searching abstracts? This question is answered by comparing text retrieval algorithms on MEDLINE<sup>® </sup>abstracts, full-text articles, and spans (paragraphs) within full-text articles using data from the TREC 2007 genomics track evaluation. Two retrieval models are examined: <it>bm25 </it>and the ranking algorithm implemented in the open-source Lucene search engine.</p> <p>Results</p> <p>Experiments show that treating an entire article as an indexing unit does not consistently yield higher effectiveness compared to abstract-only search. However, retrieval based on spans, or paragraphs-sized segments of full-text articles, consistently outperforms abstract-only search. Results suggest that highest overall effectiveness may be achieved by combining evidence from spans and full articles.</p> <p>Conclusion</p> <p>Users searching full text are more likely to find relevant articles than searching only abstracts. This finding affirms the value of full text collections for text retrieval and provides a starting point for future work in exploring algorithms that take advantage of rapidly-growing digital archives. Experimental results also highlight the need to develop distributed text retrieval algorithms, since full-text articles are significantly longer than abstracts and may require the computational resources of multiple machines in a cluster. The MapReduce programming model provides a convenient framework for organizing such computations.</p

    Focused Retrieval

    Get PDF
    Traditional information retrieval applications, such as Web search, return atomic units of retrieval, which are generically called ``documents''. Depending on the application, a document may be a Web page, an email message, a journal article, or any similar object. In contrast to this traditional approach, focused retrieval helps users better pin-point their exact information needs by returning results at the sub-document level. These results may consist of predefined document components~---~such as pages, sections, and paragraphs~---~or they may consist of arbitrary passages, comprising any sub-string of a document. If a document is marked up with XML, a focused retrieval system might return individual XML elements or ranges of elements. This thesis proposes and evaluates a number of approaches to focused retrieval, including methods based on XML markup and methods based on arbitrary passages. It considers the best unit of retrieval, explores methods for efficient sub-document retrieval, and evaluates formulae for sub-document scoring. Focused retrieval is also considered in the specific context of the Wikipedia, where methods for automatic vandalism detection and automatic link generation are developed and evaluated

    Un modèle de recherche d'information agrégée basée sur les réseaux bayésiens dans des documents semi-structurés

    Get PDF
    Nous proposons un modèle de recherche d'information basé sur les réseaux bayésiens. Dans ce modèle, la requête de l'utilisateur déclenche un processus de propagation pour sélectionner les éléments pertinents. Dans notre modèle, nous cherchons à renvoyer à l'utilisateur un agrégat au lieu d'une liste d'éléments. En fait, l'agrégat formulé à partir d'un document est considéré comme étant un ensemble d'éléments ou une unité d'information (portion d'un document) qui répond le mieux à la requête de l'utilisateur. Cet agrégat doit répondre à trois aspects à savoir la pertinence, la non-redondance et la complémentarité pour qu'il soit qualifié comme une réponse à cette requête. L'utilité des agrégats retournés est qu'ils donnent à l'utilisateur un aperçu sur le contenu informationnel de cette requête dans la collection de documents. Afin de valider notre modèle, nous l'avons évalué dans le cadre de la campagne d'évaluation INEX 2009 (utilisant plus que 2 666 000 documents XML de l'encyclopédie en ligne Wikipédia). Les expérimentations montrent l'intérêt de cette approche en mettant en évidence l'impact de l'agrégation de tels éléments.The work described in this thesis are concerned with the aggregated search on XML elements. We propose new approaches to aggregating and pruning using different sources of evidence (content and structure). We propose a model based on Bayesian networks. The dependency relationships between query-terms and terms-elements are quantified by probability measures. In this model, the user's query triggers a propagation process to find XML elements. In our model, we search to return to the user an aggregate instead of a list of XML elements. In fact, the aggregate made from a document is considered an information unit (or a portion of this document) that best meets the user's query. This aggregate must meet three aspects namely relevance, non-redundancy and complementarity in order to answer the query. The value returned aggregates is that they give the user an overview of the information need in the collection

    Impact de la structure des documents XML sur le processus d'appariement dans le contexte de la recherche d'information semi-structurée

    Get PDF
    Nos travaux s'inscrivent dans le cadre de la recherche d'information sur documents semi-structurésde type XML. La recherche d'information structurée (RIS) a pour objectif de retourner des granules documentaires précis répondant aux besoins d'information exprimés par l'utilisateur au travers de requêtes. Ces requêtes permettent de spécifier, en plus des conditions de contenu, des contraintes structurelles sur la localisation de l'information recherchée. L'objectif de nos travaux est d'étudier l'apport de la structure des documents dans le processus d'appariement documents-requêtes. Puisque les contraintes structurelles des requêtes peuvent être représentées sous la forme d'un arbre et que, parallèlement, la structure du document, de nature hiérarchique, peut elle-même utiliser le même type de représentation, nous avons proposé plusieurs modèles de mesure de la similarité entre ces deux structures. La mesure de la similarité entre deux structures arborescentes ayant été étudiée par le domaine de la théorie des graphes, nous avons tout d'abord cherché à adapter les algorithmes de ce domaine à notre problématique. Suite à une étude approfondie de ces algorithmes au regard de la RIS, notre choix s'est porté sur la distance d'édition entre arbres (Tree Edit Distance - TED). Cet algorithme permet, au travers de l'application récursive de séquences de suppression et de substitution, de mesurer le degré d'isomorphisme (le degré de similarité) entre deux arbres. Constatant que ces algorithmes sont coûteux en mémoire et en calcul, nous avons cherché à en réduire la complexité et le temps d'exécution au travers d'approches de résumé et de la mise en place d'un algorithme de TED au coût de complexité plus bas. Etant donné que la TED est normalement utilisée avec des coûts d'opération fixes peut adaptés à notre problématique, nous en avons également proposé de nouveaux basés sur la distance dans le graphe formé par la grammaire des documents : la DTD. Notre deuxième proposition se base sur les Modèles de Langue. En recherche d'information, ces derniers sont utilisés afin de mesurer la pertinence au travers de la probabilité qu'un terme de la requête soit généré par un document. Nous avons utilisés les Modèles de Langue pour mesurer, non pas la probabilité de pertinence du contenu, mais celle de la structure. Afin de former un vocabulaire document et requête à même d'être utilisé par notre modèle de langue structurel nous avons utilisé une technique de relaxation pondérée (la relaxation est le relâchement des contraintes). Nous avons également proposé une méthode pour apparier le contenu des documents et celui des requêtes. L'appariement seul des structures étant insuffisant dans une problématique de recherche d'information : la pertinence d'un granule documentaire est jugée en priorité sur la pertinence de l'information textuelle qu'il contient. De ce fait, nous avons proposé une approche de mesure de la pertinence de ce contenu. Notre méthode utilise la structure de l'arbre afin d'opérer une propagation de la pertinence du texte en prenant en compte l'environnement des éléments traversés ainsi que le contexte global du document. Nos différents modèles ont été expérimentés sur deux tâches de la campagne d'évaluation de référence de notre domaine : Initiative for XML Retrieval. Cette campagne a pour but de permettre l'évaluation de systèmes de recherche d'information XML dans un cadre normalisée et comporte plusieurs tâches fournissant des corpus, des mesures d'évaluation, des requêtes, et des jugements de pertinence. Nous avons à ce propos participé à cette campagne en 2011.Pour nos expérimentations, les tâches que nous avons choisi d'utiliser sont : * La tâche SSCAS d'INEX 2005 qui utilise une collection d'articles scientifiques d'IEEE. Cette collection est orientée texte dans la mesure où la structure exprimée dans les documents qu'elle contient est similaire à celle d'un livre (paragraphe, sections). * La tâche Datacentric d'INEX 2010 dont la collection est extraite d'IMDB. Cette collection est orientée données dans la mesure où les termes des documents sont très spécifiques et peu redondants et que la structure est porteuse de sens. Nos différentes expérimentations nous ont permis de montrer que le choix de la méthode d'appariement dépend de la collection considérée. Dans le cadre d'une collection orienté texte, la structure peut être prise en compte de manière non stricte et plusieurs sous-arbres extraits du document peuvent être utilisés simultanément pour évaluer la similarité structurelle. Inversement, dans le cadre d'une collection orientée donnée, la prise en compte stricte de la structure est nécessaire. Etant donné que les éléments recherchés portent une sémantique, il est alors important de détecter quelle partie du document est à priori pertinente. La structure à apparier doit être la plus précise et minimale possible. Enfin, nos approches de mesures de la similarité structurelle se sont montrées performantes et ont amélioré la pertinence des résultats retournés par rapport à l'état de l'art, à partir du moment où la nature de la collection a été prise en compte dans la sélection des arbres structurels en entrée.The work presented in this PhD thesis concerns structured information retrieval and focuses on XML documents. Structured information retrieval (SIR) aims at returning to users document parts (instead of whole documents) relevant to their needs. Those needs are expressed by queries that can contain content conditions as well as structural constraints which are used to specify the location of the needed information. In this work, we are interested in the use of document structure in the retrieval process. We propose some approaches to evaluate the document-query structural similarity. Both query structural constraints and document structures can be represented as trees. Based on this observation we propose two models which aim at matching these tree structures. As tree matching is historically linked with graph theory, our first proposition is based on an adaptation of a solution from the graph theory. After conducting an in depth study of the existing graph theory algorithms, we choose to use Tree Edit Distance (TED), which measures isomorphism (tree similarity) as the minimal set of remove and replace operations to turn one tree to another. As the main drawback of TED algorithms is their time and space complexity, which impacts the overall matching runtime, we propose two ways to overcome these issues. First we propose a TED algorithm having a minimal space complexity overall. Secondly, as runtime is dependent on the input tree cardinality (size) we propose several summarization techniques. Finally, since TED is usually used to assess relatively similar trees and as TED efficiency strongly relies on its costs, we propose a novel way, based on the DTD of documents, to compute these costs. Our second proposition is based on language models which are considered as very effective IR models. Traditionally, they are use to assess the content similarity through the probability of a document model (build upon document terms) to generate the query. We take a different approach based purely on structure and consider the document and query vocabulary as a set of transitions between document structure labels. To build these vocabularies, we propose to extract and weight all the structural relationships through a relaxation process. Finally, as relevance of the returned search results is first assessed based on the content, we propose a content evaluation process which uses the document tree structure to propagate relevance: the relevance of a node is evaluated thanks to its leaves as well as with the document context and neighbour nodes content relevance. In order to validate our models we conduct some experiments on two data-sets from the reference evaluation campaign of our domain: Initiative for XML retrieval (INEX). INEX tracks provide documents collections, metrics and relevance judgments which can be used to assess and compare SIR models. The tracks we use are: * The INEX 2005 SSCAS track whose associated documents are scientific papers extracted from IEEE. We consider this collection to be text-oriented as the structure used is similar to the one we can find in a book. * The INEX 2010 Datacentric track which uses a set of documents extracted from the Internet Movie Database (IMDB) website. This collection is data-oriented as document terms are very specific while the structure carries semantic meaning. Our various experiments show that the matching strategy strongly relies on the document structure type. In text-oriented collections, the structure can be considered as non-strict and several subtrees can be simultaneously used to assess the relevance. On the opposite, structure from documents regarded as data-centered should be used as strictly as possible. The reason is that as elements labels carry semantic, documents structures contain relevant and useful information that the content does not necessarily provide. Finally, our structural similarity approaches improve relevance of the returned results compared to state-of-the-art approaches, as long as the collection nature is considered when extracting the input trees for the structural matching process
    corecore