16 research outputs found

    Logical and uncertainty models for information access: current trends

    Get PDF
    The current trends of research in information access as emerged from the 1999 Workshop on Logical and Uncertainty Models for Information Systems (LUMIS'99) are briefly reviewed in this paper. We believe that some of these issues will be central to future research on theory and applications of logical and uncertainty models for information access

    Retrieval of Spoken Documents: First Experiences (Research Report TR-1997-34)

    Get PDF
    We report on our first experiences in dealing with the retrieval of spoken documents. While lacking the tools and know-how for performing speech recognition on the spoken documents, we tried to use in the best possible way our knowledge of probabilistic indexing and retrieval of textual documents. The techniques we used and the results we obtained are encouraging, motivating our future involvement in other further experimentation in this new area of research

    Machine Learning in Automated Text Categorization

    Full text link
    The automated categorization (or classification) of texts into predefined categories has witnessed a booming interest in the last ten years, due to the increased availability of documents in digital form and the ensuing need to organize them. In the research community the dominant approach to this problem is based on machine learning techniques: a general inductive process automatically builds a classifier by learning, from a set of preclassified documents, the characteristics of the categories. The advantages of this approach over the knowledge engineering approach (consisting in the manual definition of a classifier by domain experts) are a very good effectiveness, considerable savings in terms of expert manpower, and straightforward portability to different domains. This survey discusses the main approaches to text categorization that fall within the machine learning paradigm. We will discuss in detail issues pertaining to three different problems, namely document representation, classifier construction, and classifier evaluation.Comment: Accepted for publication on ACM Computing Survey

    Information Retrieval Performance Enhancement Using The Average Standard Estimator And The Multi-criteria Decision Weighted Set

    Get PDF
    Information retrieval is much more challenging than traditional small document collection retrieval. The main difference is the importance of correlations between related concepts in complex data structures. These structures have been studied by several information retrieval systems. This research began by performing a comprehensive review and comparison of several techniques of matrix dimensionality estimation and their respective effects on enhancing retrieval performance using singular value decomposition and latent semantic analysis. Two novel techniques have been introduced in this research to enhance intrinsic dimensionality estimation, the Multi-criteria Decision Weighted model to estimate matrix intrinsic dimensionality for large document collections and the Average Standard Estimator (ASE) for estimating data intrinsic dimensionality based on the singular value decomposition (SVD). ASE estimates the level of significance for singular values resulting from the singular value decomposition. ASE assumes that those variables with deep relations have sufficient correlation and that only those relationships with high singular values are significant and should be maintained. Experimental results over all possible dimensions indicated that ASE improved matrix intrinsic dimensionality estimation by including the effect of both singular values magnitude of decrease and random noise distracters. Analysis based on selected performance measures indicates that for each document collection there is a region of lower dimensionalities associated with improved retrieval performance. However, there was clear disagreement between the various performance measures on the model associated with best performance. The introduction of the multi-weighted model and Analytical Hierarchy Processing (AHP) analysis helped in ranking dimensionality estimation techniques and facilitates satisfying overall model goals by leveraging contradicting constrains and satisfying information retrieval priorities. ASE provided the best estimate for MEDLINE intrinsic dimensionality among all other dimensionality estimation techniques, and further, ASE improved precision and relative relevance by 10.2% and 7.4% respectively. AHP analysis indicates that ASE and the weighted model ranked the best among other methods with 30.3% and 20.3% in satisfying overall model goals in MEDLINE and 22.6% and 25.1% for CRANFIELD. The weighted model improved MEDLINE relative relevance by 4.4%, while the scree plot, weighted model, and ASE provided better estimation of data intrinsic dimensionality for CRANFIELD collection than Kaiser-Guttman and Percentage of variance. ASE dimensionality estimation technique provided a better estimation of CISI intrinsic dimensionality than all other tested methods since all methods except ASE tend to underestimate CISI document collection intrinsic dimensionality. ASE improved CISI average relative relevance and average search length by 28.4% and 22.0% respectively. This research provided evidence supporting a system using a weighted multi-criteria performance evaluation technique resulting in better overall performance than a single criteria ranking model. Thus, the weighted multi-criteria model with dimensionality reduction provides a more efficient implementation for information retrieval than using a full rank model

    Lexical measurements for information retrieval: a quantum approach

    Get PDF
    The problem of determining whether a document is about a loosely defined topic is at the core of text Information Retrieval (IR). An automatic IR system should be able to determine if a document is likely to convey information on a topic. In most cases, it has to do it solely based on measure- ments of the use of terms in the document (lexical measurements). In this work a novel scheme for measuring and representing lexical information from text documents is proposed. This scheme is inspired by the concept of ideal measurement as is described by Quantum Theory (QT). We apply it to Information Retrieval through formal analogies between text processing and physical measurements. The main contribution of this work is the development of a complete mathematical scheme to describe lexical measurements. These measurements encompass current ways of repre- senting text, but also completely new representation schemes for it. For example, this quantum-like representation includes logical features such as non-Boolean behaviour that has been suggested to be a fundamental issue when extracting information from natural language text. This scheme also provides a formal unification of logical, probabilistic and geometric approaches to the IR problem. From the concepts and structures in this scheme of lexical measurement, and using the principle of uncertain conditional, an “Aboutness Witness” is defined as a transformation that can detect docu- ments that are relevant to a query. Mathematical properties of the Aboutness Witness are described in detail and related to other concepts from Information Retrieval. A practical application of this concept is also developed for ad hoc retrieval tasks, and is evaluated with standard collections. Even though the introduction of the model instantiated here does not lead to substantial perfor- mance improvements, it is shown how it can be extended and improved, as well as how it can generate a whole range of radically new models and methodologies. This work opens a number of research possibilities both theoretical and experimental, like new representations for documents in Hilbert spaces or other forms, methodologies for term weighting to be used either within the proposed framework or independently, ways to extend existing methodologies, and a new range of operator-based methods for several tasks in IR

    Language Models and Smoothing Methods for Information Retrieval

    Get PDF
    Language Models and Smoothing Methods for Information Retrieval (Sprachmodelle und Glättungsmethoden für Information Retrieval) Najeeb A. Abdulmutalib Kurzfassung der Dissertation Retrievalmodelle bilden die theoretische Grundlage für effektive Information-Retrieval-Methoden. Statistische Sprachmodelle stellen eine neue Art von Retrievalmodellen dar, die seit etwa zehn Jahren in der Forschung betrachtet werde. Im Unterschied zu anderen Modellen können sie leichter an spezifische Aufgabenstellungen angepasst werden und liefern häufig bessere Retrievalergebnisse. In dieser Dissertation wird zunächst ein neues statistisches Sprachmodell vorgestellt, das explizit Dokumentlängen berücksichtigt. Aufgrund der spärlichen Beobachtungsdaten spielen Glättungsmethoden bei Sprachmodellen eine wichtige Rolle. Auch hierfür stellen wir eine neue Methode namens 'exponentieller Glättung' vor. Der experimentelle Vergleich mit konkurrierenden Ansätzen zeigt, dass unsere neuen Methoden insbesondere bei Kollektionen mit stark variierenden Dokumentlängen überlegene Ergebnisse liefert. In einem zweiten Schritt erweitern wir unseren Ansatz auf XML-Retrieval, wo hierarchisch strukturierte Dokumente betrachtet werden und beim fokussierten Retrieval möglichst kleine Dokumentteile gefunden werden sollen, die die Anfrage vollständig beantworten. Auch hier demonstriert der experimentelle Vergleich mit anderen Ansätzen die Qualität unserer neu entwickelten Methoden. Der dritte Teil der Arbeit beschäftigt sich mit dem Vergleich von Sprachmodellen und der klassischen tf*idf-Gewichtung. Neben einem besseren Verständnis für die existierenden Glättungsmethoden führt uns dieser Ansatz zur Entwicklung des Verfahrens der 'empirischen Glättung'. Die damit durchgeführten Retrievalerexperimente zeigen Verbesserungen gegenüber anderen Glättungsverfahren.Language Models and Smoothing Methods for Information Retrieval Najeeb A. Abdulmutalib Abstract of the Dissertation Designing an effective retrieval model that can rank documents accurately for a given query has been a central problem in information retrieval for several decades. An optimal retrieval model that is both effective and efficient and that can learn from feedback information over time is needed. Language models are new generation of retrieval models and have been applied since the last ten years to solve many different information retrieval problems. Compared with the traditional models such as the vector space model, they can be more easily adapted to model non traditional and complex retrieval problems and empirically they tend to achieve comparable or better performance than the traditional models. Developing new language models is currently an active research area in information retrieval. In the first stage of this thesis we present a new language model based on an odds formula, which explicitly incorporates document length as a parameter. To address the problem of data sparsity where there is rarely enough data to accurately estimate the parameters of a language model, smoothing gives a way to combine less specific, more accurate information with more specific, but noisier data. We introduce a new smoothing method called exponential smoothing, which can be combined with most language models. We present experimental results for various language models and smoothing methods on a collection with large document length variation, and show that our new methods compare favourably with the best approaches known so far. We discuss the collection effect on the retrieval function, where we investigate the performance of well known models and compare the results conducted using two variant collections. In the second stage we extend the current model from flat text retrieval to XML retrieval since there is a need for content-oriented XML retrieval systems that can efficiently and effectively store, search and retrieve information from XML document collections. Compared to traditional information retrieval, where whole documents are usually indexed and retrieved as single complete units, information retrieval from XML documents creates additional retrieval challenges. By exploiting the logical document structure, XML allows for more focussed retrieval that identifies elements rather than documents as answers to user queries. Finally we show how smoothing plays a role very similar to that of the idf function: beside the obvious role of smoothing, it also improves the accuracy of the estimated language model. The within document frequency and the collection frequency of a term actually influence the probability of relevance, which led us to a new class of smoothing function based on numeric prediction, which we call empirical smoothing. Its retrieval quality outperforms that of other smoothing methods

    An integrated diagnostic architecture for autonomous robots

    Get PDF
    Abstract unavailable please refer to PD

    A study of the kinematics of probabilities in information retrieval

    Get PDF
    In Information Retrieval (IR), probabilistic modelling is related to the use of a model that ranks documents in decreasing order of their estimated probability of relevance to a user's information need expressed by a query. In an IR system based on a probabilistic model, the user is guided to examine first the documents that are the most likely to be relevant to his need. If the system performed well, these documents should be at the top of the retrieved list. In mathematical terms the problem consists of estimating the probability P(R | q,d), that is the probability of relevance given a query q and a document d. This estimate should be performed for every document in the collection, and documents should then be ranked according to this measure. For this evaluation the system should make use of all the information available in the indexing term space. This thesis contains a study of the kinematics of probabilities in probabilistic IR. The aim is to get a better insight of the behaviour of the probabilistic models of IR currently in use and to propose new and more effective models by exploiting different kinematics of probabilities. The study is performed both from a theoretical and an experimental point of view. Theoretically, the thesis explores the use of the probability of a conditional, namely P(d → q), to estimate the conditional probability P(R | q,d). This is achieved by interpreting the term space in the context of the "possible worlds semantics". Previous approaches in this direction had as their basic assumption the consideration that "a document is a possible world". In this thesis a different approach is adopted, based on the assumption that "a term is a possible world". This approach enables the exploitation of term-term semantic relationships in the term space, estimated using an information theoretic measure. This form of information is rarely used in IR at retrieval time. Two new models of IR are proposed, based on two different way of estimating P(d → q) using a logical technique called Imaging. The first model is called Retrieval by Logical Imaging; the second is called Retrieval by General Logical Imaging, being a generalisation of the first model. The probability kinematics of these two models is compared with that of two other proposed models: the Retrieval by Joint Probability model and the Retrieval by Conditional Probability model. These last two models mimic the probability kinematics of the Vector Space model and of the Probabilistic Retrieval model. Experimentally, the retrieval effectiveness of the above four models is analysed and compared using five test collections of different sizes and characteristics. The results of this experimentation depend heavily on the choice of term weight and term similarity measures adopted. The most important conclusion of this thesis is that theoretically a probability transfer that takes into account the semantic similarity between the probability-donor and the probability-recipient is more effective than a probability transfer that does not take that into account. In the context of IR this is equivalent to saying that models that exploit the semantic similarity between terms in the term space at retrieval time are more effective that models that do not do that. Unfortunately, while the experimental investigation carried out using small test collections provide evidence supporting this conclusion, experiments performed using larger test collections do not provide as much supporting evidence (although they do not provide contrasting evidence either). The peculiar characteristics of the term space of different collections play an important role in shaping the effects that different probability kinematics have on the effectiveness of the retrieval process. The above result suggests the necessity and the usefulness of further investigations into more complex and optimised models of probabilistic IR, where probability kinematics follows non-classical approaches. The models proposed in this thesis are just two such approaches; other ones can be developed using recent results achieved in other fields, such as non-classical logics and belief revision theory

    An axiomatic theory for information retrieval

    Get PDF
    Systemen die aan de hand van een vraagstelling relevante informatie opleveren worden information retrieval (IR) systemen genoemd. Deze systemen spelen een steeds belang- rijker rol in de informatievoorziening, zeker gezien de toenemende mate waarin docu- menten met ongestructureerde informatie (zoals rapporten, memo's, verslagen, foto's en video's) voor nader gebruik worden opgeslagen en het toenemend gebruik van digitale bibliotheken voor dit doel. Helaas komt het maar al te vaak voor dat opgeslagen rele- vante informatie, indien nodig, niet meer terug te vinden is. Dit is een gevolg van het feit dat het heel lastig is om te bepalen of een document relevant is voor een gegeven vraagstelling. Het terugvinden van relevante informatie, met uitsluiting van irrelevante informatie, wordt bovendien bemoeilijkt door het feit dat informatie niet meer in een statisch informatiedomein staat opgeslagen maar, mede door de opkomst van het digitale wegennet (Internet), zich kan bevinden in diverse, over de wereld verspreide, dynamische informatiedomeinen. De essentie van het zoeken naar relevante informatie kan als volgt omschreven worden: `Op welke wijze kan men relevante informatie onderscheiden van niet-relevante informatie met betrekking tot een zekere informatiebehoefte.' Naarmate een informatiedomein meer informatie bevat en er meer informatiedomeinen moeten worden doorzocht, wordt de rol van een IR-systeem belangrijker. Handmatige controle van het resultaat -is alle relevante informatie nu wel gevonden?- is onmogelijk geworden. Het wordt zodoende steeds belangrijker om op een verantwoorde wijze een IR-systeem, of een combinatie van meerdere IR-systemen, te selecteren. Om te helpen bij het maken van een verantwoorde keuze wordt in dit proefschrift een theoretisch raamwerk voor IR-systemen gepresenteerd. In dit raamwerk wordt vooral gekeken naar de wijze waarop in een IR-systeem een relevantie-beslissing tot stand komt. Aan de hand van deze studie zijn we in staat kwalitatieve uitspraken te doen over de relevantie-beslissingen van verschillende IR-systemen en kunnen we op deze manier ko- men tot een vergelijking van hun doelmatigheid. Als uitgangspunt geldt dat ieder IR-systeem een bepaalde methode heeft om te beslis- sen of een document relevant is gegeven een vraagstelling. Deze methode is afgeleid aan de hand van een model. Een IR-model is gebaseerd op de volgende drie fundamenten: 191?192 Samenvatting (i) de documentrepresentatie voor de meeste IR-modellen is dit gewoon een verzameling representatieve tref- woorden (keywords) maar steeds vaker gebruikt men tegenwoordig meer complexe representaties die de inhoud van een document preciezer omschrijven. (ii) de vraagstelling deze wordt meestal zo samengesteld dat deze direct passend is op de documentre- presentatie van het model. In veel modellen kan een vraagstelling worden samen- gesteld met behulp van connectoren zoals `en', `of', en `niet'. (iii) de matchingfunctie deze functie bepaalt of een documentrepresentatie relevant geacht kan worden ge- geven de vraagstelling. Sommige modellen maken hierbij gebruik van opgeslagen kennis zoals die bijvoorbeeld aanwezig is in een thesaurus. Een matchingfunctie kan in plaats van relevant of niet relevant ook gradaties aangeven door middel van een rankingproces. Information retrieval onderzoekers voeren vele discussies of de aanpak in model X beter is dan de aanpak in model Y. In deze discussie kiest men vaak positie aan de hand van toetsen die plaats vinden op grote, speciaal geprepareerde testcollecties (bijvoorbeeld de TREC testcollectie die meer dan 3 gigabyte aan informatie bevat). In zogenaamde recall en precision-berekeningen worden de resultaten van de toetsen omgezet in statistische waarden, die aangeven hoe doortastend en accuraat een bepaald IR-systeem is. De recallwaarde geeft aan hoeveel relevante documenten door het systeem zijn opgeleverd ten opzichte van de in het informatiedomein aanwezige relevante documenten. Precision geeft aan hoeveel opgeleverde documenten daadwerkelijk relevant zijn. Een hoge recall geeft dus aan dat het IR-systeem min of meer alles gevonden heeft wat relevant is, een hoge precision geeft aan dat alles wat door het systeem gevonden is, ook relevant is. In dit proefschrift wordt, in plaats van een experimentele, een theoretische vergelij- kingsmethode voor IR-systemen gepresenteerd. Omdat elk IR-model gebaseerd is op een geschikt begrip van `relevantie', wordt eerst onderzocht hoe dit begrip kan worden ge- formaliseerd. In 1971 introduceerde Cooper een objectieve notie van relevantie genaamd `logisch relevant'. Deze notie plaatst het begrip relevantie in een logische context, en onttrekt het aan subjectieve interpretaties. Bij logische relevantie gaat het erom of men op een logische wijze een relevantie-beslissing kan a eiden. Om verwarring tussen de be- grippen `relevant' en `logisch relevant' te vermijden, gebruiken we determ omtrentheid (in het engels `aboutness') om aan te duiden dat informatie omtrent andere informatie is. In 1986 presenteerde Van Rijsbergen het idee om te onderzoeken of er een logica, dus een taal en een formeel bewijssysteem, bestaat die de omtrentheid-relatie kan de- ni?eren. In dit proefschrift wordt aangetoond dat dit mogelijk is. Dit is vervolgens het?193 uitgangspunt van onze vergelijkingsmethode: stel dat omtrentheid is te karakteriseren in termen van een logica, dan kan van ieder IR-model een bewijssysteem van omtrentheid gegeven worden. Zo kunnen we dus IR-modellen aan de hand van hun bewijssystemen gaan vergelijken. In dit proefschrift worden de omtrentheidsbeslissingen van een aantal bekende IR- modellen onderzocht en vervolgens vergeleken. Daarvoor wordt eerst in hoofdstuk 3 een theoretisch raamwerk samengesteld, waarin de fundamenten van de IR-systemen uitgedrukt kunnen worden. Binnen dit raamwerk wordt een taal geformuleerd waarin representaties van documenten en vraagstellingen beschreven kunnen worden. Deze taal is gebaseerd op de zogenaamde Situation Theory. De representaties van documenten en de vraagstellingen worden vertaald naar situaties. Rest de vraag wanneer een bepaalde situatie omtrent een andere situatie is. Om deze vraag te beantwoorden presenteren we een aantal axioma's en a eidingsre- gels (tezamen postulaten genoemd). Deze postulaten drukken bepaalde karakteristieke eigenschappen van `omtrentheid' uit. Zo is er bijvoorbeeld de regel Symmetry. Deze regel stelt dat er geen enkel verschil bestaat tussen concluderen dat situatie S omtrent situatie T is en concluderen dat situatie T omtrent situatie S is. Met behulp van een taal en een keuze uit de axioma's en de regels, kan een bewijssysteem voor omtrentheid gecre?eerd worden. In dit systeem kunnen we dan stapsgewijs, gegeven een aantal feitelijkheden (de axioma's) en bepaalde regels, a eiden of een situatie omtrent een andere situatie is. Deze manier van redeneren kunnen we op IR-modellen toepassen. In hoofdstuk 4 postuleren we zes bekende IR-modellen vanuit deze invalshoek. Na de presentatie van elk model worden de taal van situaties, de axioma's en de a eidingsregels gegeven die horen bij het model. Om aan te kunnen tonen dat het bewijssysteem ook inderdaad het IR-model representeert, worden gezondheid en volledigheid theorema's be- wezen. Is een bewijssysteem gezond ten opzichte van het model dan betekent dit dat alles wat in het bewijssysteem bewezen kan worden ook inderdaad een omtrentheidsbeslissing van het model is. Volledigheid stelt het omgekeerde: alle omtrentheidsbeslissingen van het model kunnen ook bewezen worden met het voorgestelde systeem. In hoofdstuk 5 gebruiken we de theorie om IR-systemen te vergelijken. We vergelijken IR-modellen op basis van hun bewijssystemen. Sommige systemen zijn `bevat' in andere systemen. Een systeem A is bevat in een systeem B als iedere omtrentheidsbeslissing van A ook een omtrentheidsbeslissing van B is en als bovendien de taal van A een deelverzameling van de taal van B is. In hoofdstuk 5 deni?eren we verschillende niveaus van bevat zijn, om vervolgens tot een overzicht tekomen op welke wijze de zes modellen aan elkaar gerelateerd zijn. Men kan zich nu richten op de vraag wat het voor een relevantie-beslissing van een IR-model A ten opzichte van de relevantie-beslissing van model B betekent dat het corresponderend bewijssysteem van A bevat is in het bewijssysteem van B. Het is dan?194 Samenvatting mogelijk om kwalitatieve uitspraken te doen over kwantitatieve grootheden zoals recall en precision. Zo wordt in hoofdstuk 5 bewezen dat als een omtrentheidsrelatie monotoon 1 is, een uitbreiding van de documentrepresentatie (zoals het toevoegen van woorden aan de beschrijving van het een document) nooit zal leiden tot een verlaging van de recall. Bovendien kunnen we uitspraken doen over de recall-waarde, en in enkele gevallen over de precision-waarde, van de gepresenteerde modellen ten opzichte van elkaar. In hoofdstuk 6 presenteren we drie door ons onderzochte mogelijke toepassingen van de theorie. Allereerst gebruiken we de theorie om te analyseren op welke wijze men IR- systemen met elkaar kan combineren. De aandachtspunten zijn dan welke systemen aan elkaar gekoppeld kunnen worden, en op welke wijze, en of dit inderdaad leidt tot een beter resultaat. Vervolgens geven we aan dat een ordening op bewijssystemen kan leiden tot een preferenti?ele ordening van documenten. Bovendien kan men, gegeven een gewenste ordening op bewijssystemen, het rankingproces van IR-systemen inspecteren. Tenslotte wordt in hoofdstuk 6 getoond op welke wijze men de meta-theorie kan toepassen als modelleringsmethode voor IR ge-ori?enteerde hypermedia toepassingen. Samenvattend, met behulp van de theorie die in dit proefschrift wordt opgebouwd, kan men analyseren op welke wijze IR-systemen besluiten dat een document relevant is gegeven een vraagstelling. Deze analyse kan men op velerlei manieren toepassen. Het is mogelijk om de beslisstappen te vergelijken, te verbeteren en te koppelen. De theorie is ook toepasbaar om andere aspecten, zoals ordening van documenten en hypermedia- toepassingen, te bestuderen. 1 Monotoon betekent hier: als voor iedere situatie S; T en U geldt dat: als S omtrent T is dan is S verenigd met U omtrent T
    corecore