16 research outputs found

    A DEMPSTER-SHAFER MODEL OF RELEVANCE

    Get PDF
    We present a model for representing relevance and classification decisions of multiple catalogers in the context of a hierarchical bibliographical database. The model is based on the Dempster-Shafer theory of evidence. Concepts like ambiguous relevance, inexact classification, and pooled classification, are discussed using the nomenclature of belief functions and Dempster's rule. The model thus gives a normative framework in which one can describe and address many problematic phenomena which characterize the way people classify and retrieve documents.Information Systems Working Papers Serie

    Experiments on the Efficiency of Cluster Searches

    Get PDF
    The efficiency of various cluster based retrieval (CBR) strategies is analyzed. The possibility of combining CBR and inverted index search (11s) is investigated. A method for combining the two approaches is proposed and shown to be cost effective in terms of paging and CPU time. The observations prove that the new method is much more efficient than conventional approaches. In the experiments, the effect of the number of selected clusters, centroid length, page size, and matching function is considered. The experiments show that the storage overhead of the new method would be moderately higher than that of IIS. The paper also examines the question: Is it beneficial to combine CBR and full search in terms of effectiveness

    Disseny i interacció en sistemes de recuperació d'informació

    Get PDF

    Concepts and Effectiveness of the Cover Coefficient Based Clustering Methodology for Text Databases

    Get PDF
    An algorithm for document clustering is introduced. The base concept of the algorithm, Cover Coefficient (CC) concept, provides means of estimating the number of clusters within a document database. The CC concept is used also to identify the cluster seeds, to form clusters with the seeds, and to calculate Term Discrimination and Document Significance values (TDV, DSV). TDVs and DSVs are used to optimize document descriptions. The CC concept also relates indexing and clustering analytically. Experimental results indicate that the clustering performance in terms of the percentage of useful information accessed (precision) is forty percent higher, with accompanying reduction in search space, than that of random assignment of documents to clusters. The experiments have validated the indexing-clustering relationships and shown improvements in retrieval precision when TDV and DSV optimizations are used

    Conception et application d'une méthode de classification utilisant la probabilité et le flou dédiée à la recherche documentaire : le système CLASSFLOU

    Get PDF
    Ce mémoire présente un système de classification automatique floue basé sur des relations probabilistes entre documents, dédié à la recherche documentaire. Le projet de recherche présenté dans ce mémoire a pour objectif d'assurer le regroupement des documents d'une base documentaire dans un ensemble de classes disjointes, selon une relation de ressemblance déterminée en fonction des termes d'indexation. Notre système de classification CLASSFLOU constitue une composante importante d'un projet qui vise à réunir une multitude d'outils qui selon nous concourent aux buts que nous nous sommes fixés : autoriser une consultation multilingue des milliers de sites d'informations disponibles sur le Web, tout en essayant de réduire au maximum la quantité de documents non pertinents. L'essentiel de notre travail a porté sur la conception et la réalisation d'un tel système. Comparé à un système de classification binaire, notre système a réussi à améliorer la qualité de la classification. De plus, nous l'avons étendu afin qu'il puisse traiter les bases documentaires dynamiques sans pour autant être contraint d'effectuer une reclassification complète

    A concept-space based multi-document text summarizer.

    Get PDF
    by Tang Ting Kap.Thesis (M.Phil.)--Chinese University of Hong Kong, 2001.Includes bibliographical references (leaves 88-94).Abstracts in English and Chinese.List of Figures --- p.viList of Tables --- p.viiChapter 1. --- INTRODUCTION --- p.1Chapter 1.1 --- Information Overloading and Low Utilization --- p.2Chapter 1.2 --- Problem Needs To Solve --- p.3Chapter 1.3 --- Research Contributions --- p.4Chapter 1.3.1 --- Using Concept Space in Summarization --- p.5Chapter 1.3.2 --- New Extraction Method --- p.5Chapter 1.3.3 --- Experiments on New System --- p.6Chapter 1.4 --- Organization of This Thesis --- p.7Chapter 2. --- LITERATURE REVIEW --- p.8Chapter 2.1 --- Classical Approach --- p.8Chapter 2.1.1 --- Luhn's Algorithm --- p.9Chapter 2.1.2 --- Edumundson's Algorithm --- p.11Chapter 2.2 --- Statistical Approach --- p.15Chapter 2.3 --- Natural Language Processing Approach --- p.15Chapter 3. --- PROPOSED SUMMARIZATION APPROACH --- p.18Chapter 3.1 --- Direction of Summarization --- p.19Chapter 3.2 --- Overview of Summarization Algorithm --- p.20Chapter 3.2.1 --- Document Pre-processing --- p.21Chapter 3.2.2 --- Vector Space Model --- p.23Chapter 3.2.3 --- Sentence Extraction --- p.24Chapter 3.3 --- Evaluation Method --- p.25Chapter 3.3.1 --- "Recall, Precision and F-measure" --- p.25Chapter 3.4 --- Advantage of Concept Space Approach --- p.26Chapter 4. --- SYSTEM ARCHITECTURE --- p.27Chapter 4.1 --- Converge Process --- p.28Chapter 4.2 --- Diverge Process --- p.30Chapter 4.3 --- Backward Search --- p.31Chapter 5. --- CONVERGE PROCESS --- p.32Chapter 5.1 --- Document Merging --- p.32Chapter 5.2 --- Word Phrase Extraction --- p.34Chapter 5.3 --- Automatic Indexing --- p.34Chapter 5.4 --- Cluster Analysis --- p.35Chapter 5.5 --- Hopfield Net Classification --- p.37Chapter 6. --- DIVERGE PROCESS --- p.42Chapter 6.1 --- Concept Terms Refinement --- p.42Chapter 6.2 --- Sentence Selection --- p.43Chapter 6.3 --- Backward Searching --- p.46Chapter 7. --- EXPERIMENT AND RESEARCH FINDINGS --- p.48Chapter 7.1 --- System-generated Summary v.s. Source Documents --- p.52Chapter 7.1.1 --- Compression Ratio --- p.52Chapter 7.1.2 --- Information Loss --- p.54Chapter 7.2 --- System-generated Summary v.s. Human-generated Summary --- p.58Chapter 7.2.1 --- Background of EXTRACTOR --- p.59Chapter 7.2.2 --- Evaluation Method --- p.61Chapter 7.3 --- Evaluation of different System-generated Summaries by Human Experts --- p.63Chapter 8. --- CONCLUSIONS AND FUTURE RESEARCH --- p.68Chapter 8.1 --- Conclusions --- p.68Chapter 8.2 --- Future Work --- p.69Chapter A. --- EXTRACTOR SYSTEM FLOW AND TEN-STEP PROCEDURE --- p.71Chapter B. --- SUMMARY GENERATED BY MS WORD2000 --- p.75Chapter C. --- SUMMARY GENERATED BY EXTRACTOR SOFTWARE --- p.76Chapter D. --- SUMMARY GENERATED BY OUR SYSTEM --- p.77Chapter E. --- SYSTEM-GENERATED WORD PHRASES FROM TEST SAMPLE --- p.78Chapter F. --- WORD PHRASES IDENTIFIED BY SUBJECTS --- p.79Chapter G. --- SAMPLE OF QUESTIONNAIRE --- p.84Chapter H. --- RESULT OF QUESTIONNAIRE --- p.85Chapter I. --- EVALUATION FOR DIVERGE PROCESS --- p.86BIBLIOGRAPHY --- p.8

    Décision de groupe, Aide à la facilitation : ajustement de procédure de vote selon le contexte de décision

    Get PDF
    La facilitation est un élément central dans une prise de décision de groupe surtout en faisant l'usage des outils de nouvelle technologie. Le facilitateur, pour rendre sa tâche facile, a besoin des solutions de vote pour départager les décideurs afin d'arriver à des conclusions dans une prise de décision. Une procédure de vote consiste à déterminer à partir d’une méthode le vainqueur ou le gagnant d’un vote. Il y a plusieurs procédures de vote dont certaines sont difficiles à expliquer et qui peuvent élire différents candidats/options/alternatives proposées. Le meilleur choix est celui dont son élection est acceptée facilement par le groupe. Le vote dans la théorie du choix social est une discipline largement étudiée dont les principes sont souvent complexes et difficiles à expliquer lors d’une réunion de prise de décision. Les systèmes de recommandation sont de plus en plus populaires dans tous les domaines de science. Ils peuvent aider les utilisateurs qui n’ont pas suffisamment d’expérience ou de compétence nécessaires pour évaluer un nombre élevé de procédures de vote existantes. Un système de recommandation peut alléger le travail du facilitateur dans la recherche d’une procédure vote adéquate en fonction du contexte de prise de décisions. Le sujet de ce travail de recherche s’inscrit dans le champ de l’aide à la décision de groupe. La problématique consiste à contribuer au développement d’un système d’aide à la décision de groupe (Group Decision Support System : GDSS). La solution devra s’intégrer dans la plateforme logicielle actuellement développée à l’IRIT GRUS : GRoUp Support.Facilitation is a central element in decision-making, especially when using new technology tools. The facilitator, to make his task easy, needs voting solutions to decide between decision-makers in order to reach conclusions in a decision-making process. A voting procedure consists of determining from a method the winner of a vote. There are several voting procedures, some of which are difficult to explain and which may elect different candidate/options/alternatives proposed. The best choice is the one whose election is easily accepted by the group. Voting in social choice theory is a widely studied discipline whose principles are often complex and difficult to explain at a decision-making meeting. Recommendation systems are becoming more and more popular in all fields of science. They can help users who do not have sufficient experience or competence to evaluate large numbers of existing voting procedures. A recommendation system can lighten the facilitator's workload in finding an appropriate voting procedure based on the decision-making context. The objective of this research work is to design such recommendation system. This work is in the field of group decision support. The issue is to contribute to the development of a Group Decision Support System (GDSS). The solution will have to be integrated into the software platform currently being developed at IRITGRUS: GRoUp Support

    Exploring the reuse of past search results in information retrieval

    Get PDF
    Les recherches passées constituent pourtant une source d'information utile pour les nouveaux utilisateurs (nouvelles requêtes). En raison de l'absence de collections ad-hoc de RI, à ce jour il y a un faible intérêt de la communauté RI autour de l'utilisation des recherches passées. En effet, la plupart des collections de RI existantes sont composées de requêtes indépendantes. Ces collections ne sont pas appropriées pour évaluer les approches fondées sur les requêtes passées parce qu'elles ne comportent pas de requêtes similaires ou qu'elles ne fournissent pas de jugements de pertinence. Par conséquent, il n'est pas facile d'évaluer ce type d'approches. En outre, l'élaboration de ces collections est difficile en raison du coût et du temps élevés nécessaires. Une alternative consiste à simuler les collections. Par ailleurs, les documents pertinents de requêtes passées similaires peuvent être utilisées pour répondre à une nouvelle requête. De nombreuses contributions ont été proposées portant sur l'utilisation de techniques probabilistes pour améliorer les résultats de recherche. Des solutions simples à mettre en œuvre pour la réutilisation de résultats de recherches peuvent être proposées au travers d'algorithmes probabilistes. De plus, ce principe peut également bénéficier d'un clustering des recherches antérieures selon leurs similarités. Ainsi, dans cette thèse un cadre pour simuler des collections pour des approches basées sur les résultats de recherche passées est mis en œuvre et évalué. Quatre algorithmes probabilistes pour la réutilisation des résultats de recherches passées sont ensuite proposés et évalués. Enfin, une nouvelle mesure dans un contexte de clustering est proposée.Past searches provide a useful source of information for new users (new queries). Due to the lack of ad-hoc IR collections, to this date there is a weak interest of the IR community on the use of past search results. Indeed, most of the existing IR collections are composed of independent queries. These collections are not appropriate to evaluate approaches rooted in past queries because they do not gather similar queries due to the lack of relevance judgments. Therefore, there is no easy way to evaluate the convenience of these approaches. In addition, elaborating such collections is difficult due to the cost and time needed. Thus a feasible alternative is to simulate such collections. Besides, relevant documents from similar past queries could be used to answer the new query. This principle could benefit from clustering of past searches according to their similarities. Thus, in this thesis a framework to simulate ad-hoc approaches based on past search results is implemented and evaluated. Four randomized algorithms to improve precision are proposed and evaluated, finally a new measure in the clustering context is proposed

    Arquitectura de datos avanzada de un directorio web, con optimización de consultas restringidas a una zona del grafo de categorías

    Get PDF
    [Resumen] Desde su origen, el World Wide Web ha sufrido un crecimiento exponencial que ha generado un gran volumen de información heterogénea accesible para cualquier usuario, Esto ha llevado a la utilización de herramientas eficientes para gestionar, recuperar y filtrar dicha información. En concreto, los directorios Web son taxonomías que clasifican documentos web, sobre los que posteriormente se realizarán consultas. Este tipo de sistemas de recuperación de información presenta un tipo específico de búsquedas, en donde la colección de documentos está restringida a una zona del grafo de categorías. Esta disertación presenta una arquitectura de datos específica para directorios Web que permite mejorar el rendimiento ante búsquedas restringidas. Dicha arquitectura se basa en una estructura de datos híbrida, constituida por un fichero invertido conteniendo embebido múltiples ficheros de firmas. En base al modelo propuesto se definen dos variantes: la arquitectura híbrida con información total y la arquitectura híbrida con información parcial. La valiez de esta arquitectura ha sido analizada mediante el desarrollo de ambas variantes para su comparación con un modelo básico, demostrando una clara mejoría en el rendimiento de las consultas restringidas, destacando especialmente el modelo híbrido con información parcial al responder adecuadamente bajo cualquier carga del sistema de búsqueda. A nivel general, la arquitectura propuesta se caracteriza por su facilidad de implementación, derivada de las estructuras de datos empleadas, su flexibilidad respecto al crecimiento del sistema y especialmente, por el buen rendimiento ofrecido ante búsquedas restringidas
    corecore