2 research outputs found

    Experiments in the Retrieval of Unsegmented Japanese Text at the NTCIR-2 Workshop

    No full text
    Our work with the Hopkins Automated Information Retriever for Combing Unstructured Text (HAIRCUT) system has made use of overlapping character n-grams in the indexing and retrieval of text. In previous experiments with Western European languages we have shown that longer length n-grams (e.g., n=6) are capable of providing an effective form of alinguistic term normalization. We have wanted to investigate whether these methods could be adapted to processing unsegmented languages such as Japanese. To that end we participated in the Japanese and English portion of the NTCIR-2 evaluation. This paper describes results in monolingual Japanese and English retrieval and in cross-language retrieval using each language as a source language for the other. We found that 6-grams performed comparably with English words and that 2-grams and 3-grams perform equally well in Japanese text. A combination of runs using each tokenization method resulted in only a marginal improvement over runs using a single approach. These two trends were consistent regardless of query length or source language. Keywords : Japanese text processing, n-grams, information retrieval

    Recherche d'information plurilingue

    Get PDF
    Dans cette thèse, nous présentons nos investigations en recherche d’information selon deux contextes. Premièrement, nous nous sommes intéressés à l’aspect plurilingue de la Toile en abordant le développement de moteurs de recherche pour des langues présentant des caractéristiques visuelles, morphologiques et syntaxiques très différentes des langues indo-européennes. Plus précisément, nous avons proposé des stratégies de recherche pour les langues chinoise (traditionnelle), japonaise et coréenne, ainsi que pour la langue anglaise à des fins de comparaison. A cet effet, nous avons utilisé des corpus de dépêches d’agences représentant en général un contexte proche de la réalité du Web puisque la consultation de nouvelles constitue l’une des raisons importantes de la navigation sur Internet. Nous avons réalisé cette partie du travail avec le but de fournir la meilleure qualité de recherche possible pour chacune de ces langues. Plus concrètement, nous avons comparé divers modèles de recherche ainsi que diverses stratégies d’indexation. Nous avons également proposé une nouvelle approche de pseudo-rétroaction permettant d’améliorer significativement la performance de nos moteurs de recherche. Ces expériences nous ont ainsi permis de démontrer qu’une qualité de recherche optimale ne peut être obtenue qu’en considérant les particularités de chacune de ces langues. Deuxièmement, nous avons abordé le développement de moteurs de recherche dans le contexte spécifique de la biomédecine. A cet effet, nous avons utilisé un corpus de notices bibliographiques rédigées en anglais et issues du domaine biomédical (un tiers du corpus MEDLINE). En adaptant nos stratégies développées pour la langue anglaise, nous avons d’abord comparé divers modèles de recherche. Ensuite, nous avons évalué l’impact des descripteurs manuellement attribués sur la qualité de la recherche. Enfin, une comparaison de notre approche de pseudorétroaction avec celle de Rocchio a été réalisée. Dans ce contexte, ces expériences ont démontré que l’indexation manuelle permet d’améliorer très nettement la performance, et ce quel que soit le modèle de recherche. L’évaluation de la rétroaction a donné des résultats contradictoires. Tandis que l’approche de Rocchio a sérieusement détérioré la performance du système, notre stratégie de pseudo-rétroaction a permis de l’améliorer. Finalement, nous avons porté un regard critique sur quelques facettes liées à l’évaluation en recherche d’information. Nous avons comparé diverses métriques permettant d’évaluer divers critères de la qualité de recherche. Nous avons réalisé cette expérience sur deux applications, à savoir le classement des modèles de recherche et la pseudo-rétroaction selon Rocchio. Ces évaluations ont permis d’identifier quelques circonstances dans lesquelles nos diverses approches de recherche pourraient rencontrer des difficultés. Nous avons ainsi montré l’importance de considérer diverses métriques avec leurs avantages et inconvénients pour évaluer l’efficacité des systèmes de recherche d’information
    corecore