12 research outputs found
Extraction de concepts et de relations entre concepts Ă partir des documents multilingues: approche statistique et ontologique
The research work of this thesis is related to the problem of document search indexing and more specifically in that of the extraction of semantic descriptors for document indexing. Information Retrieval System (IRS) is a set of models and systems for selecting a set of documents satisfying user needs in terms of information expressed as a query. In IR, a query is composed mainly of two processes for representation and retrieval. The process of representation is called indexing, it allows to represent documents and query descriptors, or indexes. These descriptors reflect the contents of documents. The retrieval process consists on the comparison between documents representations and query representation. In the classical IRS, the descriptors used are words (simple or compound). These IRS consider the document as a set of words, often called a "bag of words". In these systems, the words are considered as graphs without semantics. The only information used for these words is their occurrence frequency in the documents. These systems do not take into account the semantic relationships between words. For example, it is impossible to find documents represented by a word synonymous with M1 word M2, where the request is represented by M2. Also, in a classic IRS document indexed by the term "bus" will never be found by a query indexed by the word "taxi", yet these are two words that deal with the same subject "means of transportation." To address these limitations, several studies were interested taking into account of the semantic indexing terms. This type of indexing is called semantic or conceptual indexing. These works take into account the notion of concept in place of notion of word. In this work the terms denoting concepts are extracted from the document by using statistical techniques. These terms are then projected onto resource of semantics such as: ontology, thesaurus and so on to extract the concepts involved.Les travaux menés dans le cadre de cette thèse se situent dans la problématique de recherche- indexation des documents et plus spécifiquement dans celle de l’extraction des descripteurs sémantiques pour l’indexation. Le but de la Recherche d’Information (RI) est de mettre en œuvre un ensemble de modèles et de systèmes permettant la sélection d’un ensemble de documents satisfaisant un besoin utilisateur en termes d’information exprimé sous forme d’une requête. Un Système de Recherche d’Information (SRI) est composé principalement de deux processus. Un processus de représentation et un processus de recherche. Le processus de représentation est appelé indexation, il permet de représenter les documents et la requête par des descripteurs ou des indexes. Ces descripteurs reflètent au mieux le contenu des documents. Le processus de recherche consiste à comparer les représentations des documents à la représentation de la requête. Dans les SRIs classiques, les descripteurs utilisés sont des mots (simples ou composés). Ces SRIs considèrent le document comme étant un ensemble de mots, souvent appelé “ sac de mots ”. Dans ces systèmes, les mots sont considérés comme des graphies sans sémantique. Les seules informations exploitées concernant ces mots sont leurs fréquences d’apparition dans les documents. Ces systèmes ne prennent pas en considération les relations sémantiques entre les mots. Par exemple, il est impossible de trouver des documents représentés par un mot M1 synonyme d’un mot M2, dans le cas où la requête est représentée par M2. Aussi, dans un SRI classique un document indexé par le terme “ bus ” ne sera jamais retrouvé par une requête indexée par le terme “taxi ”, pourtant il s’agit de deux termes qui traitent le même thème “ moyen de transport ”. Afin de remédier à ces limites, plusieurs travaux se sont intéressés à la prise en compte de l’aspect sémantique des termes d’indexation. Ce type d’indexation est appelé indexation sémantique ou conceptuelle
Extraction de concepts et de relations entre concepts Ă partir des documents multilingues : approche statistique et ontologique
Les travaux menés dans le cadre de cette thèse se situent dans la problématique de recherche- indexation des documents et plus spécifiquement dans celle de l\u27extraction des descripteurs sémantiques pour l\u27indexation. Le but de la Recherche d\u27Information (RI) est de mettre en uvre un ensemble de modèles et de systèmes permettant la sélection d\u27un ensemble de documents satisfaisant un besoin utilisateur en termes d\u27information exprimé sous forme d\u27une requête. Un Système de Recherche d\u27Information (SRI) est composé principalement de deux processus. Un processus de représentation et un processus de recherche. Le processus de représentation est appelé indexation, il permet de représenter les documents et la requête par des descripteurs ou des indexes. Ces descripteurs reflètent au mieux le contenu des documents. Le processus de recherche consiste à comparer les représentations des documents à la représentation de la requête. Dans les SRIs classiques, les descripteurs utilisés sont des mots (simples ou composés). Ces SRIs considèrent le document comme étant un ensemble de mots, souvent appelé " sac de mots ". Dans ces systèmes, les mots sont considérés comme des graphies sans sémantique. Les seules informations exploitées concernant ces mots sont leurs fréquences d\u27apparition dans les documents. Ces systèmes ne prennent pas en considération les relations sémantiques entre les mots. Par exemple, il est impossible de trouver des documents représentés par un mot M1 synonyme d\u27un mot M2, dans le cas où la requête est représentée par M2. Aussi, dans un SRI classique un document indexé par le terme " bus " ne sera jamais retrouvé par une requête indexée par le terme "taxi ", pourtant il s\u27agit de deux termes qui traitent le même thème " moyen de transport ". Afin de remédier à ces limites, plusieurs travaux se sont intéressés à la prise en compte de l\u27aspect sémantique des termes d\u27indexation. Ce type d\u27indexation est appelé indexation sémantique ou conceptuelle
Multilingual Extraction of Semantic Indexes
International audienceThis article deals with multilingual document indexing. We propose an indexing method based on several stages. First of all the most important terms of the document are extracted using general characteristics of languages and statistical methods. Thus, term extraction stages can be applied to any document whatever the document language is. Secondly, our indexing method uses a multilingual ontology in order to find the most relevant concepts representing the document content. Our method can be applied to a multilingual corpus containing document written in different languages. This indexing procedure is part of a Multilingual Document System untitled SyDoM, which manages XML documents
Natural Language Processing Method for Multilingual Semantic Indexing
National audienceThis paper deal with multilingual document indexing. We propose an indexing method based on natural language processing techniques. First of all, the most important term of the document are extracted using general characteristics of language and statistical methods. Thus, term extracting stages can be applied to any document whatever the document language is. Secondly, our indexing method uses multilingual ontology in order to find the most relevant concepts representing the document content. Our method can be applied to multilingual corpus containing document written in different languages; This indexing procedure is part of a multilingual document system and untitled SyDoM, that manage XML document
Indexation semi automatique de corpus multilingues basée sur une ontologie
National audienceCe travail s’intègre dans la problématique générale liée à l’indexation de documents multilingues et la représentation de la sémantique des textes. Dans cet article nous proposons une approche d’indexation automatique des documents multilingues. L’approche présentée est générique sur la dimension langue. En effet, elle s’applique sur un corpus multilingue où les langues sont mélangées et inconnues a priori. Notre approche se base d’une part sur des propriétés générales des langues et d’autre part sur des analyses statistiques et quantitatives d’indexation des documents multilingues. La principale contribution de notre approche est de proposer une méthode d’extraction des concepts applicable à toutes les langues contenues dans l’ontologi
Recherche d'information sémantique multilingue
National audienceNous nous intéressons ici à la recherche d’information multilingue basée sur le contenu sémantique des documents et proposons une approche qui combine les solutions de la recherche d’information multilingue et de la recherche d’information conceptuelle
Extraction de concepts et de relations entre concepts Ă partir des documents multilingues (approche statistique et ontologique)
Les travaux menés dans le cadre de cette thèse se situent dans la problématique de recherche- indexation des documents et plus spécifiquement dans celle de l extraction des descripteurs sémantiques pour l indexation. Le but de la Recherche d Information (RI) est de mettre en œuvre un ensemble de modèles et de systèmes permettant la sélection d un ensemble de documents satisfaisant un besoin utilisateur en termes d information exprimé sous forme d une requête. Un Système de Recherche d Information (SRI) est composé principalement de deux processus. Un processus de représentation et un processus de recherche. Le processus de représentation est appelé indexation, il permet de représenter les documents et la requête par des descripteurs ou des indexes. Ces descripteurs reflètent au mieux le contenu des documents. Le processus de recherche consiste à comparer les représentations des documents à la représentation de la requête. Dans les SRIs classiques, les descripteurs utilisés sont des mots (simples ou composés). Ces SRIs considèrent le document comme étant un ensemble de mots, souvent appelé sac de mots . Dans ces systèmes, les mots sont considérés comme des graphies sans sémantique. Les seules informations exploitées concernant ces mots sont leurs fréquences d apparition dans les documents. Ces systèmes ne prennent pas en considération les relations sémantiques entre les mots. Par exemple, il est impossible de trouver des documents représentés par un mot M1 synonyme d un mot M2, dans le cas où la requête est représentée par M2. Aussi, dans un SRI classique un document indexé par le terme bus ne sera jamais retrouvé par une requête indexée par le terme taxi , pourtant il s agit de deux termes qui traitent le même thème moyen de transport . Afin de remédier à ces limites, plusieurs travaux se sont intéressés à la prise en compte de l aspect sémantique des termes d indexation. Ce type d indexation est appelé indexation sémantique ou conceptuelle.The research work of this thesis is related to the problem of document search indexing and more specifically in that of the extraction of semantic descriptors for document indexing. Information Retrieval System (IRS) is a set of models and systems for selecting a set of documents satisfying user needs in terms of information expressed as a query. In IR, a query is composed mainly of two processes for representation and retrieval. The process of representation is called indexing, it allows to represent documents and query descriptors, or indexes. These descriptors reflect the contents of documents. The retrieval process consists on the comparison between documents representations and query representation. In the classical IRS, the descriptors used are words (simple or compound). These IRS consider the document as a set of words, often called a "bag of words". In these systems, the words are considered as graphs without semantics. The only information used for these words is their occurrence frequency in the documents. These systems do not take into account the semantic relationships between words. For example, it is impossible to find documents represented by a word synonymous with M1 word M2, where the request is represented by M2. Also, in a classic IRS document indexed by the term "bus" will never be found by a query indexed by the word "taxi", yet these are two words that deal with the same subject "means of transportation." To address these limitations, several studies were interested taking into account of the semantic indexing terms. This type of indexing is called semantic or conceptual indexing. These works take into account the notion of concept in place of notion of word. In this work the terms denoting concepts are extracted from the document by using statistical techniques. These terms are then projected onto resource of semantics such as: ontology, thesaurus and so on to extract the concepts involved.VILLEURBANNE-DOC'INSA LYON (692662301) / SudocSudocFranceF
Vers une approche statistique pour l'indexation sémantique des documents multilingues
National audienceDans cet article, nous présentons une approche statistique d'indexation sémantique des documents multilingues. Cette approche est validée par un ensemble d'expérimentations et une comparaison avec une approche linguistique. Nous montrons ainsi que l'approche statistique obtient des résultats équivalents à l'approche linguistique. / This article presents a statistical approach of semantic indexing for multilingual documents. This approach is validated by a set of experiments and a comparison with a linguistic approach. The experiments show that the statistical approach obtains results equivalent to the linguistic one
Approche statistique versus approche linguistique pour l'indexation sémantique des documents multilingues
National audienceApproche statistique versus approche linguistique pour l'indexation sémantique des documents multilingue
Analysis combination and pseudo relevance feedback in conceptual language model: LIRIS participation at ImageCLEFMed
This paper presents the LIRIS contribution to the CLEF 2009 medical retrieval task (i.e. ImageCLEFmed). Our model makes use of the textual part of the corpus and of the medical knowledge found in the Unified Medical Language System (UMLS) knowledge sources. As proposed in [6] last year, we used a conceptual representation for each sentence and we proposed a language modeling approach. We test two versions of conceptual unigram language model; one that use the log-probability of the query and a second one that compute the Kullback-Leibler divergence. We used different concept detection methods and we combine these detection methods on queries and documents. This year we mainly test the impact of the use of additional analysis on queries. We also test combinations on French queries where we combine translation and analysis, in order to solve the lack of French terms in UMLS, this provide good results close from the English ones. To complete these combinations we proposed a pseudo relevance method. This approach use the n first retrieve documents to form one pseudo query that is used in the Kullback-Leibler model to complete the original query. The results of this approach show that extending the queries with such an approach improves the results