16 research outputs found

    Contribution à l’amélioration de la recherche d’information par utilisation des méthodes sémantiques: application à la langue arabe

    Get PDF
    Un système de recherche d’information est un ensemble de programmes et de modules qui sert à interfacer avec l’utilisateur, pour prendre et interpréter une requête, faire la recherche dans l’index et retourner un classement des documents sélectionnés à cet utilisateur. Cependant le plus grand challenge de ce système est qu’il doit faire face au grand volume d’informations multi modales et multilingues disponibles via les bases documentaires ou le web pour trouver celles qui correspondent au mieux aux besoins des utilisateurs. A travers ce travail, nous avons présenté deux contributions. Dans la première nous avons proposé une nouvelle approche pour la reformulation des requêtes dans le contexte de la recherche d’information en arabe. Le principe est donc de représenter la requête par un arbre sémantique pondéré pour mieux identifier le besoin d'information de l'utilisateur, dont les nœuds représentent les concepts (synsets) reliés par des relations sémantiques. La construction de cet arbre est réalisée par la méthode de la Pseudo-Réinjection de la Pertinence combinée à la ressource sémantique du WordNet Arabe. Les résultats expérimentaux montrent une bonne amélioration dans les performances du système de recherche d’information. Dans la deuxième contribution, nous avons aussi proposé une nouvelle approche pour la construction d’une collection de test de recherche d’information arabe. L'approche repose sur la combinaison de la méthode de la stratégie de Pooling utilisant les moteurs de recherches et l’algorithme Naïve-Bayes de classification par l’apprentissage automatique. Pour l’expérimentation nous avons créé une nouvelle collection de test composée d’une base documentaire de 632 documents et de 165 requêtes avec leurs jugements de pertinence sous plusieurs topics. L’expérimentation a également montré l’efficacité du classificateur Bayésien pour la récupération de pertinences des documents, encore plus, il a réalisé des bonnes performances après l’enrichissement sémantique de la base documentaire par le modèle word2vec

    TOTh 2007 : Terminologie et Ontologie : Théories et Applications. Annecy 1er Juin 2007

    Get PDF
    National audienceProceedings of the TOTh 2007 Conference: Terminology and Ontology: Theories and Applications. Annecy, France 1st June 200

    Acquisition automatique des termes : l'utilisation des pivots lexicaux spécialisés

    Full text link
    Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal

    Modélisation informatique de structures dynamiques de segments textuels pour l'analyse de corpus

    No full text
    The objective of the thesis is to propose a data-processing model to represent, build and exploit textualstructures. The suggested model relies on a «type/token» form of text representation extended bysystems of lexical and contextual annotations. This model's establishment was carried out in the SATOsoftware -- of which the functionalities and the internal organization are presented. Reference to anumber of works give an account of the development and use of the software in various contexts.The formal assumption of the textual and discursive structures find an ally in the beaconing XMLlanguage and the proposals of the Text Encoding Initiative (TEI). Formally, the structures built on thetextual segments correspond to graphs. In a development driven textual analysis context, these graphsare multiple and partially deployed. Their resolution, within the fastening of the nodes to textualsegments or that of other graphs, is a dynamic process which can be sustained by various dataprocessingmechanisms. Examples drawn from textual linguistics are used to illustrate the principles ofstructural annotation. Prospective considerations for the data-processing establishment of amanagement system of the structural annotation are also exposed.L'objectif de la thèse est de proposer un modèle informatique pour représenter, construire et exploiterdes structures textuelles. Le modèle proposé s'appuie sur une représentation du texte sous la forme d'unplan lexique/occurrences augmenté de systèmes d'annotations lexicales et contextuelles, modèle dontune implantation a été réalisée dans le logiciel SATO dont on présente les fonctionnalités etl'organisation interne. La présentation d'un certain nombre de travaux rendent compte dudéveloppement et de l'utilisation du logiciel dans divers contextes.La prise en charge formelle des structures textuelles et discursives trouve un allié dans le langage debalisage XML et dans les propositions de la Text Encoding Initiative (TEI). Formellement, lesstructures construites sur les segments textuels correspondent à des graphes. Dans le contexte d'uneanalyse textuelle en élaboration, ces graphes sont multiples et partiellement déployés. La résolution deces graphes, au sens du rattachement des noeuds à des segments textuels ou à des noeuds d'autresgraphes, est un processus dynamique qui peut être soutenu par divers mécanismes informatiques. Desexemples tirés de la linguistique textuelle servent à illustrer les principes de l'annotation structurelle.Des considérations prospectives sur une implantation informatique d'un système de gestion del'annotation structurelle sont aussi exposées

    De nouveaux facteurs pour l'exploitation de la sémantique d'un texte en recherche d'information

    Get PDF
    Les travaux présentés dans ce mémoire se situent dans le contexte de la recherche d'information. Plus précisément, nous proposons de nouveaux facteurs " centralité, fréquence conceptuelle" permettant à notre sens, de mieux caractériser la dimension sémantique du contenu des textes, allant au-delà des méthodes d'indexation classiques basées exclusivement sur les statistiques. Ces facteurs devraient tirer parti de l'identification de différents types de relations telles que -est-une partie-de, liés à, synonymie, domaine, etc.- qui existent entre les mots d'un texte. L'approche que nous avons proposée pour calculer la valeur de nos facteurs est bâtie en trois étapes : (1) Extraction des concepts issus de WordNet1 associés aux termes du document puis désambigüisation de leurs sens, (2) Regroupement des concepts pour former des clusters de concepts (Ces étapes construisent la vue sémantique des documents), (3) A l'intérieur de chaque cluster, chaque terme possède un degré de " centralité ", fonction du nombre de mots du cluster avec lequel il est en relation directe, et une " fréquence conceptuelle " estimée par la somme des fréquences de ces mots. D'une part, nous menons une étude sur des méthodes potentielles basées sur les facteurs proposés pour extraire des vues sémantiques du contenu des textes. L'objectif est de construire des structures de graphes/hiérarchies offrant une vue du contenu sémantique des documents. Ensuite, ces vues seront élaborées à partir de nos nouveaux facteurs, mais aussi de l'utilisation des fréquences d'occurrence, et de la prise en compte de l'importance des mots (en particulier en terme de leur spécificité). Le poids relatif des vues partielles, la fréquence et la spécificité de leurs composants sont d'autant des indications qui devraient permettre d'identifier et de construire des sous-ensembles hiérarchisés de mots (présents dans le texte ou sémantiquement associés à des mots du texte), et de refléter les concepts présents dans le contenu du texte. L'obtention d'une meilleure représentation du contenu sémantique des textes aidera à mieux retrouver les textes pertinents pour une requête donnée, et à donner une vue synthétisée du contenu des textes proposés à l'utilisateur en réponse à sa requête. D'autre part, nous proposons une technique de désambiguïsation du concept basée sur la centralité. En fait, le sens d'un terme est ambigu, il dépend de son contexte d'emploi. Dans notre proposition, nous utilisons l'ontologie de WordNet, qui est précise dans la couverture des sens de termes, où un terme peut être attaché à plusieurs concepts. La méthode proposée consiste à trouver le meilleur concept WordNet permettant de représenter le sens du terme désigné par le texte. Le concept choisi est celui qui a un maximum de relations avec les termes du document, autrement dit, celui qui a une valeur maximale de centralité. L'utilisation d'une méthode de désambiguïsation est une étape inévitable dans une indexation conceptuelle, elle permet de mieux représenter le contenu sémantique d'un document. Enfin, nous utilisons nos facteurs dans le cadre de Recherche d'Information comme de nouveaux facteurs pour mesurer la pertinence d'un document vis-à-vis d'une requête (tâche de RI ad-hoc). L'utilisation de nos facteurs sémantiques est intéressante dans la RI, où nous estimons un degré de relativité entre les termes d'une requête et ceux d'un document indépendamment de leur présence dans ce dernier. Dans ce cadre, nous avons proposé une nouvelle fonction de pondération basée sur la centralité, ainsi que nous avons intégré les nouveaux facteurs à des fonctions connues. Dans les différentes expérimentations menées, nous avons montré que l'intégration de nos facteurs sémantiques ramène une amélioration au niveau de précision dans un moteur de recherche d'information. Tâche prometteuse pour une recherche plus ciblée et plus efficace.The work presented in this paper are in the context of information retrieval. Specifically, we propose new factors "centrality frequebcy conceptual" to our senses, to better characterize the semantic dimension of the text content, going beyond traditional indexing methods based solely on statistics. Theses factors should benefit from the identification of different typesif relationships sich as is-part-of, relating to, synonymy, domain, etc. -between tha words of text

    Vocabulaire employé pour l'accès thématique aux documents d'archives patrimoniaux : étude linguistique exploratoire de termes de recherche, de description, d'indexation

    Full text link
    Les usagers recherchent des documents d’archives par sujet mais l’accès offert dans les services d’archives est principalement par provenance : il réside un écart entre l’accès recherché et l’accès offert. Pour répondre à la demande des usagers, certains services d’archives fournissent déjà des accès thématiques. Les instruments de recherche de ces précurseurs servent de base à notre recherche. Nous avons analysé le vocabulaire que les archivistes emploient pour décrire et indexer par sujet, c’est-à-dire le choix des mots et les relations sémantiques que ces mots entretiennent les uns avec les autres dans les documents dont ils sont issus (notices descriptives, index). Parallèlement, nous avons analysé le vocabulaire des usagers dans les questions envoyées par courriel à la référence avec la réponse de l’archiviste. Ainsi, notre étude couvre une large partie de la chaîne communicationnelle entre les usagers et les documents d’archives qu’ils recherchent par sujet. La comparaison de ces deux vocabulaires a fait émerger l’écart sémantique qui les sépare. Par l’étude des termes de recherche, de description, d’indexation, nous souhaitons contribuer à l’avancement des connaissances sur le vocabulaire employé pour l’accès thématique aux archives patrimoniales (VATAP). Notre méthode de recherche est l’étude de corpus. Nous étudions les relations sémantiques entre les termes d’un corpus de termes provenant de quatre sources de données (questions d’usagers à la référence, réponses d’archivistes, notices descriptives, index), collectées dans trois milieux. Nous circonscrivons la recherche à des données de centres ou services d’archives de grande envergure parce qu’ils ont les moyens de développer des outils pour encadrer et faciliter l’accès. L’originalité de notre recherche réside dans l’application de la linguistique à l’étude du VATAP. Par cette recherche, nous souhaitons décrire le VATAP et contribuer à l’amélioration de l’accès thématique aux archives patrimoniales en émettant des recommandations à l’usage des archivistes à partir de l’étude des relations sémantiques les plus fréquentes dans notre corpus. La formalisation linguistique nécessaire à notre recherche pourrait servir de prémisses à une automatisation de l’indexation. Cette étude exploratoire du vocabulaire des usagers permettra aux établissements participants de mieux connaître cet aspect du profil de leur clientèle.Users carry out searches for archives by subject, yet the access offered in the archives is mainly by provenance resulting in a gap between the desired access and the offered access. To meet users’ demand, some archival services already offer access by subject. Research instruments used by these services provide the basis for our research. We analyzed the vocabulary used by archivists to describe and to index archival documents by subject. That is to say, the choice of words and the semantic relationships that exist between the meanings of these words in the documents from which they come from (descriptions, index). We analyzed both the users’ vocabulary in the questions asked to the reference archivist by email and the answers offered by the latter. Thus, our study covers a large part of the communicative chain between users and archives they are looking for by subject. The comparison of these two vocabularies has brought out the semantic gap that separates them. By studying the terms used for research, for description, and for indexing, we wish to contribute to the advancement of knowledge on the vocabulary used for thematic access to heritage archives (VATAP). We have chosen corpus studies as our research methodology. We study the semantic relationships between the terms in a corpus from four data sources (user-to-reference questions, reference archivists’ answers, descriptions, indexes), collected from three different archives services. We limit our research to data obtained from large archival repositories as they have the means to develop tools to guide and facilitate access. The originality of our research lies in the application of linguistics to the study of VATAP. Our study describes VATAP and contributes to a better accessing of heritage archives by subject. We accomplish this by formulating recommendations for the archivists’ use based on the study of the most frequent semantic relationships in our corpus. The linguistic formalization needed for our research could serve as a premise for automatic indexing. This exploratory study of users’ vocabulary allows participating institutions to better understand this aspect of their users’ profile

    Un modèle de recherche d'information basé sur les graphes et les similarités structurelles pour l'amélioration du processus de recherche d'information

    Get PDF
    The main objective of IR systems is to select relevant documents, related to a user's information need, from a collection of documents. Traditional approaches for document/query comparison use surface similarity, i.e. the comparison engine uses surface attributes (indexing terms). We propose a new method which uses a special kind of similarity, namely structural similarities (similarities that use both surface attributes and relation between attributes). These similarities were inspired from cognitive studies and a general similarity measure based on node comparison in a bipartite graph. We propose an adaptation of this general method to the special context of information retrieval. Adaptation consists in taking into account the domain specificities: data type, weighted edges, normalization choice. The core problem is how documents are compared against queries. The idea we develop is that similar documents will share similar terms and similar terms will appear in similar documents. We have developed an algorithm which traduces this idea. Then we have study problem related to convergence and complexity, then we have produce some test on classical collection and compare our measure with two others that are references in our domain. The Report is structured in five chapters: First chapter deals with comparison problem, and related concept like similarities, we explain different point of view and propose an analogy between cognitive similarity model and IR model. In the second chapter we present the IR task, test collection and measures used to evaluate a relevant document list. The third chapter introduces graph definition: our model is based on graph bipartite representation, so we define graphs and criterions used to evaluate them. The fourth chapter describe how we have adopted, and adapted the general comparison method. The Fifth chapter describes how we evaluate the ordering performance of our method, and also how we have compared our method with two others.Cette thèse d'informatique s'inscrit dans le domaine de la recherche d'information (RI). Elle a pour objet la création d'un modèle de recherche utilisant les graphes pour en exploiter la structure pour la détection de similarités entre les documents textuels d'une collection donnée et une requête utilisateur en vue d'améliorer le processus de recherche d'information. Ces similarités sont dites « structurelles » et nous montrons qu'elles apportent un gain d'information bénéfique par rapport aux seules similarités directes. Le rapport de thèse est structuré en cinq chapitres. Le premier chapitre présente un état de l'art sur la comparaison et les notions connexes que sont la distance et la similarité. Le deuxième chapitre présente les concepts clés de la RI, notamment l'indexation des documents, leur comparaison, et l'évaluation des classements retournés. Le troisième chapitre est consacré à la théorie des graphes et introduit les notations et notions liées à la représentation par graphe. Le quatrième chapitre présente pas à pas la construction de notre modèle pour la RI, puis, le cinquième chapitre décrit son application dans différents cas de figure, ainsi que son évaluation sur différentes collections et sa comparaison à d'autres approches

    Lexique-grammaire et Unitex : quels apports pour une description terminologique bilingue de qualité ? : analyse sur deux corpus comparables de médecine thermale

    Get PDF
    Terminology is the science concerned with the study of the terms, those lexical units thatpossess a specialized meaning within a scientific or technical context. Established as ascience in the first half of 20th century, terminology is an interdisciplinary field takingadvantage of contributions from linguistics, logics, and informatics. This latter in particularhas allowed significant developments in terminology. Lexicon-grammar is an empirical method of linguistic description inspired by the works of Zellig S. Harris, which has been founded by the French linguist Maurice Gross at the end of the 1960s. Linguistic description has been carried out in parallel with the development of informatics tools able to formalise and exploit linguistic data, including the software Unitex (Paumier, 2002). Both lexicon-grammar and Unitex have an interesting, largely unexploited potential for further developments in terminology. In this work, we assess the contributions brought by lexicon-grammar and Unitex to a high-profile bilingual terminological description. After defining quality criteria for such terminological description, we carry out our evaluation on two comparable corpora specific of thermal medicine, both in French and in ItalianLa terminologie est une science qui étudie les termes, ces unités lexicales véhiculant un sens spécialisé dans un discours scientifique ou technique. Constituée en science dans la première moitié du XXe siècle, la terminologie est un terrain interdisciplinaire qui se nourrit des apports de la linguistique, de la logique et de l'informatique. C'est surtout grâce à cette dernière qu'elle a pu se développer considérablement. Le lexique-grammaire est une méthode de description linguistique strictement empirique d'inspiration harrissienne qui a vu le jour en France à la fin des années 1960. La description linguistique a été menée en parallèle avec la réalisation d'outils informatiques nécessaires à la formalisation et à l'exploitation de ces données, parmi lesquels il y a aussi le logiciel Unitex (Paumier, 2002). Tant le lexique-grammaire que le logiciel Unitex présentent un potentiel intéressant, largement inexploité, pour la terminologie. Dans ce travail, nous nous proposons d'évaluer les apports des méthodes liées au lexique-grammaire et au logiciel Unitex à une description terminologique bilingue de qualité. Après avoir défini des critères de qualité d'une description terminologique, nous menons cette évaluation sur deux corpus comparables ayant trait à la médecine thermale, en français et en italie

    Exploration de textes dans un corpus francophone de droit : le cas SOQUIJ

    Get PDF
    L’intelligence d’affaires a mis en place des processus et des procédures permettant l’accès à une donnée unique. Des rapports, des requêtes et des analyses sont possibles sur cette structure. L’exploration de données a bénéficié de ces démarches et a fait naitre l’exploration de textes. L’exploration de textes est peu employée par rapport à l’exploration de données, et ce autant par la communauté scientifique que par le domaine privé. La syntaxe et la grammaire mathématique sont universelles tandis que la syntaxe et la grammaire linguistique sont régionales et plus complexes. Ces limitations ont restreint les recherches sur l’exploration des textes. Ce mémoire s’intéresse à l’utilisation d’un outil d’exploration de textes dans le contexte juridique. Plus précisément, l’objectif de la présente recherche est d’utiliser l’outil pour en découvrir les défis et opportunités découlant de l’exploration des liens des textes et de la classification supervisée et non supervisée. Afin d’atteindre cet objectif, la présente recherche s’appuie sur le « design science » et la méthodologie « CRISP-DM », le tout dans le but de sélectionner un outil logiciel approprié à la recherche, d’effectuer l’exploration de textes et d’analyser les résultats. Les principaux résultats qui émanent des analyses effectuées avec l’outil IBM PASW SPSS sont les suivants. Premièrement, une analyse des liens entre les textes permet de faire ressortir les concepts des différents domaines de droit. Deuxièmement, l’analyse « Two-Steps » fait ressortir 3 classes dans le corpus complet qui comprend 4 domaines. Enfin, les analyses de classifications supervisées ont eu un taux de succès entre 46 et 60 % sur les échantillons de validation. Les modèles développés sont peu performants et selon moi ils ne peuvent pas être déployés à la SOQUIJ. La connaissance du domaine juridique est importante afin d’analyser et interpréter les textes propres à la SOQUIJ. Il en va de même afin de créer un dictionnaire pour l’exploration de textes. Ce dictionnaire spécifique au droit manque pour l’obtention de résultats plus probants. Plusieurs avenues sont intéressantes pour les recherches futures. Des plus intéressantes, notons la validation de l’impact de la création d’un dictionnaire pour réviser les différentes analyses et aussi d’étudier le résultat des 3 classes créées par le « Two-Steps »

    Numérique : impact sur le cycle de vie du document (Le)

    Get PDF
    Actes du colloque "Le numérique : impact sur le cycle de vie du document" organisé à l\u27université de Montréal par l\u27EBSI et l\u27ENSSIB du 13 au 15 octobre 2004. Son objectif était de traiter de façon interdisciplinaire la problématique suivante : « La numérisation, la diffusion des formats numériques originaux, les nouvelles méthodes d\u27indexation et d\u27analyse du document ainsi que le fonctionnement en réseau changent les données de base de la vie du document qui devient une sorte de phénix incessamment renaissant » (programme du colloque)
    corecore