299 research outputs found

    Effacement de dimensions de similarité textuelle pour l'exploration de collections de rapports d'incidents aéronautiques

    Get PDF
    International audienceIn this paper we study the relationship between external classification and textual similarity in collections of incident reports. Our goal is to complement the existing classification-based analysis strategies by automatically establishing similarity links between documents in such a way that they do not reflect the dominant organisation of the classification schemas. In order to discover such transversal dimensions of similarity, we compute association scores between terms and classes and exlude the most correlated terms from the similarity calculation. We demonstrate on a 500 document corpus that by using this method, we can isolate topics that would otherwise have been masked by the dominant dimensions of similarity in the collection.Cet article étudie le lien entre la similarité textuelle et une classification extrinsÚque dans des collections de rapports d'incidents aéronautiques. Nous cherchons à compléter les stratégies d'analyse de ces collections en établissant automatiquement des liens de similarité entre les documents de façon à ce qu'ils ne reflÚtent pas l'organisation des schémas de codification utilisés pour leur classement. Afin de mettre en évidence les dimensions de variation transversales à la classification, nous calculons un score de dépendance entre les termes et les classes et excluons du calcul de similarité les termes les plus corrélés à une classe donnée. Nous montrons par une application sur 500 documents que cette méthode permet effectivement de dégager des thématiques qui seraient passées inaperçues au vu de la trop grande saillance des similarités de haut niveau

    Combinaison d'information visuelle et textuelle pour la recherche d'information multimédia

    No full text
    International audienceNous prĂ©sentons dans cet article un modĂšle de reprĂ©sentation de documents multimĂ©dia combinant des informations textuelles et des descripteurs visuels. Le texte et l'image composant un document sont chacun dĂ©crits par un vecteur de poids tf.idftf.idf en suivant une approche "sac-de-mots". Le modĂšle utilisĂ© permet d'effectuer des requĂȘtes multimĂ©dia pour la recherche d'information. Notre mĂ©thode est Ă©valuĂ©e sur la base imageCLEF'08 pour laquelle nous possĂ©dons la vĂ©ritĂ© de terrain. Plusieurs expĂ©rimentations ont Ă©t\Ă© menĂ©es avec diffĂ©rents descripteurs et plusieurs combinaisons de modalitĂ©s. L'analyse des rĂ©sultats montre qu'un modĂšle de document multimĂ©dia permet d'augmenter les performances d'un systĂšme de recherche basĂ© uniquement sur une seule modalitĂ©, qu'elle soit textuelle ou visuelle

    Classification de documents XML à partir d'une représentation linéaire des arbres de ces documents

    Get PDF
    www.cepadues.comIn this work, we propose a new clustering document representation for semi-structured documents collections. Our approach consists on a representation of XML documents based on their sub-paths, defined according to some criteria (length, root beginning, leaf ending) using the structure only or both the structure and the content. By considering those sub-paths as words, we can use standard methods for vocabulary reduction, and simple clustering methods such as K-means that scale up well. We actually use an implementation of the clustering algorithm known as \textit{dynamic clouds} that can work with distinct groups of independent variables. This is necessary in our model since embedded sub-paths are not independent. For validation and evaluation of our method, two collections are used: the INEX corpus and the INRIA activity reports, and a set of metrics well-known in Information Retrieval

    Portails - Boßte à outils du numérique en bibliothÚque (Les)

    Get PDF
    Cette « boĂźte Ă  outils » tend Ă  dresser un Ă©tat des lieux de chacune des thĂ©matiques abordĂ©es, cherchant Ă  prĂ©ciser les objectifs, les modes de fonctionnement, les Ă©volutions potentielles et les bonnes pratiques tout en fournissant quelques rĂ©fĂ©rences utiles. Le groupe de travail qui assure la rĂ©daction des fiches pratiques est composĂ© de membres issus des bibliothĂšques municipales et dĂ©partementales, des services dĂ©concentrĂ©s de l’État, des associations des professionnels de bibliothĂšques et de la BibliothĂšque nationale de France : ‱ Pascal Allard, Conseiller Livre et Lecture Nord-Pas-de-Calais, ‱ Anne Balavoine (ADDNB), ‱ Catherine DhĂ©rent (BnF), ‱ Philippe Gauchet, MĂ©diathĂšque dĂ©partementale du Pas-de-Calais, ‱ Pauline Le Goff-Janton, Service du livre et de la lecture (coordinatrice du groupe de travail), ‱ Sophie Perrusson, MĂ©diathĂšque de Levallois-Perret. Pour cette fiche, les experts invitĂ©s sont Françoise Aubert et Laurent Soual (DoXulting), Jean-Pierre Sakoun (Savoir SphĂšre) et FrĂ©dĂ©rique Schossler (BibliothĂšques de Rennes MĂ©tropole)

    Analyse de l'ambiguĂŻtĂ© des requĂȘtes utilisateurs par catĂ©gorisation thĂ©matique.

    Get PDF
    International audienceDans cet article, nous cherchons Ă  identiïŹer la nature de l'ambiguĂŻtĂ© des requĂȘtes utilisateurs issues d'un moteur de recherche dĂ©diĂ© Ă  l'actualitĂ©, 2424actu.fr, en utilisant une tĂąche de catĂ©gorisation. Dans un premier temps, nous verrons les diffĂ©rentes formes de l'ambiguĂŻtĂ© des requĂȘtes dĂ©jĂ  dĂ©crites dans les travaux de TAL. Nous confrontons la vision lexicographique de l'ambiguĂŻtĂ© Ă  celle dĂ©crite par les techniques de classiïŹcation appliquĂ©es Ă  la recherche d'information. Dans un deuxiĂšme temps, nous appliquons une mĂ©thode de catĂ©gorisation thĂ©matique aïŹn d'explorer l'ambiguĂŻtĂ© des requĂȘtes, celle-ci nous permet de conduire une analyse sĂ©mantique de ces requĂȘtes, en intĂ©grant la dimension temporelle propre au contexte des news. Nous proposons une typologie des phĂ©nomĂšnes d'ambiguĂŻtĂ© basĂ©e sur notre analyse sĂ©mantique. EnïŹn, nous comparons l'exploration par catĂ©gorisation Ă  une ressource comme WikipĂ©dia, montrant concrĂštement les divergences des deux approches

    Combinaison de données hétérogÚnes pour la reconnaissance d'images de documents

    Get PDF
    Ce manuscrit est une synthĂšse de mes travaux de recherche depuis 2008, au sein de l’équipe Intuidoc de l’Irisa. Ces travaux portent sur l’analyse automatique d’images de documents numĂ©risĂ©s, et plus particuliĂšrement la reconnaissance de la structure de documents. S’il existe des OCR du commerce de bonne qualitĂ©, la reconnaissance d’images de documents reste un problĂšme ouvert pour les documents anciens, abĂźmĂ©s, Ă  structure complexe, ou avec une forte interaction entre Ă©criture manuscrite et texte imprimĂ©Mes travaux se sont focalisĂ©s autour de la mĂ©thode DMOS. Il s’agit d’une mĂ©thode Ă  base de rĂšgles grammaticales, permettant une description physique, syntaxique et sĂ©mantique des documents Ă  reconnaĂźtre. En particulier, nous avons mis au point le mĂ©canisme de calque perceptif, qui permet une combinaison de donnĂ©es hĂ©tĂ©rogĂšnes, guidĂ©e par une description grammaticale des contenus.Les donnĂ©es hĂ©tĂ©rogĂšnes peuvent ĂȘtre des primitives basiques extraites de l’image (segments, composantes connexes), des objets construits (lignes de texte, alignements), des rĂ©sultats de classifieurs, des donnĂ©es issues d’interactions avec l’utilisateur, des rĂ©sultats de systĂšmes de reconnaissance d’écriture, et plus rĂ©cemment des rĂ©sultats produits par des systĂšmes Ă  base d’apprentissage profond. GrĂące Ă  l’utilisation des calques perceptifs, ces donnĂ©es sont combinĂ©es simplement en suivant des rĂšgles symboliques dĂ©crivant l’organisation physique et logique des documents. Dans ce manuscrit, nous prĂ©sentons l’intĂ©rĂȘt de la combinaison de donnĂ©es hĂ©tĂ©rogĂšnes sur de nombreuses problĂ©matiques concrĂštes. Nous abordons les tĂąches de segmentation physique des pages : la localisation de lignes de texte et la segmentation en paragraphes. Nous Ă©tudions l’analyse de documents Ă  structure complexe comme la presse ancienne, le corpus hĂ©tĂ©rogĂšne Maurdor, des diagrammes de type flowchart, ou des documents tabulaires d’histoire de la finance. Nous prĂ©sentons Ă©galement des rĂ©sultats sur des formulaires prĂ©-imprimĂ©s. Enfin, nous abordons des perspectives de recherches autour de l’apprentissage avec peu de donnĂ©es, l’utilisation de rĂ©seaux de neurones profonds, ainsi que des interactions avec le domaine du traitement automatique de la langue

    Vers un modÚle d'indexation sémantique adapté aux dossiers médicaux de patients

    Get PDF
    International audienceCe papier présente un modÚle d'indexation sémantique adapté aux dossiers électroniques de patients. Ce modÚle servira de support à des processus de recherche d'information médicale, permettant à terme de promouvoir l'expérience collective des médecins. Compte tenu de la spécificité de ce type de documents, le processus d'indexation est basé sur la succession d'étapes d'annotation sémantique fondée sur l'utilisation de MeSH (Medical Subject Headings), de désambiguïsation répondant au problÚme d'homonymie, d'extraction de valeurs cliniques, puis de pondération des concepts. Le schéma de pondération tient compte du niveau de description de l'index (document ou dossier) ainsi que de la localisation des concepts dans le document et dans la hiérarchie de MeSH et ce, dans le but de traduire à la fois leur spécificité et leur centralité. Le modÚle d'indexation proposé est évalué sur un corpus de dossiers électroniques de patients et montre son efficacité pour ce type de documents

    AgrĂ©gation des rĂ©sultats dans les systĂšmes de recherche d’information pair-Ă -pair non structurĂ©s

    Get PDF
    A huge part of the impetus of various internet technologies through the Peer-to-Peer (Peer-to-Peer or P2P) system can be seen as a reaction to the content centering detriment on the servers in front of passive clients. One of the distinctive features of any P2P system is what we often call direct connectivity between equal peers. The Peer-to-Peer increased the exchange flows between dynamic communities of users which tend to grow rapidly. We talk, therefore, about large-scale distributed systems in which the exchanged, shared and sought information reaches a more and more impressive volumes. Solving the aggregation problem in P2PIR systems the same way as its resolution in Distributed Information Retrieval (DIR) will miss a lot of intelligibility. In fact, the context has changed in RIP2P, given the scale factor and the lack of a global vision of the system in these networks that extend naturally to thousands or even millions peers. This will involve the removal of a broker server that is inadequate in this context and will raise the problem of finding new policies to aggregate results coming from heterogeneous peers in a single list while reflecting the user’s expectations. All these reasons prompted us to explore an aggregation mechanism based on user profiles deduced from their past behavior due to their interaction with query results. Our contributions, in this thesis, focus on two complementary axes. First, we propose a new vision of results aggregation in a large scale system. In this context, a profiles model and a hybrid score profiles-based approach are proposed. Second, we focused on the development of an evaluation framework of our approach in large-scale systems. In this thesis, we are mainly interested in the Information Retrieval problem in P2P systems (P2PIR) and focusing more specifically on the problem of results’ aggregation in such systemsUne grande partie de l’impulsion de diverses technologies d’Internet par les systĂšmes Pair-Ă -Pair (Peer-to-Peer ou P2P) peut ĂȘtre vue comme une rĂ©action au dĂ©triment du centrage de contenu sur les serveurs devant des clients passifs. Une des caractĂ©ristiques distinctives de tout systĂšme P2P est ce que nous appelons souvent connectivitĂ© directe de bout en bout entre pairs Ă©gaux. Le Pair-Ă -Pair a augmentĂ© les dĂ©bits des Ă©changes entre des communautĂ©s dynamiques des utilisateurs qui tendent Ă  augmenter rapidement. Nous parlons donc de systĂšmes distribuĂ©s Ă  large Ă©chelle dans lesquels l’information Ă©changĂ©e, partagĂ©e et recherchĂ©e atteint des volumes de plus en plus impressionnants. Dans le cadre de cette thĂšse, nous nous intĂ©ressons essentiellement Ă  la Recherche d'Information dans les systĂšmes de Recherche d’Information P2P (RIP2P) et plus prĂ©cisĂ©ment au problĂšme d'agrĂ©gation des rĂ©sultats dans de tels systĂšmes. RĂ©soudre le problĂšme d'agrĂ©gation en RIP2P de la mĂȘme maniĂšre que sa rĂ©solution dans un cadre de Recherche d’Information DistribuĂ©e (RID) va manquer beaucoup d’intelligibilitĂ©. En effet, ça fait perdre de vue tout un contexte qui a changĂ© en RIP2P, vu le facteur d'Ă©chelle et l’absence d’une vision globale sur le systĂšme, dans ces rĂ©seaux qui s'Ă©tendent naturellement Ă  des milliers voire des millions de pairs. Ceci va impliquer notamment la suppression d'un serveur courtier inadĂ©quat dans ce contexte et va soulever le problĂšme de retrouver de nouvelles politiques pour agrĂ©ger des rĂ©sultats provenant de pairs hĂ©tĂ©rogĂšnes dans une liste unique tout en reflĂ©tant les attentes de l'utilisateur. Toutes ces raisons nous ont incitĂ©s Ă  explorer un mĂ©canisme d’agrĂ©gation basĂ© sur les profils des utilisateurs dĂ©duits de leurs comportements passĂ©s suite Ă  leurs interactions avec les rĂ©sultats d’une requĂȘte. Dans cette thĂšse nos contributions portent sur deux axes complĂ©mentaires. D’abord, nous proposons une nouvelle vision d'agrĂ©gation de rĂ©sultats dans un contexte large Ă©chelle. Dans ce cadre un modĂšle de profils et une approche de score hybride Ă  base de profils sont proposĂ©s. Ensuite nous avons mis l’accent sur la mise en place d’un cadre d'Ă©valuation de notre approche dans les systĂšmes Ă  large Ă©chell

    Analyse des groupes de gÚnes co-exprimés : un outil automatique pour l'interprétation des expériences de biopuces (version étendue)

    Get PDF
    National audienceLa technologie des biopuces permet de mesurer les niveaux d'expression de milliers de gĂšnes dans diffĂ©rentes conditions biologiques gĂ©nĂ©rant ainsi des masses de donnĂ©es Ă  analyser. De nos jours, l'interprĂ©tation de ces volumineux jeux de donnĂ©s Ă  la lumiĂšre des diffĂ©rentes sources d'informations est l'un des principaux dĂ©fis dans la bio-informatique. Nous avons dĂ©veloppĂ© une nouvelle mĂ©thode appelĂ©e AGGC (Analyse des Groupes de GĂšnes Co-exprimĂ©s) qui permet de constituer de maniĂšre automatique des groupes de gĂšnes Ă  la fois fonctionnellement riches, i.e. qui partagent les mĂȘmes annotations fonctionnelles, et co-exprimĂ©s. AGGC intĂšgre l'information issue des biopuces, i.e. les profils d'expression des gĂšnes, avec les annotations fonctionnelles des gĂšnes obtenues Ă  partir des sources d'informations gĂ©nomiques comme Gene Ontology. Les expĂ©rimentations menĂ©es avec cette mĂ©thode ont permis de mettre en Ă©vidence les principaux groupes de gĂšnes fonctionnellement riches et co-exprimĂ©s dans des expĂ©riences de biopuces. Programme et informations annexes : http://keia.i3s.unice.fr/?Implementations:CGGA
    • 

    corecore