Search CORE

299 research outputs found

Effacement de dimensions de similarité textuelle pour l'exploration de collections de rapports d'incidents aéronautiques

Author: Tanguy Ludovic
Tulechki Nikola
Publication venue: HAL CCSD
Publication date: 01/01/2012
Field of study

International audienceIn this paper we study the relationship between external classification and textual similarity in collections of incident reports. Our goal is to complement the existing classification-based analysis strategies by automatically establishing similarity links between documents in such a way that they do not reflect the dominant organisation of the classification schemas. In order to discover such transversal dimensions of similarity, we compute association scores between terms and classes and exlude the most correlated terms from the similarity calculation. We demonstrate on a 500 document corpus that by using this method, we can isolate topics that would otherwise have been masked by the dominant dimensions of similarity in the collection.Cet article étudie le lien entre la similarité textuelle et une classification extrinsèque dans des collections de rapports d'incidents aéronautiques. Nous cherchons à compléter les stratégies d'analyse de ces collections en établissant automatiquement des liens de similarité entre les documents de façon à ce qu'ils ne reflètent pas l'organisation des schémas de codification utilisés pour leur classement. Afin de mettre en évidence les dimensions de variation transversales à la classification, nous calculons un score de dépendance entre les termes et les classes et excluons du calcul de similarité les termes les plus corrélés à une classe donnée. Nous montrons par une application sur 500 documents que cette méthode permet effectivement de dégager des thématiques qui seraient passées inaperçues au vu de la trop grande saillance des similarités de haut niveau

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Combinaison d'information visuelle et textuelle pour la recherche d'information multimédia

Author: Barat Cécile
Ducottet Christophe
Lemaitre Cédric
Moulin Christophe
Publication venue: HAL CCSD
Publication date: 08/09/2009
Field of study

International audienceNous présentons dans cet article un modèle de représentation de documents multimédia combinant des informations textuelles et des descripteurs visuels. Le texte et l'image composant un document sont chacun décrits par un vecteur de poids

tf.idf

en suivant une approche "sac-de-mots". Le modèle utilisé permet d'effectuer des requêtes multimédia pour la recherche d'information. Notre méthode est évaluée sur la base imageCLEF'08 pour laquelle nous possédons la vérité de terrain. Plusieurs expérimentations ont ét\é menées avec différents descripteurs et plusieurs combinaisons de modalités. L'analyse des résultats montre qu'un modèle de document multimédia permet d'augmenter les performances d'un système de recherche basé uniquement sur une seule modalité, qu'elle soit textuelle ou visuelle

HAL-UJM

Classification de documents XML à partir d'une représentation linéaire des arbres de ces documents

Author: Despeyroux Thierry
Fegas Mounir
Lechevallier Yves
Vercoustre Anne-Marie
Publication venue: Cépaduès-Editions
Publication date: 16/01/2006
Field of study

www.cepadues.comIn this work, we propose a new clustering document representation for semi-structured documents collections. Our approach consists on a representation of XML documents based on their sub-paths, defined according to some criteria (length, root beginning, leaf ending) using the structure only or both the structure and the content. By considering those sub-paths as words, we can use standard methods for vocabulary reduction, and simple clustering methods such as K-means that scale up well. We actually use an implementation of the clustering algorithm known as \textit{dynamic clouds} that can work with distinct groups of independent variables. This is necessary in our model since embedded sub-paths are not independent. For validation and evaluation of our method, two collections are used: the INEX corpus and the INRIA activity reports, and a set of metrics well-known in Information Retrieval

INRIA a CCSD electronic archive server

Portails - Boîte à outils du numérique en bibliothèque (Les)

Author: Groupe de travail Boîte à Outils du Numérique en bibliothèque
Publication venue: Ministère de la Culture et de la Communication - Direction générale des médias et des industries culturelles / Service du livre et de la lecture
Publication date
Field of study

Cette « boîte à outils » tend à dresser un état des lieux de chacune des thématiques abordées, cherchant à préciser les objectifs, les modes de fonctionnement, les évolutions potentielles et les bonnes pratiques tout en fournissant quelques références utiles. Le groupe de travail qui assure la rédaction des fiches pratiques est composé de membres issus des bibliothèques municipales et départementales, des services déconcentrés de l’État, des associations des professionnels de bibliothèques et de la Bibliothèque nationale de France : • Pascal Allard, Conseiller Livre et Lecture Nord-Pas-de-Calais, • Anne Balavoine (ADDNB), • Catherine Dhérent (BnF), • Philippe Gauchet, Médiathèque départementale du Pas-de-Calais, • Pauline Le Goff-Janton, Service du livre et de la lecture (coordinatrice du groupe de travail), • Sophie Perrusson, Médiathèque de Levallois-Perret. Pour cette fiche, les experts invités sont Françoise Aubert et Laurent Soual (DoXulting), Jean-Pierre Sakoun (Savoir Sphère) et Frédérique Schossler (Bibliothèques de Rennes Métropole)

Bibliothèque numérique de l'enssib

Analyse de l'ambiguïté des requêtes utilisateurs par catégorisation thématique.

Author: Lalleman Fanny
Publication venue: HAL CCSD
Publication date: 01/07/2011
Field of study

International audienceDans cet article, nous cherchons à identiﬁer la nature de l'ambiguïté des requêtes utilisateurs issues d'un moteur de recherche dédié à l'actualité, 2424actu.fr, en utilisant une tâche de catégorisation. Dans un premier temps, nous verrons les différentes formes de l'ambiguïté des requêtes déjà décrites dans les travaux de TAL. Nous confrontons la vision lexicographique de l'ambiguïté à celle décrite par les techniques de classiﬁcation appliquées à la recherche d'information. Dans un deuxième temps, nous appliquons une méthode de catégorisation thématique aﬁn d'explorer l'ambiguïté des requêtes, celle-ci nous permet de conduire une analyse sémantique de ces requêtes, en intégrant la dimension temporelle propre au contexte des news. Nous proposons une typologie des phénomènes d'ambiguïté basée sur notre analyse sémantique. Enﬁn, nous comparons l'exploration par catégorisation à une ressource comme Wikipédia, montrant concrètement les divergences des deux approches

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Combinaison de données hétérogènes pour la reconnaissance d'images de documents

Author: Lemaitre Legargeant Aurélie
Publication venue: HAL CCSD
Publication date: 03/11/2020
Field of study

Ce manuscrit est une synthèse de mes travaux de recherche depuis 2008, au sein de l’équipe Intuidoc de l’Irisa. Ces travaux portent sur l’analyse automatique d’images de documents numérisés, et plus particulièrement la reconnaissance de la structure de documents. S’il existe des OCR du commerce de bonne qualité, la reconnaissance d’images de documents reste un problème ouvert pour les documents anciens, abîmés, à structure complexe, ou avec une forte interaction entre écriture manuscrite et texte impriméMes travaux se sont focalisés autour de la méthode DMOS. Il s’agit d’une méthode à base de règles grammaticales, permettant une description physique, syntaxique et sémantique des documents à reconnaître. En particulier, nous avons mis au point le mécanisme de calque perceptif, qui permet une combinaison de données hétérogènes, guidée par une description grammaticale des contenus.Les données hétérogènes peuvent être des primitives basiques extraites de l’image (segments, composantes connexes), des objets construits (lignes de texte, alignements), des résultats de classifieurs, des données issues d’interactions avec l’utilisateur, des résultats de systèmes de reconnaissance d’écriture, et plus récemment des résultats produits par des systèmes à base d’apprentissage profond. Grâce à l’utilisation des calques perceptifs, ces données sont combinées simplement en suivant des règles symboliques décrivant l’organisation physique et logique des documents. Dans ce manuscrit, nous présentons l’intérêt de la combinaison de données hétérogènes sur de nombreuses problématiques concrètes. Nous abordons les tâches de segmentation physique des pages : la localisation de lignes de texte et la segmentation en paragraphes. Nous étudions l’analyse de documents à structure complexe comme la presse ancienne, le corpus hétérogène Maurdor, des diagrammes de type flowchart, ou des documents tabulaires d’histoire de la finance. Nous présentons également des résultats sur des formulaires pré-imprimés. Enfin, nous abordons des perspectives de recherches autour de l’apprentissage avec peu de données, l’utilisation de réseaux de neurones profonds, ainsi que des interactions avec le domaine du traitement automatique de la langue

INRIA a CCSD electronic archive server

Vers un modèle d'indexation sémantique adapté aux dossiers médicaux de patients

Author: Dinh Duy
Tamine Lynda
Publication venue: HAL CCSD
Publication date: 01/01/2010
Field of study

International audienceCe papier présente un modèle d'indexation sémantique adapté aux dossiers électroniques de patients. Ce modèle servira de support à des processus de recherche d'information médicale, permettant à terme de promouvoir l'expérience collective des médecins. Compte tenu de la spécificité de ce type de documents, le processus d'indexation est basé sur la succession d'étapes d'annotation sémantique fondée sur l'utilisation de MeSH (Medical Subject Headings), de désambiguïsation répondant au problème d'homonymie, d'extraction de valeurs cliniques, puis de pondération des concepts. Le schéma de pondération tient compte du niveau de description de l'index (document ou dossier) ainsi que de la localisation des concepts dans le document et dans la hiérarchie de MeSH et ce, dans le but de traduire à la fois leur spécificité et leur centralité. Le modèle d'indexation proposé est évalué sur un corpus de dossiers électroniques de patients et montre son efficacité pour ce type de documents

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Agrégation des résultats dans les systèmes de recherche d’information pair-à-pair non structurés

Author: Mghirbi Rim
Publication venue: HAL CCSD
Publication date: 18/01/2013
Field of study

A huge part of the impetus of various internet technologies through the Peer-to-Peer (Peer-to-Peer or P2P) system can be seen as a reaction to the content centering detriment on the servers in front of passive clients. One of the distinctive features of any P2P system is what we often call direct connectivity between equal peers. The Peer-to-Peer increased the exchange flows between dynamic communities of users which tend to grow rapidly. We talk, therefore, about large-scale distributed systems in which the exchanged, shared and sought information reaches a more and more impressive volumes. Solving the aggregation problem in P2PIR systems the same way as its resolution in Distributed Information Retrieval (DIR) will miss a lot of intelligibility. In fact, the context has changed in RIP2P, given the scale factor and the lack of a global vision of the system in these networks that extend naturally to thousands or even millions peers. This will involve the removal of a broker server that is inadequate in this context and will raise the problem of finding new policies to aggregate results coming from heterogeneous peers in a single list while reflecting the user’s expectations. All these reasons prompted us to explore an aggregation mechanism based on user profiles deduced from their past behavior due to their interaction with query results. Our contributions, in this thesis, focus on two complementary axes. First, we propose a new vision of results aggregation in a large scale system. In this context, a profiles model and a hybrid score profiles-based approach are proposed. Second, we focused on the development of an evaluation framework of our approach in large-scale systems. In this thesis, we are mainly interested in the Information Retrieval problem in P2P systems (P2PIR) and focusing more specifically on the problem of results’ aggregation in such systemsUne grande partie de l’impulsion de diverses technologies d’Internet par les systèmes Pair-à-Pair (Peer-to-Peer ou P2P) peut être vue comme une réaction au détriment du centrage de contenu sur les serveurs devant des clients passifs. Une des caractéristiques distinctives de tout système P2P est ce que nous appelons souvent connectivité directe de bout en bout entre pairs égaux. Le Pair-à-Pair a augmenté les débits des échanges entre des communautés dynamiques des utilisateurs qui tendent à augmenter rapidement. Nous parlons donc de systèmes distribués à large échelle dans lesquels l’information échangée, partagée et recherchée atteint des volumes de plus en plus impressionnants. Dans le cadre de cette thèse, nous nous intéressons essentiellement à la Recherche d'Information dans les systèmes de Recherche d’Information P2P (RIP2P) et plus précisément au problème d'agrégation des résultats dans de tels systèmes. Résoudre le problème d'agrégation en RIP2P de la même manière que sa résolution dans un cadre de Recherche d’Information Distribuée (RID) va manquer beaucoup d’intelligibilité. En effet, ça fait perdre de vue tout un contexte qui a changé en RIP2P, vu le facteur d'échelle et l’absence d’une vision globale sur le système, dans ces réseaux qui s'étendent naturellement à des milliers voire des millions de pairs. Ceci va impliquer notamment la suppression d'un serveur courtier inadéquat dans ce contexte et va soulever le problème de retrouver de nouvelles politiques pour agréger des résultats provenant de pairs hétérogènes dans une liste unique tout en reflétant les attentes de l'utilisateur. Toutes ces raisons nous ont incités à explorer un mécanisme d’agrégation basé sur les profils des utilisateurs déduits de leurs comportements passés suite à leurs interactions avec les résultats d’une requête. Dans cette thèse nos contributions portent sur deux axes complémentaires. D’abord, nous proposons une nouvelle vision d'agrégation de résultats dans un contexte large échelle. Dans ce cadre un modèle de profils et une approche de score hybride à base de profils sont proposés. Ensuite nous avons mis l’accent sur la mise en place d’un cadre d'évaluation de notre approche dans les systèmes à large échell

Thèses en Ligne

Analyse des groupes de gènes co-exprimés : un outil automatique pour l'interprétation des expériences de biopuces (version étendue)

Author: Collard Martine
Lopez-Perez Lucero
Martinez Ricardo
Pasquier Claude,
Pasquier Nicolas
Publication venue: Editions RNTI
Publication date: 01/04/2008
Field of study

National audienceLa technologie des biopuces permet de mesurer les niveaux d'expression de milliers de gènes dans différentes conditions biologiques générant ainsi des masses de données à analyser. De nos jours, l'interprétation de ces volumineux jeux de donnés à la lumière des différentes sources d'informations est l'un des principaux défis dans la bio-informatique. Nous avons développé une nouvelle méthode appelée AGGC (Analyse des Groupes de Gènes Co-exprimés) qui permet de constituer de manière automatique des groupes de gènes à la fois fonctionnellement riches, i.e. qui partagent les mêmes annotations fonctionnelles, et co-exprimés. AGGC intègre l'information issue des biopuces, i.e. les profils d'expression des gènes, avec les annotations fonctionnelles des gènes obtenues à partir des sources d'informations génomiques comme Gene Ontology. Les expérimentations menées avec cette méthode ont permis de mettre en évidence les principaux groupes de gènes fonctionnellement riches et co-exprimés dans des expériences de biopuces. Programme et informations annexes : http://keia.i3s.unice.fr/?Implementations:CGGA

HAL-UNICE

INRIA a CCSD electronic archive server

HAL-Ecole des Ponts ParisTech