Search CORE

92 research outputs found

Annotation d'images via leur contexte spatio-temporel et les métadonnées du Web

Author: Mitran Madalina
Publication venue
Publication date: 15/07/2014
Field of study

En Recherche d'Information (RI), les documents sont classiquement indexés en fonction de leur contenu, qu'il soit textuel ou multimédia. Les moteurs de recherche s'appuyant sur ces index sont aujourd'hui des outils performants, répandus et indispensables. Ils visent à fournir des réponses pertinentes selon le besoin de l'utilisateur, sous forme de textes, images, sons, vidéos, etc. Nos travaux de thèse s'inscrivent dans le contexte des documents de type image. Plus précisément, nous nous sommes intéressés aux systèmes d'annotation automatique d'images qui permettent d'associer automatiquement des mots-clés à des images afin de pouvoir ensuite les rechercher par requête textuelle. Ce type d'annotation cherche à combler les lacunes des approches d'annotation manuelle et semi-automatique. Celles-ci ne sont plus envisageables dans le contexte actuel qui permet à chacun de prendre de nombreuses photos à faible coût (en lien avec la démocratisation des appareils photo numériques et l'intégration de capteurs numériques dans les téléphones mobiles). Parmi les différents types de collections d'images existantes (par exemple, médicales, satellitaires) dans le cadre de cette thèse nous nous sommes intéressés aux collections d'images de type paysage (c.-à-d. des images qui illustrent des points d'intérêt touristiques) pour lesquelles nous avons identifié des défis, tels que l'identification des nouveaux descripteurs pour les décrire et de nouveaux modèles pour fusionner ces derniers, l'identification des sources d'information pertinentes et le passage à l'échelle. Nos contributions portent sur trois principaux volets. En premier lieu, nous nous sommes attachés à exploiter différents descripteurs qui peuvent influencer la description des images de type paysage : le descripteur de spatialisation (caractérisé par la latitude et la longitude des images), le descripteur de temporalité (caractérisé par la date et l'heure de la prise de vue) et le descripteur de thématique (caractérisé par les tags issus des plate formes de partage d'images). Ensuite, nous avons proposé des approches pour modéliser ces descripteurs au regard de statistiques de tags liées à leur fréquence et rareté et sur des similarités spatiale et temporelle. Deuxièmement, nous avons proposé un nouveau processus d'annotation d'images qui vise à identifier les mots-clés qui décrivent le mieux les images-requêtes données en entrée d'un système d'annotation par un utilisateur. Pour ce faire, pour chaque image-requête nous avons mis en œuvre des filtres spatial, temporel et spatio-temporel afin d'identifier les images similaires ainsi que leurs tags associés. Ensuite, nous avons fédéré les différents descripteurs dans un modèle probabiliste afin de déterminer les termes qui décrivent le mieux chaque image-requête. Enfin, le fait que les contributions présentées ci-dessus s'appuient uniquement sur des informations issues des plateformes de partage d'images (c.-à-d. des informations subjectives) a suscité la question suivante : les informations issues du Web peuvent-elles fournir des termes objectifs pour enrichir les descriptions initiales des images. À cet effet, nous avons proposé une approche basée sur les techniques d'expansion de requêtes du domaine de la RI. Elle porte essentiellement sur l'étude de l'impact des différents algorithmes d'expansion, ainsi que sur l'agrégation des résultats fournis par le meilleur algorithme et les résultats fournis par le processus d'annotation d'images. Vu qu'il n'existe pas de cadre d'évaluation standard d'annotation automatique d'images, plus particulièrement adapté aux collections d'images de type paysage, nous avons proposé des cadres d'évaluation appropriés afin de valider nos contributions. En particulier, les différentes approches proposées sont évaluées au regard de la modélisation des descripteur de spatialisation, de temporalité et de thématique. De plus, nous avons validé le processus d'annotation d'images, et nous avons montré qu'il surpasse en qualité deux approches d'annotation d'images de la littérature. Nous avons comparé également l'approche d'enrichissement avec le processus d'annotation d'image pour souligner son efficacité et l'apport des informations issues du Web. Ces expérimentations ont nécessité le prototypage du logiciel AnnoTaGT, qui offre aux utilisateurs un cadre technique pour l'annotation automatique d'images.The documents processed by Information Retrieval (IR) systems are typically indexed according to their contents: Text or multimedia. Search engines based on these indexes aim to provide relevant answers to users' needs in the form of texts, images, sounds, videos, and so on. Our work is related to "image" documents. We are specifically interested in automatic image annotation systems that automatically associate keywords to images. Keywords are subsequently used for search purposes via textual queries. The automatic image annotation task intends to overcome the issues of manual and semi-automatic annotation tasks, as they are no longer feasible in nowadays' context (i.e., the development of digital technologies and the advent of devices, such as smartphones, allowing anyone to take images with a minimal cost). Among the different types of existing image collections (e.g., medical, satellite) in our work we are interested in landscape image collections for which we identified the following challenges: What are the most discriminant features for this type of images ? How to model and how to merge these features ? What are the sources of information that should be considered ? How to manage scalability issues ? The proposed contribution is threefold. First, we use different factors that influence the description of landscape images: The spatial factor (i.e., latitude and longitude of images), the temporal factor (i.e., the time when the images were taken), and the thematic factor (i.e., tags crowdsourced and contributed to image sharing platforms). We propose various techniques to model these factors based on tag frequency, as well as spatial and temporal similarities. The choice of these factors is based on the following assumptions: A tag is all the more relevant for a query-image as it is associated with images located in its close geographical area ; A tag is all the more relevant for a query-image as it is associated with images captured close in time to it ; sourcing concept). Second, we introduce a new image annotation process that recommends the terms that best describe a given query-image provided by a user. For each query-image we rely on spatial, temporal, and spatio-temporal filters to identify similar images along with their tags. Then, the different factors are merged through a probabilistic model to boost the terms best describing each query-image. Third, the contributions presented above are only based on information extracted from image photo sharing platforms (i.e., subjective information). This raised the following research question: Can the information extracted from the Web provide objective terms useful to enrich the initial description of images? We tackle this question by introducing an approach relying on query expansion techniques developed in IR. As there is no standard evaluation protocol for the automatic image annotation task tailored to landscape images, we designed various evaluation protocols to validate our contributions. We first evaluated the approaches defined to model the spatial, temporal, and thematic factors. Then, we validated the annotation image process and we showed that it yields significant improvement over two state-of-the-art baselines. Finally, we assessed the effectiveness of tag expansion through Web sources and showed its contribution to the image annotation process. These experiments are complemented by the image annotation prototype AnnoTaGT, which provides users with an operational framework for automatic image annotation

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Modélisation, classification et annotation d'images partiellement annotées avec un réseau Bayésien

Author: Barrat Sabine
Tabbone Salvatore
Publication venue: HAL CCSD
Publication date: 19/01/2010
Field of study

National audienceDans cet article, nous proposons un modèle graphique probabiliste pour représenter des images partiellement annotées. Nous considérons une image comme partiellement annotée si elle ne possède pas le nombre maximal de mots-clés disponibles pour une image dans la vérité-terrain. Ce modèle est utilisé pour classifier des images et étendre automatiquement les annotations existantes à de nouvelles images, en prenant en compte les éventuelles relations sémantiques entre mots-clés. La méthode proposée a été évaluée en classification visuo-textuelle et en extension automatique d'annotations. La classification visuo-textuelle correspond à la classification effectuée en utilisant à la fois l'information visuelle et l'information textuelle, quand elle est disponible. Les résultats expérimentaux, obtenus à partir d'une base de plus de 30000 images, montrent une amélioration de 50.5% en moyenne, en terme de taux de reconnaissance, par rapport à la classification basée sur l'information visuelle seule. La prise en compte des éventuelles relations sémantiques entre mots-clés améliore le taux de reconnaissance de 10.5% en moyenne et le taux de bonnes annotations de 6.9% en moyenne. Enfin, la méthode proposée s'est montrée compétitive, expérimentalement, avec des classificateurs de l'état de l'art

INRIA a CCSD electronic archive server

Évaluation d'une nouvelle structuration thématique hiérarchique des textes dans un cadre de résumé automatique et de détection d'ancres au sein de vidéos

Author: Gravier Guillaume
Simon Anca
Sébillot Pascale
Publication venue: HAL CCSD
Publication date: 01/01/2016
Field of study

National audienceDans cet article, nous évaluons, à travers son intérêt pour le résumé automatique et la détection d'ancres dans des vidéos, le potentiel d'une nouvelle structure thématique extraite de données textuelles, composée d'une hiérarchie de fragments thématiquement focalisés. Cette structure est produite par un algorithme exploitant les distributions temporelles d'apparition des mots dans les textes en se fondant sur une analyse de salves lexicales. La hiérarchie obtenue a pour objet de filtrer le contenu non crucial et de ne conserver que l'information saillante des textes, à différents niveaux de détail. Nous montrons qu'elle permet d'améliorer la production de résumés ou au moins de maintenir les résultats de l'état de l'art, tandis que pour la détection d'ancres, elle nous conduit à la meilleure précision dans le contexte de la tâche Search and Anchoring in Video Archives à MediaEval. Les expériences sont réalisées sur du texte écrit et sur un corpus de transcriptions automatiques d'émissions de télévision. ABSTRACT Evaluation of a novel hierarchical thematic structuring of texts in the framework of text sum-marization and anchor detection for video hyperlinking This paper investigates the potential of a novel topical structure of text-like data in the context of summarization and anchor detection in video hyperlinking. This structure is produced by an algorithm that exploits temporal distributions of words through word burst analysis to generate a hierarchy of topically focused fragments. The obtained hierarchy aims at filtering out non-critical content, retaining only the salient information at various levels of detail. For the tasks we choose to evaluate the structure on, the lost of important information is highly damaging. We show that the structure can actually improve the results of summarization or at least maintain state-of-the-art results, while for anchor detection it leads us to the best precision in the context of the Search and Anchoring in Video Archives task at MediaEval. The experiments were carried on written text and a more challenging corpus containing automatic transcripts of TV shows. MOTS-CLÉS : analyse de salves lexicales, hiérarchie de fragments thématiques, résumé automa-tique, détection d'ancres. KEYWORDS: burst analysis, hierarchy of topical fragments, text summarization, anchor detection. (a) (b) (c) FIGURE 1 – Représentations génériques (a) d'une segmentation thématique linéaire, (b) d'une segmentation thématique hiérarchique dense classique, versus (c) celle d'une hiérarchie de fragments thématiquement focalisés. Les lignes verticales en pointillés illustrent les frontières des thèmes et sous-thèmes

INRIA a CCSD electronic archive server

HAL-Rennes 1

Vers une représentation du contexte thématique en Recherche d'Information

Author: BELLOT Patrice
DEVEAUD Romain
SANJUAN Eric
Publication venue
Publication date: 01/01/2013
Field of study

Quand des humains cherchent des informations au sein de bases de connaissancesou de collections de documents, ils utilisent un système de recherche d information(SRI) faisant office d interface. Les utilisateurs doivent alors transmettre au SRI unereprésentation de leur besoin d information afin que celui-ci puisse chercher des documentscontenant des informations pertinentes. De nos jours, la représentation du besoind information est constituée d un petit ensemble de mots-clés plus souvent connu sousla dénomination de requête . Or, quelques mots peuvent ne pas être suffisants pourreprésenter précisément et efficacement l état cognitif complet d un humain par rapportà son besoin d information initial. Sans une certaine forme de contexte thématiquecomplémentaire, le SRI peut ne pas renvoyer certains documents pertinents exprimantdes concepts n étant pas explicitement évoqués dans la requête.Dans cette thèse, nous explorons et proposons différentes méthodes statistiques, automatiqueset non supervisées pour la représentation du contexte thématique de larequête. Plus spécifiquement, nous cherchons à identifier les différents concepts implicitesd une requête formulée par un utilisateur sans qu aucune action de sa part nesoit nécessaire. Nous expérimentons pour cela l utilisation et la combinaison de différentessources d information générales représentant les grands types d informationauxquels nous sommes confrontés quotidiennement sur internet. Nous tirons égalementparti d algorithmes de modélisation thématique probabiliste (tels que l allocationde Dirichlet latente) dans le cadre d un retour de pertinence simulé. Nous proposonspar ailleurs une méthode permettant d estimer conjointement le nombre de conceptsimplicites d une requête ainsi que l ensemble de documents pseudo-pertinent le plusapproprié afin de modéliser ces concepts. Nous évaluons nos approches en utilisantquatre collections de test TREC de grande taille. En annexes, nous proposons égalementune approche de contextualisation de messages courts exploitant des méthodesde recherche d information et de résumé automatiqueWhen searching for information within knowledge bases or document collections,humans use an information retrieval system (IRS). So that it can retrieve documentscontaining relevant information, users have to provide the IRS with a representationof their information need. Nowadays, this representation of the information need iscomposed of a small set of keywords often referred to as the query . A few wordsmay however not be sufficient to accurately and effectively represent the complete cognitivestate of a human with respect to her initial information need. A query may notcontain sufficient information if the user is searching for some topic in which she is notconfident at all. Hence, without some kind of context, the IRS could simply miss somenuances or details that the user did not or could not provide in query.In this thesis, we explore and propose various statistic, automatic and unsupervisedmethods for representing the topical context of the query. More specifically, we aim toidentify the latent concepts of a query without involving the user in the process norrequiring explicit feedback. We experiment using and combining several general informationsources representing the main types of information we deal with on a dailybasis while browsing theWeb.We also leverage probabilistic topic models (such as LatentDirichlet Allocation) in a pseudo-relevance feedback setting. Besides, we proposea method allowing to jointly estimate the number of latent concepts of a query andthe set of pseudo-relevant feedback documents which is the most suitable to modelthese concepts. We evaluate our approaches using four main large TREC test collections.In the appendix of this thesis, we also propose an approach for contextualizingshort messages which leverages both information retrieval and automatic summarizationtechniquesAVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

OpenGrey Repository

Suivi de l’évolution des thèmes de publications scientifiques dans les communautés d’auteur·e·s et leurs co-citations

Author: Belattar Katia
Publication venue: 'Universite de Sherbrooke'
Publication date: 01/01/2021
Field of study

Dans la communauté scientifique, l’information est principalement diffusée par le biais de publications scientifiques. L’étude de l’évolution des thèmes de recherche dans le temps recèle une importance indéniable pour le monde universitaire. Le but étant pour les chercheur·e·s de connaitre les nouvelles tendances et orientations scientifiques. La détection, le suivi et la modélisation des communautés dans les réseaux sociaux dynamiques ont été des sujets très étudiés au cours de ces dernières années. Malgré l’importance traditionnelle accordée aux approches structurelles, l’analyse des réseaux de communautés basée sur le contenu n’est qu’une tendance encore très peu exploitée. Dans notre recherche, nous nous intéressons à l’étude conjointe de l’extraction et du suivi de l’évolution des thèmes de publications dans les réseaux de communautés d’auteur·e·s reliés entre eux par des co-citations. Nous considérons qu’un thème de recherches académiques peut être lié étroitement et directement à un ensemble de co-auteur·e·s collaborant étroitement entre eux afin de produire des articles appartenant à un domaine ou un thème scientifique précis. C’est ainsi que le changement dans la structure du réseau caractérise davantage les événements sociaux comme des projets en commun ou travaux dans la même orientation thématique. Cet ensemble d’auteur·e·s peut donc être représenté sous la forme d’un graphe dont les nœuds sont les auteur·e·s eux-mêmes, tandis que les liens de ce graphe représentent une co-citation sur le même article. Notre étude suit l’évolution de ces communautés d’auteur·e·s dans le temps en étudiant les caractéristiques sémantiques à partir des titres d’articles et mots-clés (seules données disponibles sur le contenu des articles dans l’ensemble des données fournies). Pour l’extraction thématique nous avons utilisé l’ingénierie des caractéristiques représentant chaque titre, en combinant les vecteurs obtenus par les modèles thématiques LSA, PLSA et LDA, pondérés avec TF-IDF, avec des vecteurs issus d’un modèle de l’apprentissage profond qui est Word2Vec. Les vecteurs résultants ont été soumis à des classificateurs (Régression logistique, Machine à vecteur de support) pour l’obtention de l’étiquetage thématique automatique des publications. Il s’avère que les meilleurs résultats ont été obtenus en concaténant les vecteurs obtenues par la LDA aux vecteurs produits par Word2Vec et SVM comme classificateur. Pour la prévision des événements critiques que peut subir une communauté au fil du temps, nous proposons un modèle de risque général qui utilise des techniques d’analyse de survie. Après l’extraction des caractéristiques topologiques et sémantiques jugées importantes, nous les avons soumises à l’analyse de CoxPH qui permet de déterminer l’impact de chaque variable explicative sur la prédiction d’un événement qu’une communauté peut subir à un instant donné

Savoirs UdeS

Un modèle de recherche d'information basé sur les graphes et les similarités structurelles pour l'amélioration du processus de recherche d'information

Author: Champclaux Yaël
Publication venue: HAL CCSD
Publication date: 04/12/2009
Field of study

The main objective of IR systems is to select relevant documents, related to a user's information need, from a collection of documents. Traditional approaches for document/query comparison use surface similarity, i.e. the comparison engine uses surface attributes (indexing terms). We propose a new method which uses a special kind of similarity, namely structural similarities (similarities that use both surface attributes and relation between attributes). These similarities were inspired from cognitive studies and a general similarity measure based on node comparison in a bipartite graph. We propose an adaptation of this general method to the special context of information retrieval. Adaptation consists in taking into account the domain specificities: data type, weighted edges, normalization choice. The core problem is how documents are compared against queries. The idea we develop is that similar documents will share similar terms and similar terms will appear in similar documents. We have developed an algorithm which traduces this idea. Then we have study problem related to convergence and complexity, then we have produce some test on classical collection and compare our measure with two others that are references in our domain. The Report is structured in five chapters: First chapter deals with comparison problem, and related concept like similarities, we explain different point of view and propose an analogy between cognitive similarity model and IR model. In the second chapter we present the IR task, test collection and measures used to evaluate a relevant document list. The third chapter introduces graph definition: our model is based on graph bipartite representation, so we define graphs and criterions used to evaluate them. The fourth chapter describe how we have adopted, and adapted the general comparison method. The Fifth chapter describes how we evaluate the ordering performance of our method, and also how we have compared our method with two others.Cette thèse d'informatique s'inscrit dans le domaine de la recherche d'information (RI). Elle a pour objet la création d'un modèle de recherche utilisant les graphes pour en exploiter la structure pour la détection de similarités entre les documents textuels d'une collection donnée et une requête utilisateur en vue d'améliorer le processus de recherche d'information. Ces similarités sont dites « structurelles » et nous montrons qu'elles apportent un gain d'information bénéfique par rapport aux seules similarités directes. Le rapport de thèse est structuré en cinq chapitres. Le premier chapitre présente un état de l'art sur la comparaison et les notions connexes que sont la distance et la similarité. Le deuxième chapitre présente les concepts clés de la RI, notamment l'indexation des documents, leur comparaison, et l'évaluation des classements retournés. Le troisième chapitre est consacré à la théorie des graphes et introduit les notations et notions liées à la représentation par graphe. Le quatrième chapitre présente pas à pas la construction de notre modèle pour la RI, puis, le cinquième chapitre décrit son application dans différents cas de figure, ainsi que son évaluation sur différentes collections et sa comparaison à d'autres approches

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

OPTIMISATION DE REQUETES DANS UN SYSTEME DE RECHERCHE D'INFORMATION<br />APPROCHE BASEE SUR L'EXPLOITATION DE TECHNIQUES AVANCEES DE L'ALGORITHMIQUE GENETIQUE

Author: Tamine Lynda
Publication venue: HAL CCSD
Publication date: 21/12/2000
Field of study

The thesis deals with the use of genetic algorithmes to tackle information retrieval issues. More precisely, our works focus on applying genetic algorithms for the design of adaptive information retrieval systems. First of all, we study various models in information retrieval and then highlight our contribution in this area. After this, we focus on genetic algorithms. We particularly show how to exploit their formal support and robistness in order to support query optimization approaches. Our specific approach consists in combining both relevance feedback evidence and genetic processing in order to refirmulate the querues. The proposed genetic algorithm is specifically devoted for information retrieval by designing enhanced genetic operators that tackle the multimodality relevance problem. The niching technique is applied to the whole population in order to involve a multi-optimization query through a cooperative approach.The experimental evaluation has been carried out using a TREC collection.Les travaux présentés dans cette thèse traitent des apports de l'algorithmique génétique à la conception de systèmes de recherche d'information adaptatifs aux besoins des utilisateurs.Notre étude se focalise en premier lieu, sur l'analyse des différents modèles et stratégies de représentation et de recherche d'information. Nous mettons notamment en évidence, leur contribution à la résolution des problèmes inhérents à la recherche d'information. En second lieu, notre intérêt s'est porté sur l'étude des algorithmes génétiques. Nous basant alors sur leur robustesse, théoriquement et expérimentalement prouvée, nous intégrons ces algorithmes à la mise en oeuvre de notre approche d'optimisation de requête.Nous présentons une approche de recherche d'information qui intègre une stratégie de reformulation de requête par injection de pertinence, fondée sur l'hybridation d'un processus d'optimisation génétique, à un modèle de recherche de base. Nous proposons un algorithme spécifique à la recherche d'information, par l'intégration d'opérateurs génétiques augmentés par la connaissance du domaine d'une part, et d'une heuristique permettant de résoudre le problème de multimodalité de la pertinence d'autre part. L'heuristique de nichage en l'occurrence, est diffusée globalement lors de l'évolution de l'AG. La population est alors organisée en niches de requêtes effectuant une recherche parallèle et coopérative d'informations.Nous évaluons enfin notre approche de recherche d'information, au travers d'expérimentations réalisées à l'aide du système Mercure, sur la collection de référence TREC

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Un nouveau passage à l'échelle en recherche d'information

Author: Boughanem Mohand
CALABRETTO Sylvie
Chevallet Jena Pierre
Martinez José
Tamine Lynda
Publication venue: 'Lavoisier'
Publication date: 01/01/2006
Field of study

National audienceLa quantité d'information numérique produite et consultée a considérablement augmenté et sa diversité s'est accrue. Or, le facteur d'échelle joue un rôle important dans la quantité et la qualité des traitements que l'on peut appliquer aux informations, aussi bien de manière intrinsèque que perçue par l'utilisateur. Cet article propose un panorama des problèmes qui découlent de ces évolutions ainsi que quelques pistes de recherche afin de répondre à ce qui semble bien être un nouveau défi de « passage à l'échell

Scientific Publications of the University of Toulouse II Le Mirail

Hal - Université Grenoble Alpes

HAL Descartes

Hal-Diderot

Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets

Author: Boubekeur Fatiha
Publication venue: HAL CCSD
Publication date: 01/07/2008
Field of study

This thesis addresses two main problems in IR: automatic query weighting and document semantic indexing. Our global contribution consists on the definition of a theoretical flexible information retrieval (IR) model based on CP-Nets. The CP-Net formalism is used for the graphical representation of flexible queries expressing qualitative preferences and for automatic weighting of such queries. Furthermore, the CP-Net formalism is used as an indexing language in order to represent document representative concepts and related relations in a roughly compact way. Concepts are identified by projection on WordNet. Concept relations are discovered by means of semantic association rules. A query evaluation mechanism based on CP-Nets graph similarity is also proposed.Ce travail de thèse adresse deux principaux problèmes en recherche d'information : (1) la formalisation automatique des préférences utilisateur, (ou la pondération automatique de requêtes) et (2) l'indexation sémantique. Dans notre première contribution, nous proposons une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de préférences qualitatives est plus simple et plus intuitive que la formulation de poids numériques les quantifiant. Cependant, un système automatisé raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondération automatique des requêtes par quantification des CP-Nets correspondants par des valeurs d'utilité. Cette quantification conduit à un UCP-Net qui correspond à une requête booléenne pondérée. Une utilisation des CP-Nets est également proposée pour la représentation des documents dans la perspective d'une évaluation flexible des requêtes ainsi pondéreés. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basée sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de représenter les concepts et les relations conditionnelles entre eux d'une manière relativement compacte. Les noeuds du CP-Net sont les concepts représentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts résultants forment les noeuds du CP-Net. D'autre part, nous proposons d'étendre et d'utiliser la technique de règles d'association afin de découvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mécanisme d'évaluation des requêtes basé sur l'appariement de graphes (les CP-Nets document et requête en l'occurrence)

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Structuration de données par apprentissage non-supervisé : applications aux données textuelles

Author: Cleuziou Guillaume
Publication venue: HAL CCSD
Publication date: 16/12/2015
Field of study

En fouille de données, le succès d'une méthode tient au fait qu'elle permet de répondre par un algorithme intuitif à un besoin pratique bien théorisé. C'est avec cet éclairage que nous présentons un ensemble de contributions, élaborées durant ces dix dernières années, et répondant au besoin pratique de structurer automatiquement un ensemble de données. Dans un premier temps nous proposons de nouveaux modèles théoriques de structuration complexe en classes d’individus ; il s’agit alors d'extraire automatiquement d'un ensemble de données, des structures de classification plus proches de leur organisation réelle telle qu’observée (classification recouvrante, formes symétriques), de rendre ces structures à la fois robustes (tolérance au bruit) et manipulables par l’homme (visualisation, paramétrage) et enfin d’être en mesure de les expliquer (sémantique des classes). Dans un second temps nous nous intéressons aux données textuelles via la mise en oeuvre de modèles rendant compte de la structure thématique d’une collection de textes courts dans un contexte de recherche d’information ; enfin, nous présentons un méta-modèle permettant d’apprendre automatiquement un modèle de structuration sémantique d’un ensemble de termes

Thèses en Ligne

HAL Descartes