270 research outputs found

    Segmentation non-supervisée d'images couleur par sur-segmentation Markovienne en régions et procédure de regroupement de régions par graphes pondérés

    Full text link
    Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

    Indexation et navigation dans les contenus visuels : approches basées sur les graphes

    Get PDF
    La première partie de cette thèse concerne l’indexation des documents vidéo en scènes. Les scènes sont des ensembles de plans vidéo partageant des caractéristiques similaires. Nous proposons d’abord une méthode interactive de détection de groupes de plans, partageant un contenu couleur similaire, basé sur la fragmentation de graphe. Nous abordons ensuite l’indexation des documents vidéo en scènes de dialogue, basée sur des caractéristiques sémantiques et structurelles présentes dans l’enchaînement des plans vidéo. La seconde partie de cette thèse traite de la visualisation et de la recherche dans des collections d’images indexées. Nous présentons un algorithme de plongement d’un espace métrique dans le plan appliqué à la visualisation de collections d’images indexées. Ce type de visualisation permet de représenter les relations de dissimilarité entre images et d’identifier visuellement des groupes d’images similaires. Nous proposons enfin une interface de recherche d’images basée sur le routage local dans un graphe. Les résultats d’une validation expérimentale sont présentés et discutés.This thesis deals with the indexation and the visualisation of video documents and collections of images. The proposed methods are based on graphs to represent similarity relationships between indexed video shots and images. The first part of this thesis deals with the indexation of video documents into scenes. A scene is a set of video shots that share common features. We first propose an interactive method to group shots with similar color content using graph clustering. We then present a technique to index video documents into dialogue scenes based on semantic and structural features. The second part of this thesis deals with visualisation and search in collections of indexed images.We present an algorithm for embedding a metric space in the plane applied to collections of indexed images. The aim of this technique is to visualise the dissimilarity relationships between images to identify clusters of similar images. Finally, we present a user interface for searching images, inspired from greedy routing in networks. Results from experimental validation are presented and discussed

    Cohérence d'évènements médiatiques

    Get PDF
    Nous proposons une méthode pour visualiser et analyser les évènements médiatiques à partir des sujets d'actualité des journaux télévisés de plusieurs chaînes annotées avec des descripteurs textuels. Nous présentons une interface d'exploration basée sur un modèle de graphe de similarité sémantique. Après une étape classique couplant clustering et dessin de graphe, nous avons élaboré une mesure de cohérence inspirée par les travaux de Burt et Schott et offrant un retour visuel qualitatif des agrégats générés. Cette mesure de cohérence permet à l'utilisateur de contrôler et valider différents processus de filtrage et raffinage du clustering initial. La cartographie résultante met en évidence deux types d'agrégats : thématiques ou évènementiels

    Mesures de qualité de clustering de documents : Prise en compte de la distribution des mots clés

    Get PDF
    National audienceNos travaux sur une nouvelle méthode de classification non supervisée (Germen) nous ont amenés à nous interroger sur la qualité des résultats obtenus. Le problème est d'estimer si une méthode de clustering est 'meilleure' qu'une autre pour le type de données que nous traitons (données textuelles). Dans un premier temps, après avoir fait un état de l'art des méthodes existantes, nous avons appliqué quelques indices de qualité aux résultats de clustering issus de notre algorithme Germen ainsi que d'autres algorithmes communément utilisés. Ces indices de qualité ne permettant pas de sélectionner la meilleure partition, nous avons développé une nouvelle série d'indices basés sur la distribution des mots-clés. Nous présentons et discutons les résultats obtenus ainsi que les réflexions engagées pour faire évoluer l'évaluation de classifications non supervisées sur des textes. 1 Introductio

    Élargissement de l'espace public et nouvelles citoyennetés : quelques pistes de formalisation mathématique

    No full text
    National audienceCet article associe un chercheur en science politique et aménagement, Jacques Lolive, et un chercheur en mathématiques appliquées aux sciences sociales et humaines, Mohamed El Methni. Il présente une réflexion sur les transformations de l'espace public qui favorisent l'émergence de nouvelles citoyennetés (1e Partie Élargissement de l'espace public et nouvelles citoyennetés). Pour enrichir les méthodologies qualitatives et les savoir-faire mobilisés pour ces recherches et pour renforcer leur potentiel démocratique, l'article expose quelques pistes de formalisation mathématiques et informatiques (2e partie Réseaux sociaux bipartis : Modélisation et formalisation

    Comparaison des Modèles et Architectures pour un Accès Mobile Restreint et Local au Web de Données: Un état de l’art des architectures et solutions envisageables

    Get PDF
    This document presents a survey prior to a thesis project, which aims to propose solutions allowing local and restricted access to the Web of data. We have explored several relevant mechanisms proposed in the literature, dedicated to various problems and likely to constitute important points for our future contributions. Since our main objective is to offer tools dedicated to mobility situations in environments where internet access is unreliable, we were particularly interested in comparing approaches (P2P, DHT, etc.) allowing to realize a particular fog/edge computing scenario which is restricted and local mobile access to contextually relevant and shared related data. In this context, we have focused some of our research on so-called gossip protocols (or epidemic protocols) that are well suited to the dynamic nature of networks. The dynamic aspect of the peers also led us to consider the solutions that take into account the location of the peers in order to improve the quality of the services offered.In addition, we looked at solutions dealing with semantic heterogeneity in peer-to-peer environments, including ontology alignment mechanisms that allow us to fully benefit from the power of peer-to-peer systems without imposing the use of a common ontology to all peers.Data replication and caching can be an important alternative to accessing remote sources; we have devoted the last part of this document to solutions based on these mechanisms to supply a local access to data.Ce document présente un état de l'art préalable à un projet de thèse qui vise à proposer des solutions permettant un accès local et restreint au Web de données. Nous avons exploré plusieurs mécanismes pertinents proposés dans la littérature, dédiés à des problématiques différentes et pouvant constituer des points importants pour nos futures contributions. Notre objectif principal étant de proposer des outils dédiés à des situations de mobilité dans des environnements ou l’accès internet est peu fiable, nous nous sommes intéressés particulièrement à comparer des approches (P2P, DHT, etc.) permettant de réaliser un scénario de fog/edge computing particulier qui est l'accès mobile restreint et local à des données liées contextuellement pertinentes et partagées. Dans cette optique, nous avons focalisé une partie de nos recherches bibliographiques sur les protocoles dits de « gossip » (ou protocoles épidémiques) qui s’avèrent bien adaptés au caractère dynamique des réseaux. L'aspect dynamique des pairs nous a aussi amené à considérer des solutions qui prennent en compte la localisation des pairs pour améliorer la qualité des services offerts.Nous regardons de plus dans ce document, des solutions traitant de l’hétérogénéité sémantique dans des environnements pair-à-pair, notamment des mécanismes d’alignements d’ontologies qui permettent de profiter pleinement de la puissance des systèmes pair-à-pair sans imposer l’utilisation d’une ontologie commune à tous les pairs.La réplication et le cache de données pouvant constituer une alternative importante à l’accès à des sources distantes, nous avons consacré la dernière partie de ce document aux solutions reposant sur ces mécanismes et offrant ainsi un accès local aux données

    Techniques d'analyse dynamique des média sociaux pour la relation client

    Get PDF
    This thesis is in the field of data mining and in the context of Customer Relationship Management (CRM). With the emergence of social media, companies today have seen the need for an interchannel (or cross-channel) strategy in which they keep track of their clients' histories through a consistent combination of multiple channels. The goal of this thesis is to develop new data mining methods which allow predicting customer behaviors using data collected from multiple channels such as social media, call center¿ We are interested in all types of customer behaviors that characterized their engagement with respect to the company. First of all, we perform a needs analysis in terms of data mining for interchannel CRM strategy. Next, we propose a new method of prediction of customer behaviors in the context of interchannel CRM. In our method, we use a social attributed network to represent the data from multiple channels and perform incremental learning based on latent factor models. We then carry out experiments on both synthetic and real data. We show that our method based on the latent factor models is capable of leveraging informative latent factors from interchannel data. In future works, we consider some ways to improve the performance of our method, especially latent factor models that are able to leverage different types of relational correlation between individuals in the social graph.Cette thèse d'informatique en fouille de données et apprentissage automatique s'inscrit dans le contexte applicatif de la gestion de la relation client (Customer Relationship Management ou CRM). Avec l'émergence des média sociaux, les entreprises perçoivent actuellement la nécessité d'une stratégie de relation client intercanale dans laquelle elles suivent le parcours du client sur l¿ensemble des canaux d¿interactions tels que les média sociaux, la hot line¿ et cela de manière integrée. L'objectif applicatif de la thèse est de concevoir de nouvelles techniques permettant de prédire les comportements du client à partir des données issues de ces multiples canaux. Nous nous intéressons aux comportements qui caractérisent l'engagement du client vis-à-vis de l'entreprise. Nous effectuons d'abord une analyse des besoins dans laquelle nous montrons la nécessité des nouvelles techniques de fouilles de données pour une stratégie de relation client intégrant plusieurs canaux de nature différente. Nous introduisons ensuite une nouvelle méthode d'apprentissage incrémental basée sur les modèles à facteurs latents et sur la représentation de réseau social attribué. Nous effectuons ensuite des expérimentations sur des données synthétiques et réelles. Nous montrons que notre méthode de réduction de dimension est capable d'extraire des variables latentes informatives pour prédire les comportements des clients à partir de données intercanales. Dans les perspectives, nous proposons quelques pistes d'amélioration de notre méthode, notamment d'autres modèles à facteurs latents permettant d'exploiter différents types de corrélations entre les individus dans le graphe social

    Un modèle de recherche d'information basé sur les graphes et les similarités structurelles pour l'amélioration du processus de recherche d'information

    Get PDF
    The main objective of IR systems is to select relevant documents, related to a user's information need, from a collection of documents. Traditional approaches for document/query comparison use surface similarity, i.e. the comparison engine uses surface attributes (indexing terms). We propose a new method which uses a special kind of similarity, namely structural similarities (similarities that use both surface attributes and relation between attributes). These similarities were inspired from cognitive studies and a general similarity measure based on node comparison in a bipartite graph. We propose an adaptation of this general method to the special context of information retrieval. Adaptation consists in taking into account the domain specificities: data type, weighted edges, normalization choice. The core problem is how documents are compared against queries. The idea we develop is that similar documents will share similar terms and similar terms will appear in similar documents. We have developed an algorithm which traduces this idea. Then we have study problem related to convergence and complexity, then we have produce some test on classical collection and compare our measure with two others that are references in our domain. The Report is structured in five chapters: First chapter deals with comparison problem, and related concept like similarities, we explain different point of view and propose an analogy between cognitive similarity model and IR model. In the second chapter we present the IR task, test collection and measures used to evaluate a relevant document list. The third chapter introduces graph definition: our model is based on graph bipartite representation, so we define graphs and criterions used to evaluate them. The fourth chapter describe how we have adopted, and adapted the general comparison method. The Fifth chapter describes how we evaluate the ordering performance of our method, and also how we have compared our method with two others.Cette thèse d'informatique s'inscrit dans le domaine de la recherche d'information (RI). Elle a pour objet la création d'un modèle de recherche utilisant les graphes pour en exploiter la structure pour la détection de similarités entre les documents textuels d'une collection donnée et une requête utilisateur en vue d'améliorer le processus de recherche d'information. Ces similarités sont dites « structurelles » et nous montrons qu'elles apportent un gain d'information bénéfique par rapport aux seules similarités directes. Le rapport de thèse est structuré en cinq chapitres. Le premier chapitre présente un état de l'art sur la comparaison et les notions connexes que sont la distance et la similarité. Le deuxième chapitre présente les concepts clés de la RI, notamment l'indexation des documents, leur comparaison, et l'évaluation des classements retournés. Le troisième chapitre est consacré à la théorie des graphes et introduit les notations et notions liées à la représentation par graphe. Le quatrième chapitre présente pas à pas la construction de notre modèle pour la RI, puis, le cinquième chapitre décrit son application dans différents cas de figure, ainsi que son évaluation sur différentes collections et sa comparaison à d'autres approches

    Contributions au tri automatique de documents et de courrier d'entreprises

    Get PDF
    Ce travail de thèse s inscrit dans le cadre du développement de systèmes de vision industrielle pour le tri automatique de documents et de courriers d entreprises. Les architectures existantes, dont nous avons balayé les spécificités dans les trois premiers chapitres de la thèse, présentent des faiblesses qui se traduisent par des erreurs de lecture et des rejets que l on impute encore trop souvent aux OCR. Or, les étapes responsables de ces rejets et de ces erreurs de lecture sont les premières à intervenir dans le processus. Nous avons ainsi choisi de porter notre contribution sur les aspects inhérents à la segmentation des images de courriers et la localisation de leurs régions d intérêt en investissant une nouvelle approche pyramidale de modélisation par coloration hiérarchique de graphes ; à ce jour, la coloration de graphes n a jamais été exploitée dans un tel contexte. Elle intervient dans notre contribution à toutes les étapes d analyse de la structure des documents ainsi que dans la prise de décision pour la reconnaissance (reconnaissance de la nature du document à traiter et reconnaissance du bloc adresse). Notre architecture a été conçue pour réaliser essentiellement les étapes d analyse de structures et de reconnaissance en garantissant une réelle coopération entres les différents modules d analyse et de décision. Elle s articule autour de trois grandes parties : une partie de segmentation bas niveau (binarisation et recherche de connexités), une partie d extraction de la structure physique par coloration hiérarchique de graphe et une partie de localisation de blocs adresse et de classification de documents. Les algorithmes impliqués dans le système ont été conçus pour leur rapidité d exécution (en adéquation avec les contraintes de temps réels), leur robustesse, et leur compatibilité. Les expérimentations réalisées dans ce contexte sont très encourageantes et offrent également de nouvelles perspectives à une plus grande diversité d images de documents.This thesis deals with the development of industrial vision systems for automatic business documents and mail sorting. These systems need very high processing time, accuracy and precision of results. The current systems are most of time made of sequential modules needing fast and efficient algorithms throughout the processing line: from low to high level stages of analysis and content recognition. The existing architectures that we have described in the three first chapters of the thesis have shown their weaknesses that are expressed by reading errors and OCR rejections. The modules that are responsible of these rejections and reading errors are mostly the first to occur in the processes of image segmentation and interest regions location. Indeed, theses two processes, involving each other, are fundamental for the system performances and the efficiency of the automatic sorting lines. In this thesis, we have chosen to focus on different sides of mail images segmentation and of relevant zones (as address block) location. We have chosen to develop a model based on a new pyramidal approach using a hierarchical graph coloring. As for now, graph coloring has never been exploited in such context. It has been introduced in our contribution at every stage of document layout analysis for the recognition and decision tasks (kind of document or address block recognition). The recognition stage is made about a training process with a unique model of graph b-coloring. Our architecture is basically designed to guarantee a good cooperation bewtween the different modules of decision and analysis for the layout analysis and the recognition stages. It is composed of three main sections: the low-level segmentation (binarisation and connected component labeling), the physical layout extraction by hierarchical graph coloring and the address block location and document sorting. The algorithms involved in the system have been designed for their execution speed (matching with real time constraints), their robustness, and their compatibility. The experimentations made in this context are very encouraging and lead to investigate a wider diversity of document images.VILLEURBANNE-DOC'INSA-Bib. elec. (692669901) / SudocSudocFranceF
    • …
    corecore