135 research outputs found

    Etude, représentation et applications des traverses minimales d'un hypergraphe

    Get PDF
    This work is part of the field of the hypergraph theory and focuses on hypergraph minimal transversal. The problem of extracting the minimal transversals from a hypergraph received the interest of many researchers as shown the number of algorithms proposed in the literature, and this is mainly due to the solutions offered by the minimal transversal in various application areas such as databases, artificial intelligence, e-commerce, semantic web, etc. In view of the wide range of fields of minimal transversal application and the interest they generate, the objective of this thesis is to explore new application paths of minimal transversal by proposing methods to optimize the extraction. This has led to three proposed contributions in this thesis. The first approach takes advantage of the emergence of Web 2.0 and, therefore, social networks using minimal transversal for the detection of important actors within these networks. The second part of research in this thesis has focused on reducing the number of hypergraph minimal transversal. A concise and accurate representation of minimal transversal was proposed and is based on the construction of an irredundant hypergraph, hence are calculated the irredundant minimal transversal of the initial hypergraph. An application of this representation to the dependency inference problem is presented to illustrate the usefulness of this approach. The last approach includes the hypergraph decomposition into partial hypergraph the “local” minimal transversal are calculated and their Cartesian product can generate all the hypergraph transversal sets. Different experimental studies have shown the value of these proposed approachesCette thèse s'inscrit dans le domaine de la théorie des hypergraphes et s'intéresse aux traverses minimales des hypergraphes. L'intérêt pour l'extraction des traverses minimales est en nette croissance, depuis plusieurs années, et ceci est principalement dû aux solutions qu'offrent les traverses minimales dans divers domaines d'application comme les bases de données, l'intelligence artificielle, l'e-commerce, le web sémantique, etc. Compte tenu donc du large éventail des domaines d'application des traverses minimales et de l'intérêt qu'elles suscitent, l'objectif de cette thèse est donc d'explorer de nouvelles pistes d'application des traverses minimales tout en proposant des méthodes pour optimiser leur extraction. Ceci a donné lieu à trois contributions proposées dans cette thèse. La première approche tend à tirer profit de l'émergence du Web 2.0 et, par conséquent, des réseaux sociaux en utilisant les traverses minimales pour la détection des acteurs importants au sein de ces réseaux. La deuxième partie de recherche au cours de cette thèse s'est intéressé à la réduction du nombre de traverses minimales d'un hypergraphe. Ce nombre étant très élevé, une représentation concise et exacte des traverses minimales a été proposée et est basée sur la construction d'un hypergraphe irrédondant, d'où sont calculées les traverses minimales irrédondantes de l'hypergraphe initial. Une application de cette représentation au problème de l'inférence des dépendances fonctionnelles a été présentée pour illustrer l’intérêt de cette approche. La dernière approche s'est intéressée à la décomposition des hypergraphes en des hypergraphes partiels. Les traverses minimales de ces derniers sont calculées et leur produit cartésien permet de générer l'ensemble des traverses de l'hypergraphe. Les différentes études expérimentales menées ont montré l’intérêt de ces approches proposée

    Génération d'un modèle numérique d'élévation adéquat pour la modélisation hydrologique d'un petit bassin versant

    Full text link
    Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal

    Exploration de textes dans un corpus francophone de droit : le cas SOQUIJ

    Get PDF
    L’intelligence d’affaires a mis en place des processus et des procédures permettant l’accès à une donnée unique. Des rapports, des requêtes et des analyses sont possibles sur cette structure. L’exploration de données a bénéficié de ces démarches et a fait naitre l’exploration de textes. L’exploration de textes est peu employée par rapport à l’exploration de données, et ce autant par la communauté scientifique que par le domaine privé. La syntaxe et la grammaire mathématique sont universelles tandis que la syntaxe et la grammaire linguistique sont régionales et plus complexes. Ces limitations ont restreint les recherches sur l’exploration des textes. Ce mémoire s’intéresse à l’utilisation d’un outil d’exploration de textes dans le contexte juridique. Plus précisément, l’objectif de la présente recherche est d’utiliser l’outil pour en découvrir les défis et opportunités découlant de l’exploration des liens des textes et de la classification supervisée et non supervisée. Afin d’atteindre cet objectif, la présente recherche s’appuie sur le « design science » et la méthodologie « CRISP-DM », le tout dans le but de sélectionner un outil logiciel approprié à la recherche, d’effectuer l’exploration de textes et d’analyser les résultats. Les principaux résultats qui émanent des analyses effectuées avec l’outil IBM PASW SPSS sont les suivants. Premièrement, une analyse des liens entre les textes permet de faire ressortir les concepts des différents domaines de droit. Deuxièmement, l’analyse « Two-Steps » fait ressortir 3 classes dans le corpus complet qui comprend 4 domaines. Enfin, les analyses de classifications supervisées ont eu un taux de succès entre 46 et 60 % sur les échantillons de validation. Les modèles développés sont peu performants et selon moi ils ne peuvent pas être déployés à la SOQUIJ. La connaissance du domaine juridique est importante afin d’analyser et interpréter les textes propres à la SOQUIJ. Il en va de même afin de créer un dictionnaire pour l’exploration de textes. Ce dictionnaire spécifique au droit manque pour l’obtention de résultats plus probants. Plusieurs avenues sont intéressantes pour les recherches futures. Des plus intéressantes, notons la validation de l’impact de la création d’un dictionnaire pour réviser les différentes analyses et aussi d’étudier le résultat des 3 classes créées par le « Two-Steps »

    Approche géomatique de la variabilité spatio-temporelle de la contamination microbienne des eaux récréatives

    Get PDF
    L’objectif général de cette thèse est de caractériser la dynamique des transferts des bactéries fécales à l’aide d’une modélisation spatio-temporelle, à l’échelle du bassin versant (BV) dans une région agricole et à l’échelle événementielle. Ce projet vise à mieux comprendre l'influence des processus hydrologiques, les facteurs environnementaux et temporels impliqués dans l’explication des épisodes de contamination microbienne des eaux récréatives. Premièrement, un modèle bayésien hiérarchique a été développé pour quantifier et cartographier les niveaux de probabilité des eaux à être contaminées par des effluents agricoles, sur la base des données spectrales et des variables géomorphologiques. Par cette méthode, nous avons pu calculer les relations pondérées entre les concentrations d’Escherichia coli et la distribution de l’ensemble des paramètres agro-pédo-climatiques qui régissent sa propagation. Les résultats ont montré que le modèle bayésien développé peut être utilisé en mode prédictif de la contamination microbienne des eaux récréatives. Ce modèle avec un taux de succès de 71 % a mis en évidence le rôle significatif joué par la pluie qui est la cause principale du transport des polluants. Deuxièmement, le modèle bayésien a fait l’objet d'une analyse de sensibilité liée aux paramètres spatiaux, en utilisant les indices de Sobol. Cette démarche a permis (i) la quantification des incertitudes sur les variables pédologiques, d’occupation du sol et de la distance et (2) la propagation de ces incertitudes dans le modèle probabiliste c'est-à-dire le calcul de l’erreur induite dans la sortie par les incertitudes des entrées spatiales. Enfin, une analyse de sensibilité des simulations aux différentes sources d’incertitude a été effectuée pour évaluer la contribution de chaque facteur sur l’incertitude globale en prenant en compte leurs interactions. Il apparaît que sur l’ensemble des scénarios, l’incertitude de la contamination microbienne dépend directement de la variabilité des sols argileux. Les indices de premier ordre de l’analyse de Sobol ont montré que parmi les facteurs les plus susceptibles d’influer la contamination microbienne, la superficie des zones agricoles est le premier facteur important dans l'évaluation du taux de coliformes. C’est donc sur ce paramètre que l’attention devra se porter dans le contexte de prévision d'une contamination microbienne. Ensuite, la deuxième variable la plus importante est la zone urbaine avec des parts de sensibilité d’environ 30 %. Par ailleurs, les estimations des indices totaux sont meilleures que celles des indices de premier ordre, ce qui signifie que l’impact des interactions paramétriques est nettement significatif pour la modélisation de la contamination microbienne Enfin, troisièmement, nous proposons de mettre en œuvre une modélisation de la variabilité temporelle de la contamination microbiologique du bassin versant du lac Massawippi, à partir du modèle AVSWAT. Il s'agit d'une modélisation couplant les composantes temporelles et spatiales qui caractérisent la dynamique des coliformes. La synthèse des principaux résultats démontrent que les concentrations de coliformes dans différents sous-bassins versants se révèlent influencées par l’intensité de pluie. La recherche a également permis de conclure que les meilleures performances en calage sont obtenues au niveau de l'optimisation multi-objective. Les résultats de ces travaux ouvrent des perspectives encourageantes sur le plan opérationnel en fournissant une compréhension globale de la dynamique de la contamination microbienne des eaux de surface.Abstract : The aim of this study was to predict water faecal contamination from a bayesian probabilistic model, on a watershed scale in a farming area and on a factual scale. This project aims to better understand the influence of hydrological, environmental and temporal factors involved in the explanation of microbial contamination episodes of recreational waters. First, a bayesian probabilistic model: Weight of Evidence was developed to identify and map the probability of water levels to be contaminated by agricultural effluents, on the basis of spectrals data and geomorphologic variables. By this method, we were able to calculate weighted relationships between concentrations of Escherichia coli and distribution of key agronomic, pedologic and climatic parameters that influence the spread of these microorganisms. The results showed that the Bayesian model that was developed can be used as a prediction of microbial contamination of recreational waters. This model, with a success rate of 71%, highlighted the significant role played by the rain, which is the main cause of pollution transport. Secondly, the Bayesian probabilistic model has been the subject of a sensitivity analysis related to spatial parameters, using Sobol indications. This allowed (1) quantification of uncertainties on soil variables, land use and distance and (2) the spread of these uncertainties in the probabilistic model that is to say, the calculation of induced error in the output by the uncertainties of spatial inputs. Lastly, simulation sensitivity analysis to the various sources of uncertainty was performed to assess the contribution of each factor on the overall uncertainty taking into account their interactions. It appears that of all the scenarios, the uncertainty of the microbial contamination is directly dependent on the variability of clay soils. Sobol prime indications analysis showed that among the most likely to influence the microbial factors, the area of farmland is the first important factor in assessing the coliforms. Importance must be given on this parameter in the context of preparation for microbial contamination. Then, the second most important variable is the urban area with sensitivity shares of approximately 30%. Furthermore, estimates of the total indications are better than those of the first order, which means that the impact of parametric interaction is clearly significant for the modeling of microbial contamination. Thirdly, we propose to implement a temporal variability model of microbiological contamination on the watershed of Lake Massawippi, based on the AVSWAT model. This is a model that couples the temporal and spatial components that characterize the dynamics of coliforms. The synthesis of the main results shows that concentrations of Escherichia coli in different sub-watersheds are influenced by rain intensity. Research also concluded that best performance is obtained by multi-objective optimization. The results of these studies show the prospective of operationally providing a comprehensive understanding of the dynamics of microbial contamination of surface water

    Modélisation et manipulation d'entrepôts de données complexes et historisées

    Get PDF
    Le mémoire de cette thèse traite de la modélisation conceptuelle et de la manipulation des données (par des algèbres) dans les systèmes d'aide à la décision. Notre thèse repose sur la dichotomie de deux espaces de stockage : l'entrepôt de données regroupe les extraits des bases sources utiles pour les décideurs et les magasins de données sont déduits de l'entrepôt et dédiés à un besoin d'analyse particulier.Au niveau de l'entrepôt, nous définissons un modèle de données permettant de décrire l'évolution temporelle des objets complexes. Dans notre proposition, l'objet entrepôt intègre des états courants, passés et archivés modélisant les données décisionnelles et leurs évolutions. L'extension du concept d'objet engendre une extension du concept de classe. Cette extension est composée de filtres (temporels et d'archives) pour construire les états passés et archivés ainsi que d'une fonction de construction modélisant le processus d'extraction (origine source). Nous introduisons également le concept d'environnement qui définit des parties temporelles cohérentes de tailles adaptées aux exigences des décideurs. La manipulation des données est une extension des algèbres objet prenant en compte les caractéristiques du modèle de représentation de l'entrepôt. L'extension se situe au niveau des opérateurs temporels et des opérateurs de manipulation des ensembles d'états.Au niveau des magasins, nous définissons un modèle de données multidimensionnelles permettant de représenter l'information en une constellation de faits ainsi que de dimensions munies de hiérarchies multiples. La manipulation des données s'appuie sur une algèbre englobant l'ensemble des opérations multidimensionnelles et offrant des opérations spécifiques à notre modèle. Nous proposons une démarche d'élaboration des magasins à partir de l'entrepôt.Pour valider nos propositions, nous présentons le logiciel GEDOOH (Générateur d'Entrepôts de Données Orientées Objet et Historisées) d'aide à la conception et à la création des entrepôts dans le cadre de l'application médicale REANIMATIC

    Intégration de données temps-réel issues de capteurs dans un entrepôt de données géo-décisionnel

    Get PDF
    Nous avons pu, au cours des dernières années, assister à une augmentation du nombre de capteurs utilisés pour mesurer des phénomènes de plus en plus variés. En effet, nous pouvons aujourd'hui utiliser les capteurs pour mesurer un niveau d'eau, une position (GPS), une température et même le rythme cardiaque d'un individu. La grande diversité de capteurs fait d'eux aujourd'hui des outils par excellence en matière d'acquisition de données. En parallèle à cette effervescence, les outils d'analyse ont également évolué depuis les bases de données transactionnelles et ont mené à l'apparition d'une nouvelle famille d’outils, appelés systèmes d’analyse (systèmes décisionnels), qui répond à des besoins d’analyse globale sur les données. Les entrepôts de données et outils OLAP (On-Line Analytical Processing), qui font partie de cette famille, permettent dorénavant aux décideurs d'analyser l'énorme volume de données dont ils disposent, de réaliser des comparaisons dans le temps et de construire des graphiques statistiques à l’aide de simples clics de la souris. Les nombreux types de capteurs peuvent certainement apporter de la richesse à une analyse, mais nécessitent de longs travaux d'intégration pour les amener jusqu'à un entrepôt géo-décisionnel, qui est au centre du processus de prise de décision. Les différents modèles de capteurs, types de données et moyens de transférer les données sont encore aujourd'hui des obstacles non négligeables à l'intégration de données issues de capteurs dans un entrepôt géo-décisionnel. Également, les entrepôts de données géo-décisionnels actuels ne sont pas initialement conçus pour accueillir de nouvelles données sur une base fréquente. Puisque l'utilisation de l'entrepôt par les utilisateurs est restreinte lors d'une mise à jour, les nouvelles données sont généralement ajoutées sur une base hebdomadaire, mensuelle, etc. Il existe pourtant des entrepôts de données capables d'être mis à jour plusieurs fois par jour sans que les performances lors de leur exploitation ne soient atteintes, les entrepôts de données temps-réel (EDTR). Toutefois, cette technologie est encore aujourd’hui peu courante, très coûteuse et peu développée. Ces travaux de recherche visent donc à développer une approche permettant de publier et standardiser les données temps-réel issues de capteurs et de les intégrer dans un entrepôt géo-décisionnel conventionnel. Une stratégie optimale de mise à jour de l'entrepôt a également été développée afin que les nouvelles données puissent être ajoutées aux analyses sans que la qualité de l'exploitation de l'entrepôt par les utilisateurs ne soit remise en cause.In the last decade, the use of sensors for measuring various phenomenons has greatly increased. As such, we can now make use of sensors to measure GPS position, temperature and even the heartbeats of a person. Nowadays, the wide diversity of sensor makes them the best tools to gather data. Along with this effervescence, analysis tools have also advanced since the creation of transactional databases, leading to a new category of tools, analysis systems (Business Intelligence (BI)), which respond to the need of the global analysis of the data. Data warehouses and OLAP (On-Line Analytical Processing) tools, which belong to this category, enable users to analyze big volumes of data, execute time-based requests and build statistic graphs in a few simple mouse clicks. Although the various types of sensor can surely enrich any analysis, such data requires heavy integration processes to be driven into the data warehouse, centerpiece of any decision-making process. The different data types produced by sensors, sensor models and ways to transfer such data are even today significant obstacles to sensors data streams integration in a geo-decisional data warehouse. Also, actual geo-decisional data warehouses are not initially built to welcome new data on a high frequency. Since the performances of a data warehouse are restricted during an update, new data is usually added weekly, monthly, etc. However, some data warehouses, called Real-Time Data Warehouses (RTDW), are able to be updated several times a day without letting its performance diminish during the process. But this technology is not very common, very costly and in most of cases considered as "beta" versions. Therefore, this research aims to develop an approach allowing to publish and normalize real-time sensors data streams and to integrate it into a classic data warehouse. An optimized update strategy has also been developed so the frequent new data can be added to the analysis without affecting the data warehouse performances

    Chaîne de traitement pour une approche discursive de l'analyse d'opinion

    Get PDF
    La structure discursive d'un texte est un élément essentiel à la compréhension du contenu véhiculé par ce texte. Elle affecte, par exemple, la structure temporelle du texte, ou encore l'interprétation des expressions anaphoriques. Dans cette thèse, nous aborderons les effets de la structure discursive sur l'analyse de sentiments. L'analyse des sentiments est un domaine de recherche extrêmement actif en traitement automatique des langues. Devant l'abondance de données subjectives disponibles, l'automatisation de la synthèse des multiples avis devient cruciale pour obtenir efficacement une vue d'ensemble des opinions sur un sujet donné. La plupart des travaux actuels proposent une analyse des opinions au niveau du document ou au niveau de la phrase en ignorant la structure discursive. Dans cette thèse, nous nous plaçons dans le contexte de la théorie de la SDRT (Segmented Discourse Representation Theory) et proposons de répondre aux questions suivantes : -Existe-t-il un lien entre la structure discursive d'un document et les opinions émises dans ce même document ? -Quel est le rôle des relations de discours dans la détermination du caractère objectif ou subjectif d'un segment textuel ? -Quel est le rôle des éléments linguistiques, comme la négation et la modalité, lors de la détermination de la polarité d'un segment textuel subjectif ? -Quel est l'impact de la structure discursive lors de la détermination de l'opinion globale véhiculée dans un document ? -Est-ce qu'une approche basée sur le discours apporte une réelle valeur ajoutée comparée à une approche classique basée sur la notion de 'sacs de mots'? -Cette valeur ajoutée est-elle dépendante du genre de corpus ?The discourse structure of a document is a key element to understand the content conveyed by a text. It affects, for instance, the temporal structure of a text, or the interpretation of anaphoric expressions. The discourse structure showed its usefulness in numerous NLP applications, such as automatic summary, or textual entailment. In this thesis, we will study the effects of the discourse structure on sentiment analysis. Sentiment analysis is an extremely active research domain in natural language processing. The last years have seen the multiplication of the available textual data conveying opinion on the web, and the automation of the summary of opinion documents became crucial for who wants to keep an overview of the opinion on a given subject. A huge interest lies in these data, both for the companies who want to retrieve consumer opinion, and for the consumers willing to gather information. Most of the current research efforts describe an opinion extraction at the document level or at the sentence level, ignoring the discourse structure. In this thesis work, we address opinion extraction through the discourse framework of the SDRT (Segmented Discourse Representation Theory), and try to answer to the following questions: -Is there a link between the discourse structure of a document and the opinions contained in that document? -What is the role of discourse relations in the determination of whether a textual segment is objective or subjective? -What is the impact of the discourse structure in the determination of the overall opinion conveyed by a document? -Does a discourse based approach really bring additional value compared to a classical "bag of words" approach

    Transformation de l'intonation : application à la synthèse de la parole et à la transformation de voix

    Get PDF
    The work presented in this thesis lies within the scope of prosody conversion and more particularly the fundamental frequency conversion which is considered as a prominent factor in prosody processing. This document deals with the different steps necessary to build such a conversion system : stylization, clustering and conversion of melodic contours. For each step, we propose a methodology that takes into account the issues and difficulties encountered in the previous one. A B-spline based approach is first proposed to model the melodic contours. Then to represent the melodic space of a speaker, a HMM based approach is introduced. To finish, a prosody transformation methodology using non-parallel corpora based on a speaker adaptation technique is derived. The results we obtain tend to show that it is necessary to model the evolution of the melody and to drive the transformation system by using morpho-syntactic information.Les travaux de cette thèse se situent dans le cadre de la transformation de la prosodie en se focalisant sur la fréquence fondamentale, F0, facteur jugé proéminent dans le traitement de la prosodie. En particulier, nous nous intéressons aux différentes étapes nécessaires à la construction d'un tel système : la stylisation, la classification et la transformation des contours mélodiques. Pour chaque étape, nous proposons une méthodologie qui tient compte des problèmes qui se sont posés à l'étape précédente. Tout d'abord, un modèle B-spline est proposé pour la stylisation des contours mélodiques. Ensuite, pour représenter l'espace mélodique du locuteur, une approche par modèles de Markov est introduite. Enfin, une méthodologie de transformation de la prosodie à partir de corpus non parallèles par une technique d'adaptation au locuteur est présentée. Les résultats obtenus tendent à montrer qu'il est nécessaire de traiter la dynamique du F0 et de piloter la transformation par des informations d'ordre morphosyntaxique
    • …
    corecore