Search CORE

334 research outputs found

Expansion de la représentation succincte des générateurs minimaux

Author: Abbas Hafida
Publication venue
Publication date: 01/03/2013
Field of study

L'évolution rapide des techniques de génération et de stockage de données a permis à de nombreux organismes la création de bases de données volumineuses, pour stocker l'information nécessaire à leurs activités. Ces bases de données qui deviennent de plus en plus importantes sont réellement peu exploitées, alors qu'elles cachent des connaissances potentiellement utiles pour l'organisation. L'extraction de ces informations enfouies dans ces masses de données est traitée par la fouille de données ("Data Mining"). Ce projet de mémoire traite plus particulièrement le problème d'extraction des informations sous forme de règles d'associations. Le problème de la pertinence et de l'utilité des règles extraites est un problème majeur de l'extraction des règles d'associations. Ce problème est lié au nombre important de règles extraites et à la présence d'une forte proportion de règles redondantes. Nombreuses techniques de réduction de la famille de règles ont été publiées. Dans ce contexte, les résultats obtenus par l'analyse formelle des concepts (AFC) ont permis de définir un sous-ensemble de l'ensemble des règles d'associations valides appelés bases informatives. La génération de ces bases informatives se fait par une extraction efficace des itemsets fermés fréquents et leurs générateurs minimaux associés. Les générateurs minimaux composent les prémisses minimales de ces règles alors que leurs fermetures composent les conclusions maximales de ces règles. Cependant un survol de la littérature montre que les générateurs minimaux composant l'antécédent et la conséquence de ces bases, contiennent encore de la redondance. Une représentation réduite de ces générateurs minimaux est utile pour révéler la relation d'équivalence parmi les générateurs minimaux. Une étude a été menée dernièrement dans ce sens dans laquelle l'algorithme DSFS_MINER a été proposé et validé, permettant l'extraction d'une représentation succincte sans perte d'informations des générateurs minimaux. Notre contribution dans ce projet réside d'une part, dans l'étude et l'expérimentation d'approches de représentations succinctes des générateurs minimaux, et d'autre part, dans la proposition d'un algorithme d'expansion permettant la dérivation de tous les générateurs minimaux afin de constituer la famille entière des générateurs minimaux du contexte d'extraction.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : Data Mining, Règles d'associations, Analyse formelle des concepts, Générateurs minimaux, Itemset fermés, Générateur minimal, Représentation succincte des générateurs minimaux

Archipel - Université du Québec à Montréal

Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets

Author: Boubekeur Fatiha
Publication venue: HAL CCSD
Publication date: 01/07/2008
Field of study

This thesis addresses two main problems in IR: automatic query weighting and document semantic indexing. Our global contribution consists on the definition of a theoretical flexible information retrieval (IR) model based on CP-Nets. The CP-Net formalism is used for the graphical representation of flexible queries expressing qualitative preferences and for automatic weighting of such queries. Furthermore, the CP-Net formalism is used as an indexing language in order to represent document representative concepts and related relations in a roughly compact way. Concepts are identified by projection on WordNet. Concept relations are discovered by means of semantic association rules. A query evaluation mechanism based on CP-Nets graph similarity is also proposed.Ce travail de thèse adresse deux principaux problèmes en recherche d'information : (1) la formalisation automatique des préférences utilisateur, (ou la pondération automatique de requêtes) et (2) l'indexation sémantique. Dans notre première contribution, nous proposons une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de préférences qualitatives est plus simple et plus intuitive que la formulation de poids numériques les quantifiant. Cependant, un système automatisé raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondération automatique des requêtes par quantification des CP-Nets correspondants par des valeurs d'utilité. Cette quantification conduit à un UCP-Net qui correspond à une requête booléenne pondérée. Une utilisation des CP-Nets est également proposée pour la représentation des documents dans la perspective d'une évaluation flexible des requêtes ainsi pondéreés. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basée sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de représenter les concepts et les relations conditionnelles entre eux d'une manière relativement compacte. Les noeuds du CP-Net sont les concepts représentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts résultants forment les noeuds du CP-Net. D'autre part, nous proposons d'étendre et d'utiliser la technique de règles d'association afin de découvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mécanisme d'évaluation des requêtes basé sur l'appariement de graphes (les CP-Nets document et requête en l'occurrence)

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Génération des règles d'association : treillis de concepts denses

Author: Boulanger Alain
Publication venue
Publication date: 01/01/2009
Field of study

La fouille de données est l'extraction non triviale d'informations implicites, inconnues et utiles à partir des données (Piatetsky-Shapiro & Frawley, 1991). Plus récemment, la notion de systèmes de gestion de base de données inductive (SGBDI) propose l'union de la base de données traditionnelle à la fouille de données et d'une base de motifs ou patrons de données. Ces derniers sont les agents fondamentaux dans les SGBDI. Dans ce mémoire le motif examiné est le concept formel. Cependant, pour un ensemble de données (nommé contexte formel dans l'AFC) de grande taille où les données sont fortement corrélées, l'extraction peut être difficile à cause des problèmes de combinatoire inhérente à cette structure. Il est vrai que l'extraction de la collection des concepts formels fréquents, donc un iceberg plutôt qu'un treillis, est une solution. Cependant, d'une part, pour un seuil de fréquence trop faible, l'extraction des concepts formels fréquents peut demeurer difficile et la combinatoire de l'extraction demeure. D'autre part, les utilisateurs pourraient préférer conserver le treillis mais appliquer une certaine relaxation sur le formalisme des concepts formels. Cette relaxation se ferait en acceptant des exceptions dans les concepts dont les seuils sur les exceptions seraient choisis par l'utilisateur. En dernier lieu, le contexte formel pourrait bien avoir des erreurs dans ses transactions. Ces erreurs pourraient donc être la cause du nombre indu de concepts formels extraits. Une relaxation au niveau de l'extraction des concepts formels pourrait être une solution à ce problème. Notre contribution se situe au niveau d'un motif en particulier et de son mode d'extraction. Ce mémoire propose donc un concept tolérant des exceptions bornées par des seuils, soit les concepts denses et explore la possibilité d'extraire un tel motif par l'algorithme incrémentaI par cardinalité. En dépit du fait que le concept ne soit plus formel mais tolérant des exceptions, les principales notions de l'analyse formelle de concepts, (e.g. la relation de précédence, le treillis) sont fortement désirées. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Concepts formels, Concepts denses, Treillis de concepts formels, Analyse formelle de concepts, Concepts tolérant des exceptions, Algorithme d'extraction de concepts, Représentation condensée

Archipel - Université du Québec à Montréal

Optimisation du système de détection d'intrusion (IDS) dans le réseau véhiculaire V2G à l'aide des règles d'association maximales et de la régression logistique

Author: Mizonza Bantiko Dieudonné
Publication venue
Publication date: 01/01/2022
Field of study

Dépôt numérique de UQTR

La lecture assistée par ordinateur : une étude exploratoire

Author: Benrhaiem Morched
Publication venue
Publication date: 01/01/2015
Field of study

Dépôt numérique de UQTR

Analyse comparative d'indices d'implication discriminants fondés sur une échelle de probabilité.

Author: Guillaume Sylvie
Lerman Israël-César,
Publication venue: HAL CCSD
Publication date: 01/01/2009
Field of study

Historiquement, l'élaboration d'une échelle de probabilité pour éprouver l'existence d'un lien entre deux attributs descriptifs a été établie dans l'optique des tests d'hypothèses statistiques. L'adaptation au problème de la comparaison mutuelle entre plusieurs attributs nécessite une normalisation préalable ; laquelle est indispensable pour que l'échelle de probabilité reste discriminante pour un nombre n d'observations augmentant de façon considérable (n pouvant atteindre plusieurs millions). C'est le cas de l'association symétrique traduisant un “degré d'équivalence” entre attributs qui s'est présenté en premier (méthode de l' Analyse de la Vraisemblance des Liens Relationnels). Plus récemment, il s'est agi du cas de l'association dissymétrique traduisant un “degré d'implication” entre attributs, définissant ainsi ce qu'on appelle une “règle d'association”. Ce dernier cas sera étudié de façon plus accentuée ici. Différentes techniques de normalisation ont été proposées. La première est contextuelle par rapport à un ensemble potentiel de règles d'association. Elle conduit à l'Intensité d'Implication Contextuelle (IIC). La seconde raisonne par rapport à un échantillon dont la taille serait réduite à 100 et propose une Valeur Test notée VT100 pour ce niveau considéré comme symbolique de la taille d'un échantillon. Nous découvrirons différentes variantes pour une telle réduction. La troisième technique, conduisant `a l'Intensité d'Implication Entropique (IIE), mélange - par une opération de moyenne géométrique - un indice probabiliste non normalisé et un indice d'inclusion faisant appel à l'entropie de Shannon. L'objet de ce travail est l'analyse théorique et expérimentale de ces différentes approches par rapport `a différents modèles de croissance du nombre n d'observations. Une vision nouvelle et des résultats originaux seront proposés. L'analyse comparative et expérimentale utilisera la base de données bien connue “Wages”

HAL-CentraleSupelec

HAL Clermont Université

INRIA a CCSD electronic archive server

HAL-Rennes 1

Intoxication à l'alcool et contraintes psychosociales au travail : l'impact des conditions de travail stressantes et aliénantes

Author: Quesnel Vallée Amélie
Publication venue
Publication date: 01/01/1999
Field of study

Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal

Dépôt Institutionnel Numérique

Analyse en composantes indépendantes pour la caractérisation d'images hyperspectrales en télédétection

Author: Viron Cyril
Publication venue: École de technologie supérieure
Publication date
Field of study

En réponse partielle aux problèmes écologiques actuels, l'imagerie hyperspectrale ambitionne de connaître la composition locale d'une parcelle agraire en recherchant sa signature spectrale car celle-ci caractérise de façon unique un élément. Cependant, cette signature s'avère être un mélange pondéré de celles des éléments s'y trouvant. Afin de récupérer leurs signatures à partir du mélange, l'analyse en composantes indépendantes (ACI) est légitimement utilisée! Malgré le nombre restreint de travaux sur l'ACI en hyperspectral, devant sa popularité en traitement de signal, nous l'avons appliquée en utilisant l'algorithme FastICA, méthode la plus récente et efficace, d'abord sur des images et des signaux classiques (pour constater son efficacité), puis sur une base de signatures étalons. Le but est de comparer les composantes indépendantes à une base référencée pour former les paires les plus ressemblantes. Cependant, du fait des ambiguïtés et d'absence de critère de validation de l'ACI, il est impossible de prédire ni vérifier les paires. Pour y remédier, notre protocole expérimental est divisé entre comparaisons «théorique» et «pratique», basées sur des niveaux de confiance, permettant de former les paires considérées justes d'une part (base partielle) et expérimentales d'autre part (base totale) qui, comparées, déterminent le succès d'association. Les résultats, assujettis à deux seuils de confiance relatifs, sont excellents pour les signaux, bons pour les images mais globalement médiocres pour les signatures. La raison principale est un effet beaucoup plus visible en ce cas de la subjectivité de la prise de décision et de la décorrélation inévitable entraînant déformations et trop grande dépendance à la base. Cependant, les résultats deviennent très satisfaisants pour une sélection adéquate (cultures, arbres et minéraux). Pour tenter encore de les améliorer, des recommandations constructives ont été proposées, afin de poser le deuxième échelon de ce travail, qui se voulait novateur

Espace ÉTS

Méthode d'analyse de données pour le diagnostic a posteriori de défauts de production - Application au secteur de la microélectronique

Author: Yahyaoui Hasna
Publication venue: HAL CCSD
Publication date: 21/10/2015
Field of study

Controlling the performance of a manufacturing site and the rapid identification of quality loss causes remain a daily challenge for manufacturers, who face continuing competition. In this context, this thesis aims to provide an analytical approach for the rapid identification of defect origins, by exploring data available thanks to different quality control systems, such FDC, metrology, parametric tests PT and the Electrical Wafer Sorting EWS. The proposed method, named CLARIF, combines three complementary data mining techniques namely clustering, association rules and decision trees induction. This method is based on unsupervised generation of a set of potentially problematic production modes, which are characterized by specific manufacturing conditions. Thus, we provide an analysis which descends to the level of equipment operating parameters. The originality of this method consists on (1) a pre-treatment step to identify spatial patterns from quality control data, (2) an unsupervised generation of manufacturing modes candidates to explain the quality loss case. We optimize the generation of association rules through the proposed ARCI algorithm, which is an adaptation of the famous association rules mining algorithm, APRIORI to integrate the constraints specific to our issue and filtering quality indicators, namely confidence, contribution and complexity, in order to identify the most interesting rules. Finally, we defined a Knowledge Discovery from Databases process, enabling to guide the user in applying CLARIF to explain both local and global quality loss problems.La maîtrise du rendement d’un site de fabrication et l’identification rapide des causes de perte de qualité restent un défi quotidien pour les industriels, qui font face à une concurrence continue. Dans ce cadre, cette thèse a pour ambition de proposer une démarche d’analyse permettant l’identification rapide de l’origine d’un défaut, à travers l’exploitation d’un maximum des données disponibles grâce aux outils de contrôle qualité, tel que la FDC, la métrologie, les tests paramétriques PT, et le tri électriques EWS. Nous avons proposé une nouvelle méthode hybride de fouille de données, nommée CLARIF, qui combine trois méthodes de fouille de données à savoir, le clustering, les règles d’association et l’induction d’arbres de décision. Cette méthode se base sur la génération non supervisée d’un ensemble de modes de production potentiellement problématiques, qui sont caractérisés par des conditions particulières de production. Elle permet, donc, une analyse qui descend au niveau des paramètres de fonctionnement des équipements. L’originalité de la méthode consiste dans (1) une étape de prétraitement pour l’identification de motifs spatiaux à partir des données de contrôle, (2) la génération non supervisée de modes de production candidats pour expliquer le défaut. Nous optimisons la génération des règles d’association à travers la proposition de l’algorithme ARCI, qui est une adaptation du célèbre algorithme de fouille de règles d’association, APRIORI, afin de permettre d’intégrer les contraintes spécifiques à la problématique de CLARIF, et des indicateurs de qualité de filtrage des règles à identifier, à savoir la confiance, la contribution et la complexité. Finalement, nous avons défini un processus d’Extraction de Connaissances à partir des Données, ECD permettant de guider l’utilisateur dans l’application de CLARIF pour expliquer une perte de qualité locale ou globale

Thèses en Ligne

HAL-EMSE

Modélisation des informations et extraction des connaissances pour la gestion des crises

Author: Traoré Boukaye Boubacar
Publication venue
Publication date: 23/11/2018
Field of study

L’essor des technologies émergentes de collecte de données offre des opportunités nouvelles pour diverses disciplines scientifiques. L’informatique est appelé à jouer sa partition par le développement de techniques d’analyse intelligente des données pour apporter un certain éclairage dans la résolution de problèmes complexes. Le contenu de ce mémoire de recherche doctorale s’inscrit dans la problématique générale de l’extraction des connaissances à partir de données par les techniques informatiques. Ce travail de thèse s’intéresse dans un premier temps à la problématique de la modélisation des informations pour la gestion de crise nécessitant des prises en charge médicale, à l’aide d’une collaboration des applications informatiques de la télémédecine. Nous avons proposé une méthodologie de gestion d’une crise à distance en trois étapes. Elle est principalement axée sur la collaboration des actes de télémédecine (Téléconsultation, Téléexpertise, Télésurveillance, Téléassistance, et la Régulation médicale), de la phase de transport des victimes à la phase de traitements médicaux dans et/ou entre les structures de santé. Cette méthodologie permet non seulement de mettre à la disposition des gestionnaires de crise un système d'aide à la décision informatisé, mais aussi de minimiser les coûts financiers et réduire le temps de réponse des secours à travers une gestion organisée de la crise. Dans un deuxième temps, nous avons étudié en détail l’extraction de la connaissance à l’aide des techniques de data mining sur les images satellitaires afin de découvrir des zones à risques d’épidémie, dont l’étude de cas a porté sur l’épidémie de choléra dans la région de Mopti, au Mali. Ainsi, une méthodologie de six phases a été présentée en mettant en relation les données collectées sur le terrain et les données satellitaires pour prévenir et surveiller plus efficacement les crises d’épidémie. Les résultats nous indiquent qu’à 66% le taux de contamination est lié au fleuve Niger, en plus de certains facteurs sociétaux comme le jet des ordures en période hivernale. Par conséquent, nous avons pu établir le lien entre l’épidémie et son environnement d’évolution, ce qui permettra aux décideurs de mieux gérer une éventuelle crise d’épidémie. Et enfin, en dernier lieu, pendant une situation de crise d’épidémie, nous nous sommes focalisés sur l’analyse médicale, plus précisément par l’usage des microscopes portables afin de confirmer ou non la présence des agents pathogènes dans les prélèvements des cas suspects. Pour ce faire, nous avons présenté une méthodologie de six phases, basée sur les techniques du deep learning notamment l’une des techniques des réseaux de neurones convolutifs, l’apprentissage par transfert qui tirent parti des systèmes complexes avec des invariants permettant la modélisation et l'analyse efficace de grandes quantités de données. Le principe consiste à entraîner les réseaux de neurones convolutifs à la classification automatique d’images des agents pathogènes. Par exemple dans notre cas d’étude, cette approche a été utilisée pour distinguer une image microscopique contenant le virus de l’épidémie de choléra appelé Vibrio cholerae d’une image microscopique contenant le virus de l’épidémie du paludisme appelé Plasmodium. Ceci nous a permis d’obtenir un taux de réussite de classification de 99%. Par la suite, l’idée est de déployer cette solution de reconnaissance d’images d’agents pathogènes dans les microscopes portables intelligents pour les analyses de routine et applications de diagnostic médical dans la gestion de situations de crise. Ce qui permettra de combler le manque de spécialistes en manipulation microscopique et un gain de temps considérable dans l’analyse des prélèvements avec des mesures précises favorisant l’accomplissement du travail dans de meilleures conditions

Thèses en Ligne

Open Archive Toulouse Archive Ouverte