334 research outputs found

    Expansion de la représentation succincte des générateurs minimaux

    Get PDF
    L'Ă©volution rapide des techniques de gĂ©nĂ©ration et de stockage de donnĂ©es a permis Ă  de nombreux organismes la crĂ©ation de bases de donnĂ©es volumineuses, pour stocker l'information nĂ©cessaire Ă  leurs activitĂ©s. Ces bases de donnĂ©es qui deviennent de plus en plus importantes sont rĂ©ellement peu exploitĂ©es, alors qu'elles cachent des connaissances potentiellement utiles pour l'organisation. L'extraction de ces informations enfouies dans ces masses de donnĂ©es est traitĂ©e par la fouille de donnĂ©es ("Data Mining"). Ce projet de mĂ©moire traite plus particuliĂšrement le problĂšme d'extraction des informations sous forme de rĂšgles d'associations. Le problĂšme de la pertinence et de l'utilitĂ© des rĂšgles extraites est un problĂšme majeur de l'extraction des rĂšgles d'associations. Ce problĂšme est liĂ© au nombre important de rĂšgles extraites et Ă  la prĂ©sence d'une forte proportion de rĂšgles redondantes. Nombreuses techniques de rĂ©duction de la famille de rĂšgles ont Ă©tĂ© publiĂ©es. Dans ce contexte, les rĂ©sultats obtenus par l'analyse formelle des concepts (AFC) ont permis de dĂ©finir un sous-ensemble de l'ensemble des rĂšgles d'associations valides appelĂ©s bases informatives. La gĂ©nĂ©ration de ces bases informatives se fait par une extraction efficace des itemsets fermĂ©s frĂ©quents et leurs gĂ©nĂ©rateurs minimaux associĂ©s. Les gĂ©nĂ©rateurs minimaux composent les prĂ©misses minimales de ces rĂšgles alors que leurs fermetures composent les conclusions maximales de ces rĂšgles. Cependant un survol de la littĂ©rature montre que les gĂ©nĂ©rateurs minimaux composant l'antĂ©cĂ©dent et la consĂ©quence de ces bases, contiennent encore de la redondance. Une reprĂ©sentation rĂ©duite de ces gĂ©nĂ©rateurs minimaux est utile pour rĂ©vĂ©ler la relation d'Ă©quivalence parmi les gĂ©nĂ©rateurs minimaux. Une Ă©tude a Ă©tĂ© menĂ©e derniĂšrement dans ce sens dans laquelle l'algorithme DSFS_MINER a Ă©tĂ© proposĂ© et validĂ©, permettant l'extraction d'une reprĂ©sentation succincte sans perte d'informations des gĂ©nĂ©rateurs minimaux. Notre contribution dans ce projet rĂ©side d'une part, dans l'Ă©tude et l'expĂ©rimentation d'approches de reprĂ©sentations succinctes des gĂ©nĂ©rateurs minimaux, et d'autre part, dans la proposition d'un algorithme d'expansion permettant la dĂ©rivation de tous les gĂ©nĂ©rateurs minimaux afin de constituer la famille entiĂšre des gĂ©nĂ©rateurs minimaux du contexte d'extraction.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : Data Mining, RĂšgles d'associations, Analyse formelle des concepts, GĂ©nĂ©rateurs minimaux, Itemset fermĂ©s, GĂ©nĂ©rateur minimal, ReprĂ©sentation succincte des gĂ©nĂ©rateurs minimaux

    Contribution à la définition de modÚles de recherche d'information flexibles basés sur les CP-Nets

    Get PDF
    This thesis addresses two main problems in IR: automatic query weighting and document semantic indexing. Our global contribution consists on the definition of a theoretical flexible information retrieval (IR) model based on CP-Nets. The CP-Net formalism is used for the graphical representation of flexible queries expressing qualitative preferences and for automatic weighting of such queries. Furthermore, the CP-Net formalism is used as an indexing language in order to represent document representative concepts and related relations in a roughly compact way. Concepts are identified by projection on WordNet. Concept relations are discovered by means of semantic association rules. A query evaluation mechanism based on CP-Nets graph similarity is also proposed.Ce travail de thĂšse adresse deux principaux problĂšmes en recherche d'information : (1) la formalisation automatique des prĂ©fĂ©rences utilisateur, (ou la pondĂ©ration automatique de requĂȘtes) et (2) l'indexation sĂ©mantique. Dans notre premiĂšre contribution, nous proposons une approche de recherche d'information (RI) flexible fondĂ©e sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisĂ© d'une part, pour la reprĂ©sentation graphique de requĂȘtes flexibles exprimant des prĂ©fĂ©rences qualitatives et d'autre part pour l'Ă©valuation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de prĂ©fĂ©rences qualitatives est plus simple et plus intuitive que la formulation de poids numĂ©riques les quantifiant. Cependant, un systĂšme automatisĂ© raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondĂ©ration automatique des requĂȘtes par quantification des CP-Nets correspondants par des valeurs d'utilitĂ©. Cette quantification conduit Ă  un UCP-Net qui correspond Ă  une requĂȘte boolĂ©enne pondĂ©rĂ©e. Une utilisation des CP-Nets est Ă©galement proposĂ©e pour la reprĂ©sentation des documents dans la perspective d'une Ă©valuation flexible des requĂȘtes ainsi pondĂ©reĂ©s. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basĂ©e sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de reprĂ©senter les concepts et les relations conditionnelles entre eux d'une maniĂšre relativement compacte. Les noeuds du CP-Net sont les concepts reprĂ©sentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts rĂ©sultants forment les noeuds du CP-Net. D'autre part, nous proposons d'Ă©tendre et d'utiliser la technique de rĂšgles d'association afin de dĂ©couvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mĂ©canisme d'Ă©valuation des requĂȘtes basĂ© sur l'appariement de graphes (les CP-Nets document et requĂȘte en l'occurrence)

    Génération des rÚgles d'association : treillis de concepts denses

    Get PDF
    La fouille de donnĂ©es est l'extraction non triviale d'informations implicites, inconnues et utiles Ă  partir des donnĂ©es (Piatetsky-Shapiro & Frawley, 1991). Plus rĂ©cemment, la notion de systĂšmes de gestion de base de donnĂ©es inductive (SGBDI) propose l'union de la base de donnĂ©es traditionnelle Ă  la fouille de donnĂ©es et d'une base de motifs ou patrons de donnĂ©es. Ces derniers sont les agents fondamentaux dans les SGBDI. Dans ce mĂ©moire le motif examinĂ© est le concept formel. Cependant, pour un ensemble de donnĂ©es (nommĂ© contexte formel dans l'AFC) de grande taille oĂč les donnĂ©es sont fortement corrĂ©lĂ©es, l'extraction peut ĂȘtre difficile Ă  cause des problĂšmes de combinatoire inhĂ©rente Ă  cette structure. Il est vrai que l'extraction de la collection des concepts formels frĂ©quents, donc un iceberg plutĂŽt qu'un treillis, est une solution. Cependant, d'une part, pour un seuil de frĂ©quence trop faible, l'extraction des concepts formels frĂ©quents peut demeurer difficile et la combinatoire de l'extraction demeure. D'autre part, les utilisateurs pourraient prĂ©fĂ©rer conserver le treillis mais appliquer une certaine relaxation sur le formalisme des concepts formels. Cette relaxation se ferait en acceptant des exceptions dans les concepts dont les seuils sur les exceptions seraient choisis par l'utilisateur. En dernier lieu, le contexte formel pourrait bien avoir des erreurs dans ses transactions. Ces erreurs pourraient donc ĂȘtre la cause du nombre indu de concepts formels extraits. Une relaxation au niveau de l'extraction des concepts formels pourrait ĂȘtre une solution Ă  ce problĂšme. Notre contribution se situe au niveau d'un motif en particulier et de son mode d'extraction. Ce mĂ©moire propose donc un concept tolĂ©rant des exceptions bornĂ©es par des seuils, soit les concepts denses et explore la possibilitĂ© d'extraire un tel motif par l'algorithme incrĂ©mentaI par cardinalitĂ©. En dĂ©pit du fait que le concept ne soit plus formel mais tolĂ©rant des exceptions, les principales notions de l'analyse formelle de concepts, (e.g. la relation de prĂ©cĂ©dence, le treillis) sont fortement dĂ©sirĂ©es. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Concepts formels, Concepts denses, Treillis de concepts formels, Analyse formelle de concepts, Concepts tolĂ©rant des exceptions, Algorithme d'extraction de concepts, ReprĂ©sentation condensĂ©e

    Analyse comparative d'indices d'implication discriminants fondés sur une échelle de probabilité.

    Get PDF
    Historiquement, l'Ă©laboration d'une Ă©chelle de probabilitĂ© pour Ă©prouver l'existence d'un lien entre deux attributs descriptifs a Ă©tĂ© Ă©tablie dans l'optique des tests d'hypothĂšses statistiques. L'adaptation au problĂšme de la comparaison mutuelle entre plusieurs attributs nĂ©cessite une normalisation prĂ©alable ; laquelle est indispensable pour que l'Ă©chelle de probabilitĂ© reste discriminante pour un nombre n d'observations augmentant de façon considĂ©rable (n pouvant atteindre plusieurs millions). C'est le cas de l'association symĂ©trique traduisant un “degrĂ© d'Ă©quivalence” entre attributs qui s'est prĂ©sentĂ© en premier (mĂ©thode de l' Analyse de la Vraisemblance des Liens Relationnels). Plus rĂ©cemment, il s'est agi du cas de l'association dissymĂ©trique traduisant un “degrĂ© d'implication” entre attributs, dĂ©finissant ainsi ce qu'on appelle une “rĂšgle d'association”. Ce dernier cas sera Ă©tudiĂ© de façon plus accentuĂ©e ici. DiffĂ©rentes techniques de normalisation ont Ă©tĂ© proposĂ©es. La premiĂšre est contextuelle par rapport Ă  un ensemble potentiel de rĂšgles d'association. Elle conduit Ă  l'IntensitĂ© d'Implication Contextuelle (IIC). La seconde raisonne par rapport Ă  un Ă©chantillon dont la taille serait rĂ©duite Ă  100 et propose une Valeur Test notĂ©e VT100 pour ce niveau considĂ©rĂ© comme symbolique de la taille d'un Ă©chantillon. Nous dĂ©couvrirons diffĂ©rentes variantes pour une telle rĂ©duction. La troisiĂšme technique, conduisant `a l'IntensitĂ© d'Implication Entropique (IIE), mĂ©lange - par une opĂ©ration de moyenne gĂ©omĂ©trique - un indice probabiliste non normalisĂ© et un indice d'inclusion faisant appel Ă  l'entropie de Shannon. L'objet de ce travail est l'analyse thĂ©orique et expĂ©rimentale de ces diffĂ©rentes approches par rapport `a diffĂ©rents modĂšles de croissance du nombre n d'observations. Une vision nouvelle et des rĂ©sultats originaux seront proposĂ©s. L'analyse comparative et expĂ©rimentale utilisera la base de donnĂ©es bien connue “Wages”

    Intoxication à l'alcool et contraintes psychosociales au travail : l'impact des conditions de travail stressantes et aliénantes

    Full text link
    Mémoire numérisé par la Direction des bibliothÚques de l'Université de Montréal

    Analyse en composantes indépendantes pour la caractérisation d'images hyperspectrales en télédétection

    Get PDF
    En rĂ©ponse partielle aux problĂšmes Ă©cologiques actuels, l'imagerie hyperspectrale ambitionne de connaĂźtre la composition locale d'une parcelle agraire en recherchant sa signature spectrale car celle-ci caractĂ©rise de façon unique un Ă©lĂ©ment. Cependant, cette signature s'avĂšre ĂȘtre un mĂ©lange pondĂ©rĂ© de celles des Ă©lĂ©ments s'y trouvant. Afin de rĂ©cupĂ©rer leurs signatures Ă  partir du mĂ©lange, l'analyse en composantes indĂ©pendantes (ACI) est lĂ©gitimement utilisĂ©e! MalgrĂ© le nombre restreint de travaux sur l'ACI en hyperspectral, devant sa popularitĂ© en traitement de signal, nous l'avons appliquĂ©e en utilisant l'algorithme FastICA, mĂ©thode la plus rĂ©cente et efficace, d'abord sur des images et des signaux classiques (pour constater son efficacitĂ©), puis sur une base de signatures Ă©talons. Le but est de comparer les composantes indĂ©pendantes Ă  une base rĂ©fĂ©rencĂ©e pour former les paires les plus ressemblantes. Cependant, du fait des ambiguĂŻtĂ©s et d'absence de critĂšre de validation de l'ACI, il est impossible de prĂ©dire ni vĂ©rifier les paires. Pour y remĂ©dier, notre protocole expĂ©rimental est divisĂ© entre comparaisons «thĂ©orique» et «pratique», basĂ©es sur des niveaux de confiance, permettant de former les paires considĂ©rĂ©es justes d'une part (base partielle) et expĂ©rimentales d'autre part (base totale) qui, comparĂ©es, dĂ©terminent le succĂšs d'association. Les rĂ©sultats, assujettis Ă  deux seuils de confiance relatifs, sont excellents pour les signaux, bons pour les images mais globalement mĂ©diocres pour les signatures. La raison principale est un effet beaucoup plus visible en ce cas de la subjectivitĂ© de la prise de dĂ©cision et de la dĂ©corrĂ©lation inĂ©vitable entraĂźnant dĂ©formations et trop grande dĂ©pendance Ă  la base. Cependant, les rĂ©sultats deviennent trĂšs satisfaisants pour une sĂ©lection adĂ©quate (cultures, arbres et minĂ©raux). Pour tenter encore de les amĂ©liorer, des recommandations constructives ont Ă©tĂ© proposĂ©es, afin de poser le deuxiĂšme Ă©chelon de ce travail, qui se voulait novateur

    Méthode d'analyse de données pour le diagnostic a posteriori de défauts de production - Application au secteur de la microélectronique

    Get PDF
    Controlling the performance of a manufacturing site and the rapid identification of quality loss causes remain a daily challenge for manufacturers, who face continuing competition. In this context, this thesis aims to provide an analytical approach for the rapid identification of defect origins, by exploring data available thanks to different quality control systems, such FDC, metrology, parametric tests PT and the Electrical Wafer Sorting EWS. The proposed method, named CLARIF, combines three complementary data mining techniques namely clustering, association rules and decision trees induction. This method is based on unsupervised generation of a set of potentially problematic production modes, which are characterized by specific manufacturing conditions. Thus, we provide an analysis which descends to the level of equipment operating parameters. The originality of this method consists on (1) a pre-treatment step to identify spatial patterns from quality control data, (2) an unsupervised generation of manufacturing modes candidates to explain the quality loss case. We optimize the generation of association rules through the proposed ARCI algorithm, which is an adaptation of the famous association rules mining algorithm, APRIORI to integrate the constraints specific to our issue and filtering quality indicators, namely confidence, contribution and complexity, in order to identify the most interesting rules. Finally, we defined a Knowledge Discovery from Databases process, enabling to guide the user in applying CLARIF to explain both local and global quality loss problems.La maĂźtrise du rendement d’un site de fabrication et l’identification rapide des causes de perte de qualitĂ© restent un dĂ©fi quotidien pour les industriels, qui font face Ă  une concurrence continue. Dans ce cadre, cette thĂšse a pour ambition de proposer une dĂ©marche d’analyse permettant l’identification rapide de l’origine d’un dĂ©faut, Ă  travers l’exploitation d’un maximum des donnĂ©es disponibles grĂące aux outils de contrĂŽle qualitĂ©, tel que la FDC, la mĂ©trologie, les tests paramĂ©triques PT, et le tri Ă©lectriques EWS. Nous avons proposĂ© une nouvelle mĂ©thode hybride de fouille de donnĂ©es, nommĂ©e CLARIF, qui combine trois mĂ©thodes de fouille de donnĂ©es Ă  savoir, le clustering, les rĂšgles d’association et l’induction d’arbres de dĂ©cision. Cette mĂ©thode se base sur la gĂ©nĂ©ration non supervisĂ©e d’un ensemble de modes de production potentiellement problĂ©matiques, qui sont caractĂ©risĂ©s par des conditions particuliĂšres de production. Elle permet, donc, une analyse qui descend au niveau des paramĂštres de fonctionnement des Ă©quipements. L’originalitĂ© de la mĂ©thode consiste dans (1) une Ă©tape de prĂ©traitement pour l’identification de motifs spatiaux Ă  partir des donnĂ©es de contrĂŽle, (2) la gĂ©nĂ©ration non supervisĂ©e de modes de production candidats pour expliquer le dĂ©faut. Nous optimisons la gĂ©nĂ©ration des rĂšgles d’association Ă  travers la proposition de l’algorithme ARCI, qui est une adaptation du cĂ©lĂšbre algorithme de fouille de rĂšgles d’association, APRIORI, afin de permettre d’intĂ©grer les contraintes spĂ©cifiques Ă  la problĂ©matique de CLARIF, et des indicateurs de qualitĂ© de filtrage des rĂšgles Ă  identifier, Ă  savoir la confiance, la contribution et la complexitĂ©. Finalement, nous avons dĂ©fini un processus d’Extraction de Connaissances Ă  partir des DonnĂ©es, ECD permettant de guider l’utilisateur dans l’application de CLARIF pour expliquer une perte de qualitĂ© locale ou globale

    Modélisation des informations et extraction des connaissances pour la gestion des crises

    Get PDF
    L’essor des technologies Ă©mergentes de collecte de donnĂ©es offre des opportunitĂ©s nouvelles pour diverses disciplines scientifiques. L’informatique est appelĂ© Ă  jouer sa partition par le dĂ©veloppement de techniques d’analyse intelligente des donnĂ©es pour apporter un certain Ă©clairage dans la rĂ©solution de problĂšmes complexes. Le contenu de ce mĂ©moire de recherche doctorale s’inscrit dans la problĂ©matique gĂ©nĂ©rale de l’extraction des connaissances Ă  partir de donnĂ©es par les techniques informatiques. Ce travail de thĂšse s’intĂ©resse dans un premier temps Ă  la problĂ©matique de la modĂ©lisation des informations pour la gestion de crise nĂ©cessitant des prises en charge mĂ©dicale, Ă  l’aide d’une collaboration des applications informatiques de la tĂ©lĂ©mĂ©decine. Nous avons proposĂ© une mĂ©thodologie de gestion d’une crise Ă  distance en trois Ă©tapes. Elle est principalement axĂ©e sur la collaboration des actes de tĂ©lĂ©mĂ©decine (TĂ©lĂ©consultation, TĂ©lĂ©expertise, TĂ©lĂ©surveillance, TĂ©lĂ©assistance, et la RĂ©gulation mĂ©dicale), de la phase de transport des victimes Ă  la phase de traitements mĂ©dicaux dans et/ou entre les structures de santĂ©. Cette mĂ©thodologie permet non seulement de mettre Ă  la disposition des gestionnaires de crise un systĂšme d'aide Ă  la dĂ©cision informatisĂ©, mais aussi de minimiser les coĂ»ts financiers et rĂ©duire le temps de rĂ©ponse des secours Ă  travers une gestion organisĂ©e de la crise. Dans un deuxiĂšme temps, nous avons Ă©tudiĂ© en dĂ©tail l’extraction de la connaissance Ă  l’aide des techniques de data mining sur les images satellitaires afin de dĂ©couvrir des zones Ă  risques d’épidĂ©mie, dont l’étude de cas a portĂ© sur l’épidĂ©mie de cholĂ©ra dans la rĂ©gion de Mopti, au Mali. Ainsi, une mĂ©thodologie de six phases a Ă©tĂ© prĂ©sentĂ©e en mettant en relation les donnĂ©es collectĂ©es sur le terrain et les donnĂ©es satellitaires pour prĂ©venir et surveiller plus efficacement les crises d’épidĂ©mie. Les rĂ©sultats nous indiquent qu’à 66% le taux de contamination est liĂ© au fleuve Niger, en plus de certains facteurs sociĂ©taux comme le jet des ordures en pĂ©riode hivernale. Par consĂ©quent, nous avons pu Ă©tablir le lien entre l’épidĂ©mie et son environnement d’évolution, ce qui permettra aux dĂ©cideurs de mieux gĂ©rer une Ă©ventuelle crise d’épidĂ©mie. Et enfin, en dernier lieu, pendant une situation de crise d’épidĂ©mie, nous nous sommes focalisĂ©s sur l’analyse mĂ©dicale, plus prĂ©cisĂ©ment par l’usage des microscopes portables afin de confirmer ou non la prĂ©sence des agents pathogĂšnes dans les prĂ©lĂšvements des cas suspects. Pour ce faire, nous avons prĂ©sentĂ© une mĂ©thodologie de six phases, basĂ©e sur les techniques du deep learning notamment l’une des techniques des rĂ©seaux de neurones convolutifs, l’apprentissage par transfert qui tirent parti des systĂšmes complexes avec des invariants permettant la modĂ©lisation et l'analyse efficace de grandes quantitĂ©s de donnĂ©es. Le principe consiste Ă  entraĂźner les rĂ©seaux de neurones convolutifs Ă  la classification automatique d’images des agents pathogĂšnes. Par exemple dans notre cas d’étude, cette approche a Ă©tĂ© utilisĂ©e pour distinguer une image microscopique contenant le virus de l’épidĂ©mie de cholĂ©ra appelĂ© Vibrio cholerae d’une image microscopique contenant le virus de l’épidĂ©mie du paludisme appelĂ© Plasmodium. Ceci nous a permis d’obtenir un taux de rĂ©ussite de classification de 99%. Par la suite, l’idĂ©e est de dĂ©ployer cette solution de reconnaissance d’images d’agents pathogĂšnes dans les microscopes portables intelligents pour les analyses de routine et applications de diagnostic mĂ©dical dans la gestion de situations de crise. Ce qui permettra de combler le manque de spĂ©cialistes en manipulation microscopique et un gain de temps considĂ©rable dans l’analyse des prĂ©lĂšvements avec des mesures prĂ©cises favorisant l’accomplissement du travail dans de meilleures conditions
    • 

    corecore