334 research outputs found
Expansion de la représentation succincte des générateurs minimaux
L'évolution rapide des techniques de génération et de stockage de données a permis à de nombreux organismes la création de bases de données volumineuses, pour stocker l'information nécessaire à leurs activités. Ces bases de données qui deviennent de plus en plus importantes sont réellement peu exploitées, alors qu'elles cachent des connaissances potentiellement utiles pour l'organisation. L'extraction de ces informations enfouies dans ces masses de données est traitée par la fouille de données ("Data Mining"). Ce projet de mémoire traite plus particuliÚrement le problÚme d'extraction des informations sous forme de rÚgles d'associations. Le problÚme de la pertinence et de l'utilité des rÚgles extraites est un problÚme majeur de l'extraction des rÚgles d'associations. Ce problÚme est lié au nombre important de rÚgles extraites et à la présence d'une forte proportion de rÚgles redondantes. Nombreuses techniques de réduction de la famille de rÚgles ont été publiées. Dans ce contexte, les résultats obtenus par l'analyse formelle des concepts (AFC) ont permis de définir un sous-ensemble de l'ensemble des rÚgles d'associations valides appelés bases informatives. La génération de ces bases informatives se fait par une extraction efficace des itemsets fermés fréquents et leurs générateurs minimaux associés. Les générateurs minimaux composent les prémisses minimales de ces rÚgles alors que leurs fermetures composent les conclusions maximales de ces rÚgles. Cependant un survol de la littérature montre que les générateurs minimaux composant l'antécédent et la conséquence de ces bases, contiennent encore de la redondance. Une représentation réduite de ces générateurs minimaux est utile pour révéler la relation d'équivalence parmi les générateurs minimaux. Une étude a été menée derniÚrement dans ce sens dans laquelle l'algorithme DSFS_MINER a été proposé et validé, permettant l'extraction d'une représentation succincte sans perte d'informations des générateurs minimaux. Notre contribution dans ce projet réside d'une part, dans l'étude et l'expérimentation d'approches de représentations succinctes des générateurs minimaux, et d'autre part, dans la proposition d'un algorithme d'expansion permettant la dérivation de tous les générateurs minimaux afin de constituer la famille entiÚre des générateurs minimaux du contexte d'extraction.\ud
______________________________________________________________________________ \ud
MOTS-CLĂS DE LâAUTEUR : Data Mining, RĂšgles d'associations, Analyse formelle des concepts, GĂ©nĂ©rateurs minimaux, Itemset fermĂ©s, GĂ©nĂ©rateur minimal, ReprĂ©sentation succincte des gĂ©nĂ©rateurs minimaux
Contribution à la définition de modÚles de recherche d'information flexibles basés sur les CP-Nets
This thesis addresses two main problems in IR: automatic query weighting and document semantic indexing. Our global contribution consists on the definition of a theoretical flexible information retrieval (IR) model based on CP-Nets. The CP-Net formalism is used for the graphical representation of flexible queries expressing qualitative preferences and for automatic weighting of such queries. Furthermore, the CP-Net formalism is used as an indexing language in order to represent document representative concepts and related relations in a roughly compact way. Concepts are identified by projection on WordNet. Concept relations are discovered by means of semantic association rules. A query evaluation mechanism based on CP-Nets graph similarity is also proposed.Ce travail de thĂšse adresse deux principaux problĂšmes en recherche d'information : (1) la formalisation automatique des prĂ©fĂ©rences utilisateur, (ou la pondĂ©ration automatique de requĂȘtes) et (2) l'indexation sĂ©mantique. Dans notre premiĂšre contribution, nous proposons une approche de recherche d'information (RI) flexible fondĂ©e sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisĂ© d'une part, pour la reprĂ©sentation graphique de requĂȘtes flexibles exprimant des prĂ©fĂ©rences qualitatives et d'autre part pour l'Ă©valuation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de prĂ©fĂ©rences qualitatives est plus simple et plus intuitive que la formulation de poids numĂ©riques les quantifiant. Cependant, un systĂšme automatisĂ© raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondĂ©ration automatique des requĂȘtes par quantification des CP-Nets correspondants par des valeurs d'utilitĂ©. Cette quantification conduit Ă un UCP-Net qui correspond Ă une requĂȘte boolĂ©enne pondĂ©rĂ©e. Une utilisation des CP-Nets est Ă©galement proposĂ©e pour la reprĂ©sentation des documents dans la perspective d'une Ă©valuation flexible des requĂȘtes ainsi pondĂ©reĂ©s. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basĂ©e sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de reprĂ©senter les concepts et les relations conditionnelles entre eux d'une maniĂšre relativement compacte. Les noeuds du CP-Net sont les concepts reprĂ©sentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts rĂ©sultants forment les noeuds du CP-Net. D'autre part, nous proposons d'Ă©tendre et d'utiliser la technique de rĂšgles d'association afin de dĂ©couvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mĂ©canisme d'Ă©valuation des requĂȘtes basĂ© sur l'appariement de graphes (les CP-Nets document et requĂȘte en l'occurrence)
Génération des rÚgles d'association : treillis de concepts denses
La fouille de donnĂ©es est l'extraction non triviale d'informations implicites, inconnues et utiles Ă partir des donnĂ©es (Piatetsky-Shapiro & Frawley, 1991). Plus rĂ©cemment, la notion de systĂšmes de gestion de base de donnĂ©es inductive (SGBDI) propose l'union de la base de donnĂ©es traditionnelle Ă la fouille de donnĂ©es et d'une base de motifs ou patrons de donnĂ©es. Ces derniers sont les agents fondamentaux dans les SGBDI. Dans ce mĂ©moire le motif examinĂ© est le concept formel. Cependant, pour un ensemble de donnĂ©es (nommĂ© contexte formel dans l'AFC) de grande taille oĂč les donnĂ©es sont fortement corrĂ©lĂ©es, l'extraction peut ĂȘtre difficile Ă cause des problĂšmes de combinatoire inhĂ©rente Ă cette structure. Il est vrai que l'extraction de la collection des concepts formels frĂ©quents, donc un iceberg plutĂŽt qu'un treillis, est une solution. Cependant, d'une part, pour un seuil de frĂ©quence trop faible, l'extraction des concepts formels frĂ©quents peut demeurer difficile et la combinatoire de l'extraction demeure. D'autre part, les utilisateurs pourraient prĂ©fĂ©rer conserver le treillis mais appliquer une certaine relaxation sur le formalisme des concepts formels. Cette relaxation se ferait en acceptant des exceptions dans les concepts dont les seuils sur les exceptions seraient choisis par l'utilisateur. En dernier lieu, le contexte formel pourrait bien avoir des erreurs dans ses transactions. Ces erreurs pourraient donc ĂȘtre la cause du nombre indu de concepts formels extraits. Une relaxation au niveau de l'extraction des concepts formels pourrait ĂȘtre une solution Ă ce problĂšme. Notre contribution se situe au niveau d'un motif en particulier et de son mode d'extraction. Ce mĂ©moire propose donc un concept tolĂ©rant des exceptions bornĂ©es par des seuils, soit les concepts denses et explore la possibilitĂ© d'extraire un tel motif par l'algorithme incrĂ©mentaI par cardinalitĂ©. En dĂ©pit du fait que le concept ne soit plus formel mais tolĂ©rant des exceptions, les principales notions de l'analyse formelle de concepts, (e.g. la relation de prĂ©cĂ©dence, le treillis) sont fortement dĂ©sirĂ©es. ______________________________________________________________________________ MOTS-CLĂS DE LâAUTEUR : Concepts formels, Concepts denses, Treillis de concepts formels, Analyse formelle de concepts, Concepts tolĂ©rant des exceptions, Algorithme d'extraction de concepts, ReprĂ©sentation condensĂ©e
Analyse comparative d'indices d'implication discriminants fondés sur une échelle de probabilité.
Historiquement, l'Ă©laboration d'une Ă©chelle de probabilitĂ© pour Ă©prouver l'existence d'un lien entre deux attributs descriptifs a Ă©tĂ© Ă©tablie dans l'optique des tests d'hypothĂšses statistiques. L'adaptation au problĂšme de la comparaison mutuelle entre plusieurs attributs nĂ©cessite une normalisation prĂ©alable ; laquelle est indispensable pour que l'Ă©chelle de probabilitĂ© reste discriminante pour un nombre n d'observations augmentant de façon considĂ©rable (n pouvant atteindre plusieurs millions). C'est le cas de l'association symĂ©trique traduisant un âdegrĂ© d'Ă©quivalenceâ entre attributs qui s'est prĂ©sentĂ© en premier (mĂ©thode de l' Analyse de la Vraisemblance des Liens Relationnels). Plus rĂ©cemment, il s'est agi du cas de l'association dissymĂ©trique traduisant un âdegrĂ© d'implicationâ entre attributs, dĂ©finissant ainsi ce qu'on appelle une ârĂšgle d'associationâ. Ce dernier cas sera Ă©tudiĂ© de façon plus accentuĂ©e ici. DiffĂ©rentes techniques de normalisation ont Ă©tĂ© proposĂ©es. La premiĂšre est contextuelle par rapport Ă un ensemble potentiel de rĂšgles d'association. Elle conduit Ă l'IntensitĂ© d'Implication Contextuelle (IIC). La seconde raisonne par rapport Ă un Ă©chantillon dont la taille serait rĂ©duite Ă 100 et propose une Valeur Test notĂ©e VT100 pour ce niveau considĂ©rĂ© comme symbolique de la taille d'un Ă©chantillon. Nous dĂ©couvrirons diffĂ©rentes variantes pour une telle rĂ©duction. La troisiĂšme technique, conduisant `a l'IntensitĂ© d'Implication Entropique (IIE), mĂ©lange - par une opĂ©ration de moyenne gĂ©omĂ©trique - un indice probabiliste non normalisĂ© et un indice d'inclusion faisant appel Ă l'entropie de Shannon. L'objet de ce travail est l'analyse thĂ©orique et expĂ©rimentale de ces diffĂ©rentes approches par rapport `a diffĂ©rents modĂšles de croissance du nombre n d'observations. Une vision nouvelle et des rĂ©sultats originaux seront proposĂ©s. L'analyse comparative et expĂ©rimentale utilisera la base de donnĂ©es bien connue âWagesâ
Intoxication à l'alcool et contraintes psychosociales au travail : l'impact des conditions de travail stressantes et aliénantes
Mémoire numérisé par la Direction des bibliothÚques de l'Université de Montréal
Analyse en composantes indépendantes pour la caractérisation d'images hyperspectrales en télédétection
En rĂ©ponse partielle aux problĂšmes Ă©cologiques actuels, l'imagerie hyperspectrale ambitionne de connaĂźtre la composition locale d'une parcelle agraire en recherchant sa signature spectrale car celle-ci caractĂ©rise de façon unique un Ă©lĂ©ment. Cependant, cette signature s'avĂšre ĂȘtre un mĂ©lange pondĂ©rĂ© de celles des Ă©lĂ©ments s'y trouvant. Afin de rĂ©cupĂ©rer leurs signatures Ă partir du mĂ©lange, l'analyse en composantes indĂ©pendantes (ACI) est lĂ©gitimement utilisĂ©e! MalgrĂ© le nombre restreint de travaux sur l'ACI en hyperspectral, devant sa popularitĂ© en traitement de signal, nous l'avons appliquĂ©e en utilisant l'algorithme FastICA, mĂ©thode la plus rĂ©cente et efficace, d'abord sur des images et des signaux classiques (pour constater son efficacitĂ©), puis sur une base de signatures Ă©talons. Le but est de comparer les composantes indĂ©pendantes Ă une base rĂ©fĂ©rencĂ©e pour former les paires les plus ressemblantes. Cependant, du fait des ambiguĂŻtĂ©s et d'absence de critĂšre de validation de l'ACI, il est impossible de prĂ©dire ni vĂ©rifier les paires. Pour y remĂ©dier, notre protocole expĂ©rimental est divisĂ© entre comparaisons «thĂ©orique» et «pratique», basĂ©es sur des niveaux de confiance, permettant de former les paires considĂ©rĂ©es justes d'une part (base partielle) et expĂ©rimentales d'autre part (base totale) qui, comparĂ©es, dĂ©terminent le succĂšs d'association. Les rĂ©sultats, assujettis Ă deux seuils de confiance relatifs, sont excellents pour les signaux, bons pour les images mais globalement mĂ©diocres pour les signatures. La raison principale est un effet beaucoup plus visible en ce cas de la subjectivitĂ© de la prise de dĂ©cision et de la dĂ©corrĂ©lation inĂ©vitable entraĂźnant dĂ©formations et trop grande dĂ©pendance Ă la base. Cependant, les rĂ©sultats deviennent trĂšs satisfaisants pour une sĂ©lection adĂ©quate (cultures, arbres et minĂ©raux). Pour tenter encore de les amĂ©liorer, des recommandations constructives ont Ă©tĂ© proposĂ©es, afin de poser le deuxiĂšme Ă©chelon de ce travail, qui se voulait novateur
MeÌthode d'analyse de donneÌes pour le diagnostic a posteriori de deÌfauts de production - Application au secteur de la microeÌlectronique
Controlling the performance of a manufacturing site and the rapid identification of quality loss causes remain a daily challenge for manufacturers, who face continuing competition. In this context, this thesis aims to provide an analytical approach for the rapid identification of defect origins, by exploring data available thanks to different quality control systems, such FDC, metrology, parametric tests PT and the Electrical Wafer Sorting EWS. The proposed method, named CLARIF, combines three complementary data mining techniques namely clustering, association rules and decision trees induction. This method is based on unsupervised generation of a set of potentially problematic production modes, which are characterized by specific manufacturing conditions. Thus, we provide an analysis which descends to the level of equipment operating parameters. The originality of this method consists on (1) a pre-treatment step to identify spatial patterns from quality control data, (2) an unsupervised generation of manufacturing modes candidates to explain the quality loss case. We optimize the generation of association rules through the proposed ARCI algorithm, which is an adaptation of the famous association rules mining algorithm, APRIORI to integrate the constraints specific to our issue and filtering quality indicators, namely confidence, contribution and complexity, in order to identify the most interesting rules. Finally, we defined a Knowledge Discovery from Databases process, enabling to guide the user in applying CLARIF to explain both local and global quality loss problems.La maĂźtrise du rendement dâun site de fabrication et lâidentification rapide des causes de perte de qualitĂ© restent un dĂ©fi quotidien pour les industriels, qui font face Ă une concurrence continue. Dans ce cadre, cette thĂšse a pour ambition de proposer une dĂ©marche dâanalyse permettant lâidentification rapide de lâorigine dâun dĂ©faut, Ă travers lâexploitation dâun maximum des donnĂ©es disponibles grĂące aux outils de contrĂŽle qualitĂ©, tel que la FDC, la mĂ©trologie, les tests paramĂ©triques PT, et le tri Ă©lectriques EWS. Nous avons proposĂ© une nouvelle mĂ©thode hybride de fouille de donnĂ©es, nommĂ©e CLARIF, qui combine trois mĂ©thodes de fouille de donnĂ©es Ă savoir, le clustering, les rĂšgles dâassociation et lâinduction dâarbres de dĂ©cision. Cette mĂ©thode se base sur la gĂ©nĂ©ration non supervisĂ©e dâun ensemble de modes de production potentiellement problĂ©matiques, qui sont caractĂ©risĂ©s par des conditions particuliĂšres de production. Elle permet, donc, une analyse qui descend au niveau des paramĂštres de fonctionnement des Ă©quipements. LâoriginalitĂ© de la mĂ©thode consiste dans (1) une Ă©tape de prĂ©traitement pour lâidentification de motifs spatiaux Ă partir des donnĂ©es de contrĂŽle, (2) la gĂ©nĂ©ration non supervisĂ©e de modes de production candidats pour expliquer le dĂ©faut. Nous optimisons la gĂ©nĂ©ration des rĂšgles dâassociation Ă travers la proposition de lâalgorithme ARCI, qui est une adaptation du cĂ©lĂšbre algorithme de fouille de rĂšgles dâassociation, APRIORI, afin de permettre dâintĂ©grer les contraintes spĂ©cifiques Ă la problĂ©matique de CLARIF, et des indicateurs de qualitĂ© de filtrage des rĂšgles Ă identifier, Ă savoir la confiance, la contribution et la complexitĂ©. Finalement, nous avons dĂ©fini un processus dâExtraction de Connaissances Ă partir des DonnĂ©es, ECD permettant de guider lâutilisateur dans lâapplication de CLARIF pour expliquer une perte de qualitĂ© locale ou globale
Modélisation des informations et extraction des connaissances pour la gestion des crises
Lâessor des technologies Ă©mergentes de collecte de donnĂ©es offre des opportunitĂ©s nouvelles pour diverses disciplines scientifiques. Lâinformatique est appelĂ© Ă jouer sa partition par le dĂ©veloppement de techniques dâanalyse intelligente des donnĂ©es pour apporter un certain Ă©clairage dans la rĂ©solution de problĂšmes complexes. Le contenu de ce mĂ©moire de recherche doctorale sâinscrit dans la problĂ©matique gĂ©nĂ©rale de lâextraction des connaissances Ă partir de donnĂ©es par les techniques informatiques. Ce travail de thĂšse sâintĂ©resse dans un premier temps Ă la problĂ©matique de la modĂ©lisation des informations pour la gestion de crise nĂ©cessitant des prises en charge mĂ©dicale, Ă lâaide dâune collaboration des applications informatiques de la tĂ©lĂ©mĂ©decine. Nous avons proposĂ© une mĂ©thodologie de gestion dâune crise Ă distance en trois Ă©tapes. Elle est principalement axĂ©e sur la collaboration des actes de tĂ©lĂ©mĂ©decine (TĂ©lĂ©consultation, TĂ©lĂ©expertise, TĂ©lĂ©surveillance, TĂ©lĂ©assistance, et la RĂ©gulation mĂ©dicale), de la phase de transport des victimes Ă la phase de traitements mĂ©dicaux dans et/ou entre les structures de santĂ©. Cette mĂ©thodologie permet non seulement de mettre Ă la disposition des gestionnaires de crise un systĂšme d'aide Ă la dĂ©cision informatisĂ©, mais aussi de minimiser les coĂ»ts financiers et rĂ©duire le temps de rĂ©ponse des secours Ă travers une gestion organisĂ©e de la crise. Dans un deuxiĂšme temps, nous avons Ă©tudiĂ© en dĂ©tail lâextraction de la connaissance Ă lâaide des techniques de data mining sur les images satellitaires afin de dĂ©couvrir des zones Ă risques dâĂ©pidĂ©mie, dont lâĂ©tude de cas a portĂ© sur lâĂ©pidĂ©mie de cholĂ©ra dans la rĂ©gion de Mopti, au Mali. Ainsi, une mĂ©thodologie de six phases a Ă©tĂ© prĂ©sentĂ©e en mettant en relation les donnĂ©es collectĂ©es sur le terrain et les donnĂ©es satellitaires pour prĂ©venir et surveiller plus efficacement les crises dâĂ©pidĂ©mie. Les rĂ©sultats nous indiquent quâĂ 66% le taux de contamination est liĂ© au fleuve Niger, en plus de certains facteurs sociĂ©taux comme le jet des ordures en pĂ©riode hivernale. Par consĂ©quent, nous avons pu Ă©tablir le lien entre lâĂ©pidĂ©mie et son environnement dâĂ©volution, ce qui permettra aux dĂ©cideurs de mieux gĂ©rer une Ă©ventuelle crise dâĂ©pidĂ©mie. Et enfin, en dernier lieu, pendant une situation de crise dâĂ©pidĂ©mie, nous nous sommes focalisĂ©s sur lâanalyse mĂ©dicale, plus prĂ©cisĂ©ment par lâusage des microscopes portables afin de confirmer ou non la prĂ©sence des agents pathogĂšnes dans les prĂ©lĂšvements des cas suspects. Pour ce faire, nous avons prĂ©sentĂ© une mĂ©thodologie de six phases, basĂ©e sur les techniques du deep learning notamment lâune des techniques des rĂ©seaux de neurones convolutifs, lâapprentissage par transfert qui tirent parti des systĂšmes complexes avec des invariants permettant la modĂ©lisation et l'analyse efficace de grandes quantitĂ©s de donnĂ©es. Le principe consiste Ă entraĂźner les rĂ©seaux de neurones convolutifs Ă la classification automatique dâimages des agents pathogĂšnes. Par exemple dans notre cas dâĂ©tude, cette approche a Ă©tĂ© utilisĂ©e pour distinguer une image microscopique contenant le virus de lâĂ©pidĂ©mie de cholĂ©ra appelĂ© Vibrio cholerae dâune image microscopique contenant le virus de lâĂ©pidĂ©mie du paludisme appelĂ© Plasmodium. Ceci nous a permis dâobtenir un taux de rĂ©ussite de classification de 99%. Par la suite, lâidĂ©e est de dĂ©ployer cette solution de reconnaissance dâimages dâagents pathogĂšnes dans les microscopes portables intelligents pour les analyses de routine et applications de diagnostic mĂ©dical dans la gestion de situations de crise. Ce qui permettra de combler le manque de spĂ©cialistes en manipulation microscopique et un gain de temps considĂ©rable dans lâanalyse des prĂ©lĂšvements avec des mesures prĂ©cises favorisant lâaccomplissement du travail dans de meilleures conditions
- âŠ