15 research outputs found

    Logical analysis of data as a tool for the analysis of probabilistic discrete choice behavior

    Get PDF
    Probabilistic Discrete Choice Models (PDCM) have been extensively used to interpret the behavior of heterogeneous decision makers that face discrete alternatives. The classification approach of Logical Analysis of Data (LAD) uses discrete optimization to generate patterns, which are logic formulas characterizing the different classes. Patterns can be seen as rules explaining the phenomenon under analysis. In this work we discuss how LAD can be used as the first phase of the specification of PDCM. Since in this task the number of patterns generated may be extremely large, and many of them may be nearly equivalent, additional processing is necessary to obtain practically meaningful information. Hence, we propose computationally viable techniques to obtain small sets of patterns that constitute meaningful representations of the phenomenon and allow to discover significant associations between subsets of explanatory variables and the output. We consider the complex socio-economic problem of the analysis of the utilization of the Internet in Italy, using real data gathered by the Italian National Institute of Statistics

    Recent advances in the theory and practice of logical analysis of data

    Get PDF
    Logical Analysis of Data (LAD) is a data analysis methodology introduced by Peter L. Hammer in 1986. LAD distinguishes itself from other classification and machine learning methods by the fact that it analyzes a significant subset of combinations of variables to describe the positive or negative nature of an observation and uses combinatorial techniques to extract models defined in terms of patterns. In recent years, the methodology has tremendously advanced through numerous theoretical developments and practical applications. In the present paper, we review the methodology and its recent advances, describe novel applications in engineering, finance, health care, and algorithmic techniques for some stochastic optimization problems, and provide a comparative description of LAD with well-known classification methods

    Decision rules construction : algorithm based on EAV model

    Get PDF
    In the paper, an approach for decision rules construction is proposed. It is studied from the point of view of the supervised machine learning task, i.e., classification, and from the point of view of knowledge representation. Generated rules provide comparable classification results to the dynamic programming approach for optimization of decision rules relative to length or support. However, the proposed algorithm is based on transformation of decision table into entity– attribute–value (EAV) format. Additionally, standard deviation function for computation of averages’ values of attributes in particular decision classes was introduced. It allows to select from the whole set of attributes only these which provide the highest degree of information about the decision. Construction of decision rules is performed based on idea of partitioning of a decision table into corresponding subtables. In opposite to dynamic programming approach, not all attributes need to be taken into account but only these with the highest values of standard deviation per decision classes. Consequently, the proposed solution is more time efficient because of lower computational complexity. In the framework of experimental results, support and length of decision rules were computed and compared with the values of optimal rules. The classification error for data sets from UCI Machine Learning Repository was also obtained and compared with the ones for dynamic programming approach. Performed experiments show that constructed rules are not far from the optimal ones and classification results are comparable to these obtained in the framework of the dynamic programming extension

    Heuristic-based feature selection for rough set approach

    Get PDF
    The paper presents the proposed research methodology, dedicated to the application of greedy heuristics as a way of gathering information about available features. Discovered knowledge, represented in the form of generated decision rules, was employed to support feature selection and reduction process for induction of decision rules with classical rough set approach. Observations were executed over input data sets discretised by several methods. Experimental results show that elimination of less relevant attributes through the proposed methodology led to inferring rule sets with reduced cardinalities, while maintaining rule quality necessary for satisfactory classification

    Fault Prognostics Using Logical Analysis of Data and Non-Parametric Reliability Estimation Methods

    Get PDF
    RÉSUMÉ : Estimer la durée de vie utile restante (RUL) d’un système qui fonctionne suivant différentes conditions de fonctionnement représente un grand défi pour les chercheurs en maintenance conditionnelle (CBM). En effet, il est difficile de comprendre la relation entre les variables qui représentent ces conditions de fonctionnement et la RUL dans beaucoup de cas en pratique à cause du degré élevé de corrélation entre ces variables et leur dépendance dans le temps. Il est également difficile, voire impossible, pour des experts d’acquérir et accumuler un savoir à propos de systèmes complexes, où l'échec de l'ensemble du système est vu comme le résultat de l'interaction et de la concurrence entre plusieurs modes de défaillance. Cette thèse présente des méthodologies pour le pronostic en CBM basé sur l'apprentissage automatique, et une approche de découverte de connaissances appelée Logical Analysis of Data (LAD). Les méthodologies proposées se composent de plusieurs implémentations de la LAD combinées avec des méthodes non paramétriques d'estimation de fiabilité. L'objectif de ces méthodologies est de prédire la RUL du système surveillé tout en tenant compte de l'analyse des modes de défaillance uniques ou multiples. Deux d’entre elles considèrent un mode de défaillance unique et une autre considère de multiples modes de défaillance. Les deux méthodologies pour le pronostic avec mode unique diffèrent dans la manière de manipuler les données. Les méthodologies de pronostique dans cette recherche doctorale ont été testées et validées sur la base d'un ensemble de tests bien connus. Dans ces tests, les méthodologies ont été comparées à des techniques de pronostic connues; le modèle à risques proportionnels de Cox (PHM), les réseaux de neurones artificiels (ANNs) et les machines à vecteurs de support (SVMs). Deux ensembles de données ont été utilisés pour illustrer la performance des trois méthodologies: l'ensemble de données du turboréacteur à double flux (turbofan) qui est disponible au sein de la base de données pour le développement d'algorithmes de pronostic de la NASA, et un autre ensemble de données obtenu d’une véritable application dans l'industrie. Les résultats de ces comparaisons indiquent que chacune des méthodologies proposées permet de prédire avec précision la RUL du système considéré. Cette recherche doctorale conclut que l’approche utilisant la LAD possède d’importants mérites et avantages qui pourraient être bénéfiques au domaine du pronostic en CBM. Elle est capable de gérer les données en CBM qui sont corrélées et variantes dans le temps. Son autre avantage et qu’elle génère un savoir interprétable qui est bénéfique au personnel de maintenance.----------ABSTRACT : Estimating the remaining useful life (RUL) for a system working under different operating conditions represents a big challenge to the researchers in the condition-based maintenance (CBM) domain. The reason is that the relationship between the covariates that represent those operating conditions and the RUL is not fully understood in many practical cases, due to the high degree of correlation between such covariates, and their dependence on time. It is also difficult or even impossible for the experts to acquire and accumulate the knowledge from a complex system, where the failure of the system is regarded as the result of interaction and competition between several failure modes. This thesis presents systematic CBM prognostic methodologies based on a pattern-based machine learning and knowledge discovery approach called Logical Analysis of Data (LAD). The proposed methodologies comprise different implementations of the LAD approach combined with non-parametric reliability estimation methods. The objective of these methodologies is to predict the RUL of the monitored system while considering the analysis of single or multiple failure modes. Three different methodologies are presented; two deal with single failure mode and one deals with multiple failure modes. The two methodologies for single mode prognostics differ in the way of representing the data. The prognostic methodologies in this doctoral research have been tested and validated based on a set of widely known tests. In these tests, the methodologies were compared to well-known prognostic techniques; the proportional hazards model (PHM), artificial neural networks (ANNs) and support vector machines (SVMs). Two datasets were used to illustrate the performance of the three methodologies: the turbofan engine dataset that is available at NASA prognostic data repository, and another dataset collected from a real application in the industry. The results of these comparisons indicate that each of the proposed methodologies provides an accurate prediction for the RUL of the monitored system. This doctoral research concludes that the LAD approach has attractive merits and advantages that add benefits to the field of prognostics. It is capable of dealing with the CBM data that are correlated and time-varying. Another advantage is its generation of an interpretable knowledge that is beneficial to the maintenance personnel

    Applied Metaheuristic Computing

    Get PDF
    For decades, Applied Metaheuristic Computing (AMC) has been a prevailing optimization technique for tackling perplexing engineering and business problems, such as scheduling, routing, ordering, bin packing, assignment, facility layout planning, among others. This is partly because the classic exact methods are constrained with prior assumptions, and partly due to the heuristics being problem-dependent and lacking generalization. AMC, on the contrary, guides the course of low-level heuristics to search beyond the local optimality, which impairs the capability of traditional computation methods. This topic series has collected quality papers proposing cutting-edge methodology and innovative applications which drive the advances of AMC

    Developed Algorithms for Maximum Pattern Generation in Logical Analysis of Data

    Get PDF
    RÉSUMÉ : Les données sont au coeur des industries et des organisations. Beaucoup d’entreprises possèdent de grandes quantités de données mais échouent à en tirer un bénéfice conséquent, bien souvent parce que ces données ne sont pas utilisées de façon productive. Il est indispensable de prendre des décisions importantes au bon moment, en utilisant des outils adaptés permettant d’extraire de l’information pratique et fiable de grandes quantités de données. Avec l’augmentation de la quantité et de la variété des données, le recours aux outils traditionnels facultatifs a été abandonné alors que l’importance de fournir des méthodes efficaces et prometteuses pour l’analyse de données se fait grandissante. La classification de données est l’un des moyens de répondre à ce besoin d’analyse de données. L’analyse Logique de Données (LAD : Logical Analysis of Data) est une nouvelle méthodologie d’analyse de données. Cette méthodologie qui combine l’optimisation, l’analyse combinatoire et la logique booléenne, est applicable pour le problème de classification des données. Son but est de trouver des motifs logiques cachés qui séparent les observations d’une certaine classe de toutes les autres observations. Ces motifs sont les blocs de base de l’Analyse Logique de Données dont l’objectif principal est de choisir un ensemble de motifs capable de classifier correctement des observations. La précision d’un modèle mesure à quel point cet objectif est atteint par le modèle. Dans ce projet de recherche, on s’intéresse à un type particulier de motifs appelé α-motif « α-pattern ». Ce type de motif permet de construire des modèles de classification LAD de très grande précision. En dépit du grand nombre de méthodologies existantes pour générer des α-motifs maximaux, il n’existe pas encore de méta-heuristique adressant ce problème. Le but de ce projet de recherche est donc de développer une méta-heuristique pour résoudre le problème des α-motifs maximaux. Cette méta-heuristique devra être efficace en termes de temps de résolution et aussi en termes de précision des motifs générés. Afin de satisfaire les deux exigences citées plus haut, notre choix s’est porté sur le recuit simulé. Nous avons utilisé le recuit simulé pour générer des α-motifs maximaux avec une approche différente de celle pratiquée dans le modèle BLA. La performance de l’algorithme développé est évaluée dans la suite. Les résultats du test statistique de Friedman montrent que notre algorithme possède les meilleures performances en termes de temps de résolution. De plus, pour ce qui est de la précision, celle fournie par notre algorithme est comparable à celles des autres méthodes. Notre précision possède par ailleurs de forts niveaux de confiance statistiques.----------ABSTRACT : Data is the heart of any industry or organization. Most of the companies are gifted with a large amount of data but they often fail to gain valuable insight from it, which is often because they cannot use their data productively. It is crucial to make essential and on-time decisions by using adapted tools to find applicable and accurate information from large amount of data. By increasing the amount and variety of data, the use of facultative traditional methods, were abolished and the importance of providing efficient and fruitful methods to analyze the data is growing. Data classification is one of the ways to fulfill this need of data analysis. Logical Analysis of Data is a methodology to analyze the data. This methodology, the combination of optimization, combinatorics and Boolean logic, is applicable for classification problems. Its aim is to discover hidden logical patterns that differentiate observations pertaining to one class from all of the other observations. Patterns are the key building blocks in LAD. Choosing a set of patterns that is capable of classifying observations correctly is the essential goal of LAD. Accuracy represents how successfully this goal is met. In this research study, one specific kind of pattern, called maximum α-pattern, is considered. This particular pattern helps building highly accurate LAD classification models. In spite of various presented methodologies to generate maximum α-pattern there is not yet any developed meta-heuristic algorithm. This research study is presented here with the objective of developing a meta-heuristic algorithm generating maximum α-patterns that are effective both in terms of computational time and accuracy. This study proposes a computationally efficient and accurate meta-heuristic algorithm based on the Simulated Annealing approach. The aim of the developed algorithm is to generate maximum α-patterns in a way that differs from the best linear approximation model proposed in the literature. Later, the performance of the new algorithm is evaluated. The results of the statistical Friedman test shows that the algorithm developed here has the best performance in terms of computational time. Moreover, its performance in terms of accuracy is competitive to other methods with, statistically speaking, high levels of confidence

    Analyse logique de données pour estimer le taux de présence des passagers en transport aérien.

    Get PDF
    RÉSUMÉ Chaque année, dans l’industrie du transport aérien, des pertes de revenus additionnels estimées à des millions de dollars sont causées par des passagers absents. En effet, ces sièges qui ont été vendus mais qui seront inoccupés peuvent potentiellement être revendus à d’autres passagers si on est capable d’en estimer le nombre correctement. Cela génère des profits supplémentaires pour les compagnies aériennes, à condition de ne pas sur-utiliser cette façon de faire, car un passager à qui l’on refuse l’embarquement dû à un manque de place sur l’avion devient coûteux, puisqu’il faut le dédommager. Le projet de maîtrise consiste en l’élaboration d’un modèle permettant de mieux prévoir le nombre de sièges supplémentaires par rapport à la capacité initiale de la cabine que l’on peut se permettre de vendre, phénomène appelé la survente. L’approche retenue est le « Logical Analysis of Data », auquel nous ferons référence par la méthode LAD. Plus spécifiquement, le modèle classifie les passagers en trois groupes: présents, absents et incertains, chaque groupe possédant son propre taux de présence. La somme pondérée de ces trois groupes et de leurs taux respectifs constitue le nombre de personnes présentes prévues par la méthode LAD. Cette méthode a été retenue à cause de son originalité et de ses succès connus à ce jour. Elle se distingue des autres formes de data mining plus conventionnelles par le fait qu’elle fait preuve d’une certaine forme d’intelligence artificielle; à partir des caractéristiques des passagers, elle établit des combinaisons de conditions (appelées patrons) pour lesquels les passagers ciblés ont une plus forte tendance à être présents (ou absents). Les caractéristiques sont par exemple la classe de réservation, le jour de la semaine du départ, l’heure, l’origine de l’itinéraire…----------ABSTRACT In the airline industry, revenue losses are estimated to reach millions of dollars yearly due to passengers that don’t show up for their flights, this is referred to as «no-shows». A frequent practice in the airline industry is to overbook flights to make up for these losses. Some significant revenues can be generated by this practice if the forecasts are accurate. If the no-show forecast is too low, potential revenue loss will remain. On the other hand, if the forecast suggests too many no-shows, some passengers may be denied boarding. This has a direct negative impact on customer satisfaction, and it is difficult to determine the exact cost of customer’s frustration. The objective of this master’s project is to build a model that would improve the accuracy of predictions for show and no-show passengers, and consequently adjust the overbooking levels. The chosen method is known as the «Logical Analysis of Data», also referred to as LAD. Specifically, this method classifies all passengers into three groups: positive (showing up), negative (no-shows) and unclassified. Each of these three groups has its own show rate. The weighted sum of these groups and their show rate results in the total show rate for the evaluated group of passengers. This approach was chosen not only for its originality, but also for its success in various sectors. It differs from other conventional data mining methods by its ability to detect combinatory information about the passengers. The input consists of a number of observations (passengers), each described by a vector of attributes derived from characteristics such as booking class, day of the week, departure time, itinerary origin, … The LAD method detects sets of conditions on attributes for which the group of passengers respecting these conditions have a significantly higher or lower show rate

    Applicability and Interpretability of Logical Analysis of Data in Condition Based Maintenance

    Get PDF
    Résumé Cette thèse étudie l’applicabilité et l’adaptabilité d’une approche d’exploration de données basée sur l’intelligence artificielle proposée dans [Hammer, 1986] et appelée analyse logique de données (LAD) aux applications diagnostiques dans le domaine de la maintenance conditionnelle CBM). La plupart des technologies utilisées à ce jour pour la prise de décision dans la maintenance conditionnelle ont tendance à automatiser le processus de diagnostic, sans offrir aucune connaissance ajoutée qui pourrait être utile à l’opération de maintenance et au personnel de maintenance. Par comparaison à d’autres techniques de prise de décision dans le domaine de la CBM, la LAD possède deux avantages majeurs : (1) il s’agit d’une approche non statistique, donc les données n’ont pas à satisfaire des suppositions statistiques et (2) elle génère des formes interprétables qui pourraient aider à résoudre les problèmes de maintenance. Une étude sur l’application de la LAD dans la maintenance conditionnelle est présentée dans cette recherche dont l’objectif est (1) d’étudier l’applicabilité de la LAD dans des situations différentes qui nécessitent des considérations particulières concernant les types de données d’entrée et les décisions de maintenance, (2) d’adapter la méthode LAD aux exigences particulières qui se posent à partir de ces applications et (3) d’améliorer la méthodologie LAD afin d’augmenter l’exactitude de diagnostic et d’interprétation de résultats. Les aspects innovants de la recherche présentés dans cette thèse sont (1) l’application de la LAD dans la CBM pour la première fois dans des applications qui bénéficient des propriétés uniques de cette technologie et (2) les modifications innovatrices de la méthodologie de la LAD, en particulier dans le domaine de la génération des formes, afin d’améliorer ses performances dans le cadre de la CBM et dans le domaine de classification multiclasses. La recherche menée dans cette thèse a suivi une approche évolutive afin d’atteindre les objectifs énoncés ci-dessus. La LAD a été utilisée et adaptée à trois applications : (1) la détection des composants malveillants (Rogue) dans l’inventaire de pièces de rechange réparables d’une compagnie aérienne commerciale, (2) la détection et l’identification des défauts dans les transformateurs de puissance en utilisant la DGA et (3) la détection des défauts dans les rotors en utilisant des signaux de vibration. Cette recherche conclut que la LAD est une approche de prise de décision prometteuse qui ajoute d’importants avantages à la mise en oeuvre de la CBM dans l’industrie.----------Abstract This thesis studies the applicability and adaptability of a data mining artificial intelligence approach called Logical Analysis of Data (LAD) to diagnostic applications in Condition Based Maintenance (CBM). Most of the technologies used so far for decision support in CBM tend to automate the diagnostic process without offering any added knowledge that could be helpful to the maintenance operation and maintenance personnel. LAD possesses two key advantages over other decision making technologies used in CBM: (1) it is a non-statistical approach; as such no statistical assumptions are required for the input data, and (2) it generates interpretable patterns that could help solve maintenance problems. A study on the implementation of LAD in CBM is presented in this research whose objective are to study the applicability of LAD in different CBM situations requiring special considerations regarding the types of input data and maintenance decisions, adapt the LAD methodology to the particular requirements that arise from these applications, and improve the LAD methodology in line with the above two objectives in order to increase diagnosis accuracy and result interpretability. The novelty of the research presented in this thesis is (1) the application of LAD to CBM for the first time in applications that stand to benefit from the advantages that this technology provides; and (2) the innovative modifications to LAD methodology, particularly in the area of pattern generation, in order to improve its performance within the context of CBM. The research conducted in this thesis followed an evolutionary approach in order to achieve the objectives stated in the Introduction. The research applied LAD in three applications: (1) the detection of Rogue components within the spare part inventory of reparable components in a commercial airline company, (2) the detection and identification of faults in power transformers using DGA, and (3) the detection of faults in rotor bearings using vibration signals. This research concludes that LAD is a promising decision making approach that adds important benefits to the implementation of CBM in the industry

    A Novel Data-Driven Fault Tree Methodology for Fault Diagnosis and Prognosis

    Get PDF
    RÉSUMÉ : La thèse développe une nouvelle méthodologie de diagnostic et de pronostic de défauts dans un système complexe, nommée Interpretable logic tree analysis (ILTA), qui combine les techniques d’extraction de connaissances à partir des bases de données « knowledge discovery in database (KDD) » et l’analyse d’arbre de défaut « fault tree analysis (FTA) ». La méthodologie capitalise les avantages des deux techniques pour appréhender la problématique de diagnostic et de pronostic de défauts. Bien que les arbres de défauts offrent des modèles interprétables pour déterminer les causes possibles à l’origine d’un défaut, leur utilisation pour le diagnostic de défauts dans un système industriel est limitée, en raison de la nécessité de faire appel à des connaissances expertes pour décrire les relations de cause-à-effet entre les processus internes du système. Cependant, il sera intéressant d’exploiter la puissance d’analyse des arbres de défaut mais construit à partir des connaissances explicites et non biaisées extraites directement des bases de données sur la causalité des fautes. Par conséquent, la méthodologie ILTA fonctionne de manière analogue à la logique du modèle d'analyse d'arbre de défaut (FTA) mais avec une implication minimale des experts. Cette approche de modélisation doit rejoindre la logique des experts pour représenter la structure hiérarchique des défauts dans un système complexe. La méthodologie ILTA est appliquée à la gestion des risques de défaillance en fournissant deux modèles d'arborescence avancés interprétables à plusieurs niveaux (MILTA) et au cours du temps (ITCA). Le modèle MILTA est conçu pour accomplir la tâche de diagnostic de défaillance dans les systèmes complexes. Il est capable de décomposer un défaut complexe et de modéliser graphiquement sa structure de causalité dans un arbre à plusieurs niveaux. Par conséquent, un expert est en mesure de visualiser l’influence des relations hiérarchiques de cause à effet menant à la défaillance principale. De plus, quantifier ces causes en attribuant des probabilités aide à comprendre leur contribution dans l’occurrence de la défaillance du système. Le modèle ITCA est conçu pour réaliser la tâche de pronostic de défaillance dans les systèmes complexes. Basé sur une répartition des données au cours du temps, le modèle ITCA capture l’effet du vieillissement du système à travers de l’évolution de la structure de causalité des fautes. Ainsi, il décrit les changements de causalité résultant de la détérioration et du vieillissement au cours de la vie du système.----------ABSTRACT : The thesis develops a new methodology for diagnosis and prognosis of faults in a complex system, called Interpretable logic tree analysis (ILTA), which combines knowledge extraction techniques from knowledge discovery in databases (KDD) and the fault tree analysis (FTA). The methodology combined the advantages of the both techniques for understanding the problem of diagnosis and prognosis of faults. Although fault trees provide interpretable models for determining the possible causes of a fault, its use for fault diagnosis in an industrial system is limited, due to the need for expert knowledge to describe cause-and-effect relationships between internal system processes. However, it will be interesting to exploit the analytical power of fault trees but built from explicit and unbiased knowledge extracted directly from databases on the causality of faults. Therefore, the ILTA methodology works analogously to the logic of the fault tree analysis model (FTA) but with minimal involvement of experts. This modeling approach joins the logic of experts to represent the hierarchical structure of faults in a complex system. The ILTA methodology is applied to failure risk management by providing two interpretable advanced logic models: a multi-level tree (MILTA) and a multilevel tree over time (ITCA). The MILTA model is designed to accomplish the task of diagnosing failure in complex systems. It is able to decompose a complex defect and graphically model its causal structure in a tree on several levels. As a result, an expert is able to visualize the influence of hierarchical cause and effect relationships leading to the main failure. In addition, quantifying these causes by assigning probabilities helps to understand their contribution to the occurrence of system failure. The second model is a logical tree interpretable in time (ITCA), designed to perform the task of prognosis of failure in complex systems. Based on a distribution of data over time, the ITCA model captures the effect of the aging of the system through the evolution of the fault causation structure. Thus, it describes the causal changes resulting from deterioration and aging over the life of the system
    corecore