46 research outputs found

    Le choix d'une bonne mesure de qualité, condition du succès d'un processus de fouille de données

    No full text
    International audienceNotre réflexion se situe dans le domaine de l'apprentissage supervisé ou non supervisé par induction de règles. La fouille de données est couronnée de succès lorsque l'on parvient à extraire des données des connaissances nouvelles, valides, exploitables, etc. (Fayyad et al. (1996) Kodratoff et al. (2001)). L'une des clefs du succès est, bien sûr, le choix d'un algorithme qui soit bien adapté aux caractéristiques des données et au type de connaissances souhaitées : par exemple les règles d'association en non supervisé ; les arbres de décision, les règles d'association de classe et le bayésien naïf, en supervisé. Cependant, le succès dépend d'autres facteurs, notamment la préparation des données (représentation des données, outliers, variables redondantes) et le choix d'une bonne mesure d'évaluation de la qualité des connaissances extraites, tant dans le déroulement de l'algorithme que dans l'évaluation finale des résultats obtenus. C'est de ce dernier facteur que nous allons parler.En introduction, nous évoquerons rapidement le problème de la représentation des données. Puis, après avoir rappelé le principe de la recherche des règles d'association (Agrawal et Srikant (1994)) ou des règles d'association de classe intéressantes (Liu et al. (1998)), nous montrerons, à partir de quelques exemples, la diversité des résultats obtenus suivant la mesure d'intérêt choisie, que ce soit en comparant les pré-ordres obtenus ou en calculant les meilleures règles (Vaillant et al., 2004). Ces exemples illustrent le fait qu'il n'y a pas de mesure qui soit intrinsèquement bonne, mais différentes mesures qui, suivant leurs propriétés, sont plus ou moins bien adaptées au but poursuivi par l'utilisateur. Une mesure favorise tel ou tel type de connaissance, ce qui constitue un biais d'apprentissage que nous illustrerons par la mesure de Jaccard (Plasse et al. (2007)). Nous proposerons ensuite une synthèse des travaux concernant les mesures de qualité des règles d'association en présentant les principaux critères d'évaluation des mesures et en montrant concrètement le rôle de chacun de ces critères dans le comportement des mesures (e.g. Lenca et al. (2003), Tan et al. (2004), Geng et Hamilton (2006), Lenca et al. (2008), Suzuki (2008), Guillaume et al. (2010), Lerman et Guillaume (2010), Gras et Couturier (2010) ; nous renvoyons également le lecteur aux ouvrages édités par Guillet et Hamilton (2007) et Zhao et al. (2009)). Nous illustrerons le lien qui existe entre les propriétés des mesures sur les critères retenus et leur comportement sur un certain nombre de bases de règles (Vaillant et al., 2004). A côté de ces critères qui permettent d'étalonner les propriétés des mesures, nous présenterons d'autres critères de choix très importants. En premier lieu, nous nous intéresserons aux propriétés algorithmiques des mesures afin de pouvoir extraire les motifs intéressants en travaillant directement sur la mesure considérée, sans fixer de seuil de support, ce qui permet d'accéder aux pépites de connaissances (Wang et al. (2001), Xiong et al. (2003), Li (2006), Le Bras et al. (2009), Le Bras et al. (2009), Le Bras et al. (2010)). Nous exhiberons des conditions algébriques sur la formule d'une mesure qui assurent de pouvoir associer un critère d'élagage à la mesure considérée. Nous nous poserons ensuite le problème de l'évaluation de la robustesse des règles suivant la mesure utilisée (Azé et Kodratoff (2002), Cadot (2005), Gras et al. (2007), Le Bras et al. (2010)). Enfin, nous traiterons le cas des données déséquilibrées (Weiss et Provost (2003)) en apprentissage par arbres (Chawla (2003)) et nous montrerons comment le choix d'une mesure appropriée permet d'apporter une solution algorithmique à ce problème qui améliore de façon significative à la fois le taux d'erreur global, la précision et le rappel (Zighed et al. (2007), Lenca et al. (2008)). Si l'on veut privilégier la classe minoritaire, cette solution peut être encore améliorée en introduisant, dans la procédure d'affectation des étiquettes opérant sur chaque feuille de l'arbre, une mesure d'intérêt adéquate qui se substitue à la règle majoritaire (Ritschard et al. (2007), Pham et al. (2008)). Une discussion sur les mesures de qualité de bases de règles est présentée dans (Holena, 2009). En définitive, comment aider l'utilisateur à choisir la mesure la plus appropriée à son projet ? Nous proposerons une procédure d'assistance au choix de l'utilisateur qui permet de retourner à celui-ci les mesures les plus appropriées, une fois qu'il a défini les propriétés qu'il attend d'une mesure (Lenca et al. (2008))

    HOW TO SOLVE IT

    Get PDF
    This work is a reflection on the results of an experimentation carried out on secondary school students of between 16 and 18 from various classes. The experimentation aims at identifying the implicit ideas they use when asked to solve a certain mathematical problem. In particular, in giving them these problems an heuristic approach was suggested, and the differences between this and a purely deductive approach were measured. Analyzing the different approaches used by the students and the difficulties they had in distinguishing between argumentative and demonstrative operations has given rise to a reflection on the use of software such as Geogebra and Excel

    Sur la distribution de probabilité de l'indice d'intensité d'implication classique de Gras entre deux variables aléatoires binnaires

    Get PDF
    In this contribution we study the behavior of the classical Gras implication index as a random variable, when applied to a couple of Bernoulli variables (X,Y) , independent or not. We also show the effect of the conditional probability Y X p | on its probability distribution, and specially on its mean value and quartiles.Dans cette contribution nous étudions le comportement de l'indice d'implication classique de Gras comme une variable aléatoire quand celui-ci est associé à un couple de variables de Bernouilli (X,Y) . Nous montrons également l'effet de la probabilité conditionnelle Y X p | sur sa distribution de probabilité, plus particulièrement sur sa moyenne et ses quartiles

    On the probability distribution of the classical Gras implication index between two binary random variables

    Get PDF
    In this contribution we study the behavior of the classical Gras implication index as a random variable, when applied to a couple of Bernoulli variables, independent or not. We also show the effect of the conditional probabilityon its probability distribution, and specially on its mean value and quartiles

    La comprensión de la aproximación a un número en el acceso al significado de límite de una función en un punto

    Get PDF
    Esta investigación estudia la influencia de la comprensión de la aproximación a un número y de los modos de representación en la construcción de la concepción dinámica del límite en estudiantes de Bachillerato. El análisis de realizó usando el análisis implicativo (Gras, Suzuki, Guillet y Spagnolo, 2008). Los resultados indican que la construcción paulatina de la concepción dinámica del límite se realiza mediante procesos diferenciados de aproximación en el dominio y en el rango, y, dentro de estos últimos, aquellos en los que las aproximaciones laterales coinciden de las que no coinciden. Además, nuestros resultados indican que el modo numérico o el modo algebraico-numérico desempeñan un papel relevante en el desarrollo de la comprensión de la concepción dinámica de límite

    On the connection between basic mental models and the understanding of equations

    Get PDF
    Basic mental models (BMMs) of equations have been proposed as structures describing conceptual understanding of equations. Two of these BMMs are those of equations as relations and equations as objects. We are interested in the relation between these BMMs and special errors associated with working with equations. In this study we concentrate on very basic equations in the form of a ∙ x = b and a + x = b. We are interested in obstacles, errors and misunderstandings concerning these prototypes of equations. An empirical investigation shows that two types of errors, the reversal error and the attribute error, are statistically related to the BMMs students have established

    Categorization of interestingness measures for knowledge extraction

    Full text link
    Finding interesting association rules is an important and active research field in data mining. The algorithms of the Apriori family are based on two rule extraction measures, support and confidence. Although these two measures have the virtue of being algorithmically fast, they generate a prohibitive number of rules most of which are redundant and irrelevant. It is therefore necessary to use further measures which filter uninteresting rules. Many synthesis studies were then realized on the interestingness measures according to several points of view. Different reported studies have been carried out to identify "good" properties of rule extraction measures and these properties have been assessed on 61 measures. The purpose of this paper is twofold. First to extend the number of the measures and properties to be studied, in addition to the formalization of the properties proposed in the literature. Second, in the light of this formal study, to categorize the studied measures. This paper leads then to identify categories of measures in order to help the users to efficiently select an appropriate measure by choosing one or more measure(s) during the knowledge extraction process. The properties evaluation on the 61 measures has enabled us to identify 7 classes of measures, classes that we obtained using two different clustering techniques.Comment: 34 pages, 4 figure
    corecore