36 research outputs found

    Specious rules: an efficient and effective unifying method for removing misleading and uninformative patterns in association rule mining

    Full text link
    We present theoretical analysis and a suite of tests and procedures for addressing a broad class of redundant and misleading association rules we call \emph{specious rules}. Specious dependencies, also known as \emph{spurious}, \emph{apparent}, or \emph{illusory associations}, refer to a well-known phenomenon where marginal dependencies are merely products of interactions with other variables and disappear when conditioned on those variables. The most extreme example is Yule-Simpson's paradox where two variables present positive dependence in the marginal contingency table but negative in all partial tables defined by different levels of a confounding factor. It is accepted wisdom that in data of any nontrivial dimensionality it is infeasible to control for all of the exponentially many possible confounds of this nature. In this paper, we consider the problem of specious dependencies in the context of statistical association rule mining. We define specious rules and show they offer a unifying framework which covers many types of previously proposed redundant or misleading association rules. After theoretical analysis, we introduce practical algorithms for detecting and pruning out specious association rules efficiently under many key goodness measures, including mutual information and exact hypergeometric probabilities. We demonstrate that the procedure greatly reduces the number of associations discovered, providing an elegant and effective solution to the problem of association mining discovering large numbers of misleading and redundant rules.Comment: Note: This is a corrected version of the paper published in SDM'17. In the equation on page 4, the range of the sum has been correcte

    Classifiers for educational technology

    Get PDF
    Peer reviewe

    Tilastollisesti merkityksellisten riippuvuussääntöjen tehokas haku binääridatasta

    Get PDF
    Analyzing statistical dependencies is a fundamental problem in all empirical science. Dependencies help us understand causes and effects, create new scientific theories, and invent cures to problems. Nowadays, large amounts of data is available, but efficient computational tools for analyzing the data are missing. In this research, we develop efficient algorithms for a commonly occurring search problem - searching for the statistically most significant dependency rules in binary data. We consider dependency rules of the form X->A or X->not A, where X is a set of positive-valued attributes and A is a single attribute. Such rules describe which factors either increase or decrease the probability of the consequent A. A classical example are genetic and environmental factors, which can either cause or prevent a disease. The emphasis in this research is that the discovered dependencies should be genuine - i.e. they should also hold in future data. This is an important distinction from the traditional association rules, which - in spite of their name and a similar appearance to dependency rules - do not necessarily represent statistical dependencies at all or represent only spurious connections, which occur by chance. Therefore, the principal objective is to search for the rules with statistical significance measures. Another important objective is to search for only non-redundant rules, which express the real causes of dependence, without any occasional extra factors. The extra factors do not add any new information on the dependence, but can only blur it and make it less accurate in future data. The problem is computationally very demanding, because the number of all possible rules increases exponentially with the number of attributes. In addition, neither the statistical dependency nor the statistical significance are monotonic properties, which means that the traditional pruning techniques do not work. As a solution, we first derive the mathematical basis for pruning the search space with any well-behaving statistical significance measures. The mathematical theory is complemented by a new algorithmic invention, which enables an efficient search without any heuristic restrictions. The resulting algorithm can be used to search for both positive and negative dependencies with any commonly used statistical measures, like Fisher's exact test, the chi-squared measure, mutual information, and z scores. According to our experiments, the algorithm is well-scalable, especially with Fisher's exact test. It can easily handle even the densest data sets with 10000-20000 attributes. Still, the results are globally optimal, which is a remarkable improvement over the existing solutions. In practice, this means that the user does not have to worry whether the dependencies hold in future data or if the data still contains better, but undiscovered dependencies.Tilastollisten riippuvuuksien etsintä ja analysointi on empiiristen tieteiden keskeisimpiä tehtäviä. Tilastolliset riippuvuudet auttavat ymmärtämään asioiden syy- ja seuraussuhteita, kuten esimerkiksi mitkä geenit tai elämäntavat altistavat tietyille sairauksille ja mitkä puolestaan suojelevat niiltä. Tällaiset riipuvuudet voidaan esittää havainnollisesti riippuvuussääntöinä muotoa ABCD->E, missä A,B,C ja D vastaavat havaittuja tekijöitä ja E on niistä tilastollisesti riippuva seuraus. Analysoitavaa dataa on nykyaikana valtavasti saatavilla lähes miltätahansa elämän alueelta. Ongelmana on, ettei kaikkia mahdollisia riippuvuuksia voida tutkia tavallisilla tilastollisilla työkaluilla tai tietokoneohjelmilla. Esimerkiksi jos datassa esiintyy 20 muuttujaa ja kukin niistä voi saada vain kaksi arvoa (esimerkiksi geeni esiintyy tai ei esiiny näytteessä), erilaisia mahdollisia riippuvuussääntöjä on jo yli 20 miljoonaa kappaletta. Usein data kuitenkin sisältää vähintään satoja tai jopa kymmeniä tuhansia muuttujia, eikä kaikkien mahdollisten riippuvuussääntöjen tutkiminen ole laskennallisesti mahdollista. Tässä tutkimuksessa on kehitetty tarvittavia tehokkaita laskentamenetelmiä tilastollisesti kaikkein merkitsevimpien riippuvuussääntöjen etsintään binääridatasta, jossa kukin muuttuja voi saada vain kaksi arvoa. Geenitutkimuksen lisäksi tällaista dataa esiintyy luonnostaan mm. biologiassa (eri havaintopaikoilla esiintyvät kasvi- ja eläinlajit) sekä markkinointitutkimuksessa (ns. ostoskoridata eli mitä tuotteita kukin asiakas on ostanut). Mikäli datassa on kuitenkin useampiarvoisia muuttujia, ne voidaan aina tarvittaessa esittää binäärimuodossa. Aiempiin tiedonlouhintamenetelmiin verrattuna tutkimuksessa kehitetyt menetelmät ovat sekä tehokkaampia että luotettavampia. Perinteisesti suurien datajoukkojen riippuvuuksia on yritetty analysoida assosiaatiosäännöillä, mutta assosiaatiosäännöt eivät välttämättä esitä mitään tilastollista riippuvuutta tai riippuvuus voi olla tilastollisesti merkityksetön (sattuman tuotetta). Lisäksi assosiaatiosääntöjen hakumenetelmät ovat tehottomia löytämään kaikkia merkityksellisiä riippuvuuksia. Tämän tutkimuksen tuloksena kehitetyllä tietokoneohjelmalla on kuitenkin mahdollista hakea kaikkein merkityksellisimmät riippuvuudet jopa kymmeniä tuhansia muuttujia sisältävistä datajoukoista tavallisella pöytätietokoneella. Hakukriteerinä, jolla riippuvuuden tilastollinen merkityksevyys arvioidaan, voidaan käyttää melkein mitätahansa tilastollista mittaa kuten Fisherin eksaktia testiä tai chi2-mittaa

    Scientific Writing for Computer Science Students

    No full text
    This material is originally prepared for IMPIT-students in the Department of Computer Science, University of Joensuu, to help them when they write their master’s thesis in English. Since all students are foreigners, quite much emphasis is put into English grammar, but all examples are taken from the computer science context. Another emphasis is the use of L ATEX, which suits especially well for writing computer science texts containing several equations, algorithms, tables, and figures. In addition, the literature sources and references can be easily managed with bibtex. The style advice are based on existing literature on scientific writing (e.g. [1, 2, 4, 3]), but once again the instructions have been applied to the current customs in the computer science filed

    Descriptive and Predictive Modelling Techniques for Educational

    No full text
    Data-driven models are the basis of all adaptive systems. Adaption to the user requires that the models are driven from real user data. However, in educational technology real data is seldom used, and all general-purpose learning environments are predefined by the system designers. In this thesis, we analyze how the existing knowledge discovery methods could be utilized in implementing adaptivity in learning environments. We begin by defining the domain-specific requirements and restrictions for data modelling. These properties constitute the basis for analysis, and affect all phases of the modelling process from the selection of the modelling paradigm and data preprocessing to model validation. Based on our analysis, we formulate general principles for modelling educational data accurately. The main principle is the interaction between descriptive and predictive modelling. Predictive modelling determines the goals for descriptive modelling, and the results of descriptive modelling guide the predictive modelling. We evalute the appropriateness of existing dependency modelling, clustering and classification methods for educational technology, and give special instructions for their applications. Finally, we propose general principles for implementing adaptivity in learning environments. Computing Reviews (1998) Categories and Subject Descriptors: G.3 Probability and statistics H.1 Models and principles H.3 Information storage and retrieval I.6 Simulation and modelling I.2 Artificial intelligenc

    Joensuun Neurofysion brändin uudistaminen internetsivujen avulla

    Get PDF
    Toiminnallisen opinnäytetyön pohjana oli toimeksianto tehdä uudet verkkosivut yritykselle Joensuun Neurofysio Oy. Yritys tuottaa kauneudenhoitoja ja fysikaalisia palveluita. Tavoitteena oli luoda yritykselle raikkaat, laadukkaat ja toimivat internetsivut, joilla korostettaisiin yrityksen tarjoamia uusia kauneudenhoitopalveluita. Työ rajattiin koskemaan verkkosivuja ja niiden visuaalisuutta. Teoriaosuus käsittelee brändin uudistamista ja kehittämistä digitalisoituvassa maailmassa. Tietoperustassa käydään läpi myös teoriaa laadukkaiden internetsivujen suunnittelusta ja toteuttamisesta osana markkinointiviestintää. Lisäksi paneudumme tarkemmin visuaalisuuteen verkkosivustoilla. Toimeksiantaja esitellään tarkemmin empiriajakson alkaessa, minkä jälkeen siirrytään avaamaan työssä käytettyjä tutkimusmenetelmiä. Suunnittelimme uusia verkkosivuja toimeksiantajan haastatteluiden perusteella. Hyödynsimme verkkosivujen kehittämisessä myös ehdotuksia ja ideoita, jotka saimme järjestämältämme focusryhmältä. Ryhmä koostui asiantuntijoista, toimeksiantajastamme ja potentiaalisesta asiakkaasta. Opinnäytetyön lopputuotos, uudet verkkosivut Joensuun Neurofysiolle, toteutettiin teoriaosuudessa opitun tietoperustan, toimeksiantajan haastatteluiden ja focusryhmän pohjalta. Verkkosivujen rakentamisessa kiinnitettiin erityistä huomiota visuaalisuuteen: väreihin, typografiaan, kuviin ja logon kevyeen päivittämiseen. Työn viimeisessä kappaleessa pohdimme koko opinnäytetyöprosessia: miten saavutimme tavoitteet, mitä haasteita kohtasimme ja mitä opimme. Toimeksiantaja oli projektiin ja sen lopputuotteeseen erityisen tyytyväinen – internetsivut julkaistaan heinäkuussa 2017. Yrittäjä koki myös oppineensa ja saaneensa uutta tietoa opinnäytetyön teoriaosuudesta. Opinnäytetyön tekijöinä koimme prosessin mielekkäänä, sillä saimme tehdä sen toimeksiannon perusteella. Saavutimme opinnäytetyöllemme asettamamme tavoitteet ja saimme valmiuksia työelämään
    corecore