    An MDL approach to the climate segmentation problem

    This paper proposes an information theory approach to estimate the number of changepoints and their locations in a climatic time series. A model is introduced that has an unknown number of changepoints and allows for series autocorrelations, periodic dynamics, and a mean shift at each changepoint time. An objective function gauging the number of changepoints and their locations, based on a minimum description length (MDL) information criterion, is derived. A genetic algorithm is then developed to optimize the objective function. The methods are applied in the analysis of a century of monthly temperatures from Tuscaloosa, Alabama.Comment: Published in at http://dx.doi.org/10.1214/09-AOAS289 the Annals of Applied Statistics (http://www.imstat.org/aoas/) by the Institute of Mathematical Statistics (http://www.imstat.org

    Changepoint detection in base-resolution methylome data reveals a robust signature of methylated domain landscape

    ABSTRACTLotta Dalenius Hahlin (2010) Mentorskap utifrÄn ett lösningsinriktat fokus. (Mentorship based on a solution-oriented focus. Skolutveckling och ledarskap, LÀrarutbildningen halvfart/distans, Malmö HögskolaMÄnga elever hoppar av sin gymnasieutbildning pga. av olika orsaker. En av orsakerna kan vara att eleven inte har tillrÀckligt stöd i sin mentor pÄ skolan. En mentor skall ju inte bara ta hand om elevens studiemÀssiga resultat utan fÄr Àven ta hand om de mÄnga sociala frÄgor som ofta uppstÄr runt eleven. Kan det vara sÄ att mentorn behöver en ram och metod att arbeta utifrÄn för att kunna stödja eleverna pÄ bÀsta sÀtt?Syftet med arbetet Àr att beskriva den metodik som ligger bakom ett lösningsinriktat mentorskap,och att skapa ett kompendium av anvÀndbara verktyg utifrÄn lösningsinriktad pedagogik. Detta kompendium kan mentorn anvÀnda som mall/ram i sin arbetsuppgift som mentor.Forskningen tyder pÄ att lyckade och bra samtal bygger pÄ bra förberedelse, pÄ öppna frÄgor och pÄ ömsesidig respekt för varandra och att man anvÀnder sig av ett visst förhÄllningssÀtt gentemot varandra. Vidare pekar litteraturstudien pÄ att mentorssamtalet bör ha tydliga mÄl och en gemensam uppfattning om vad man vill komma fram till för att eleven skall nÄ ökat ansvar, större sjÀlvinsikt och önskat lÀge.Arbetet tar upp de olika verktyg som man frÀmst anvÀnder inom lösningsinriktade metoder, och Àr utifrÄn litteraturen kommenterat för att ge en grundlÀggande kunskap och förförstÄelse för lÀsaren.Genom att som resultat skapa ett kompendium som mentorer kan anvÀnda i sitt arbete med det dagliga samtalet med eleverna, vill uppsatsen beskriva och ge grundlÀggande kunskap om de verktyg som finns i den lösningsinriktade verktygslÄdan. Syftet nÄs Àven med en enkÀtundersökning dÀr mentorer som fÄtt pröva pÄ metoden plockat ut fördelar och nackdelar med metoden.Uppsatsen visar att regelbunden anvÀndning och övning krÀvs för att kunna tillgodogöra sig metoden, och Àven att mentorn genomgÄr en grundlÀggande utbildning. Den kommer ocksÄ att visa att vinsterna och fördelarna med metoden överstiger de eventuella nackdelar som kan uppstÄ nÀr man som mentor börjar arbeta med metoden

    Substructure Discovery Using Minimum Description Length and Background Knowledge

    The ability to identify interesting and repetitive substructures is an essential component to discovering knowledge in structural data. We describe a new version of our SUBDUE substructure discovery system based on the minimum description length principle. The SUBDUE system discovers substructures that compress the original data and represent structural concepts in the data. By replacing previously-discovered substructures in the data, multiple passes of SUBDUE produce a hierarchical description of the structural regularities in the data. SUBDUE uses a computationally-bounded inexact graph match that identifies similar, but not identical, instances of a substructure and finds an approximate measure of closeness of two substructures when under computational constraints. In addition to the minimum description length principle, other background knowledge can be used by SUBDUE to guide the search towards more appropriate substructures. Experiments in a variety of domains demonstrate SUBDUE's ability to find substructures capable of compressing the original data and to discover structural concepts important to the domain. Description of Online Appendix: This is a compressed tar file containing the SUBDUE discovery system, written in C. The program accepts as input databases represented in graph form, and will output discovered substructures with their corresponding value.Comment: See http://www.jair.org/ for an online appendix and other files accompanying this articl

    Data Discovery and Anomaly Detection using Atypicality.

    Ph.D. Thesis. University of Hawaiʻi at Mānoa 2017

    The Minimum Description Length Principle for Pattern Mining: A Survey

    This is about the Minimum Description Length (MDL) principle applied to pattern mining. The length of this description is kept to the minimum. Mining patterns is a core task in data analysis and, beyond issues of efficient enumeration, the selection of patterns constitutes a major challenge. The MDL principle, a model selection method grounded in information theory, has been applied to pattern mining with the aim to obtain compact high-quality sets of patterns. After giving an outline of relevant concepts from information theory and coding, as well as of work on the theory behind the MDL and similar principles, we review MDL-based methods for mining various types of data and patterns. Finally, we open a discussion on some issues regarding these methods, and highlight currently active related data analysis problems

    Methods for multi-class segmentation of molecular sequences

    Mémoire numérisé par la Direction des bibliothÚques de l'Université de Montréal
