150 research outputs found

    Robust and efficient approach to feature selection with machine learning

    Get PDF
    Most statistical analyses or modelling studies must deal with the discrepancy between the measured aspects of analysed phenomenona and their true nature. Hence, they are often preceded by a step of altering the data representation into somehow optimal for the following methods.This thesis deals with feature selection, a narrow yet important subset of representation altering methodologies.Feature selection is applied to an information system, i.e., data existing in a tabular form, as a group of objects characterised by values of some set of attributes (also called features or variables), and is defined as a process of finding a strict subset of them which fulfills some criterion.There are two essential classes of feature selection methods: minimal optimal, which aim to find the smallest subset of features that optimise accuracy of certain modelling methods, and all relevant, which aim to find the entire set of features potentially usable for modelling. The first class is mostly used in practice, as it adheres to a well known optimisation problem and has a direct connection to the final model performance. However, I argue that there exists a wide and significant class of applications in which only all relevant approaches may yield usable results, while minimal optimal methods are not only ineffective but even can lead to wrong conclusions.Moreover, all relevant class substantially overlaps with the set of actual research problems in which feature selection is an important result on its own, sometimes even more important than the finally resulting black-box model. In particular this applies to the p>>n problems, i.e., those for which the number of attributes is large and substantially exceeds the number of objects; for instance, such data is produced by high-throughput biological experiments which currently serve as the most powerful tool of molecular biology and a fundament of the arising individualised medicine.In the main part of the thesis I present Boruta, a heuristic, all relevant feature selection method. It is based on the concept of shadows, by-design random attributes incorporated into the information system as a reference for the relevance of original features in the context of whole structure of the analysed data. The variable importance on its own is assessed using the Random Forest method, a popular ensemble classifier.As the performance of the Boruta method turns out insatisfactory for some important applications, the following chapters of the thesis are devoted to Random Ferns, an ensemble classifier with the structure similar to Random Forest, but of a substantially higher computational efficiency. In the thesis, I propose a substantial generalisation of this method, capable of training on generic data and calculating feature importance scores.Finally, I assess both the Boruta method and its Random Ferns-based derivative on a series of p>>n problems of a biological origin. In particular, I focus on the stability of feature selection; I propose a novel methodology based on bootstrap and self-consistency. The results I obtain empirically confirm the validity of aforementioned effects characteristic to minimal optimal selection, as well as the efficiency of proposed heuristics for all relevant selection.The thesis is completed with a study of the applicability of Random Ferns in musical information retrieval, showing the usefulness of this method in other contexts and proposing its generalisation for multi-label classification problems.W większości zagadnień statystycznego modelowania istnieje problem niedostosowania zebranych danych do natury badanego zjawiska; co za tym idzie, analiza danych jest zazwyczaj poprzedzona zmianą ich surowej formy w optymalną dla dalej stosowanych metod.W rozprawie zajmuję się selekcją cech, jedną z klas zabiegów zmiany formy danych. Dotyczy ona systemów informacyjnych, czyli danych dających się przedstawić w formie tabelarycznej jako zbiór obiektów opisanych przez wartości zbioru atrybutów (nazywanych też cechami), oraz jest zdefiniowana jako proces wydzielenia w jakimś sensie optymalnego podzbioru atrybutów.Wyróżnia się dwie zasadnicze grupy metod selekcji cech: poszukujących możliwie małego podzbioru cech zapewniającego możliwie dobrą dokładność jakiejś metody modelowania (minimal optimal) oraz poszukujących podzbioru wszystkich cech, które niosą istotną informację i przez to są potencjalnie użyteczne dla jakiejś metody modelowania (all relevant). Tradycyjnie stosuje się prawie wyłącznie metody minimal optimal, sprowadzają się one bowiem w prosty sposób do znanego problemu optymalizacji i mają bezpośredni związek z efektywnością finalnego modelu. W rozprawie argumentuję jednak, że istnieje szeroka i istotna klasa problemów, w których tylko metody all relevant pozwalają uzyskać użyteczne wyniki, a metody minimal optimal są nie tylko nieefektywne ale często prowadzą do mylnych wniosków. Co więcej, wspomniana klasa pokrywa się też w dużej mierze ze zbiorem faktycznych problemów w których selekcja cech jest sama w sobie użytecznym wynikiem, nierzadko ważniejszym nawet od uzyskanego modelu. W szczególności chodzi tu o zbiory klasy p>>n, to jest takie w których liczba atrybutów w~systemie informacyjnym jest duża i znacząco przekracza liczbę obiektów; dane takie powszechnie występują chociażby w wysokoprzepustowych badaniach biologicznych, będących obecnie najpotężniejszym narzędziem analitycznym biologii molekularnej jak i fundamentem rodzącej się zindywidualizowanej medycyny.W zasadniczej części rozprawy prezentuję metodę Boruta, heurystyczną metodę selekcji zmiennych. Jest ona oparta o koncepcję rozszerzania systemu informacyjnego o cienie, z definicji nieistotne atrybuty wytworzone z oryginalnych cech przez losową permutację wartości, które są wykorzystywane jako odniesienie dla oceny istotności oryginalnych atrybutów w kontekście pełnej struktury analizowanych danych. Do oceny ważności cech metoda wykorzystuje algorytm lasu losowego (Random Forest), popularny klasyfikator zespołowy.Ponieważ wydajność obliczeniowa metody Boruta może być niewystarczająca dla pewnych istotnych zastosowań, w dalszej części rozprawy zajmuję się algorytmem paproci losowych, klasyfikatorem zespołowym zbliżonym strukturą do algorytmu lasu losowego, lecz oferującym znacząco lepszą wydajność obliczeniową. Proponuję uogólnienie tej metody, zdolne do treningu na generycznych systemach informacyjnych oraz do obliczania miary ważności atrybutów.Zarówno metodę Boruta jak i jej modyfikację wykorzystującą paprocie losowe poddaję w rozprawie wyczerpującej analizie na szeregu zbiorów klasy p>>n pochodzenia biologicznego. W szczególności rozważam tu stabilność selekcji; w tym celu formułuję nową metodę oceny opartą o podejście resamplingowe i samozgodność wyników. Wyniki przeprowadzonych eksperymentów potwierdzają empirycznie zasadność wspomnianych wcześniej problemów związanych z selekcją minimal optimal, jak również zasadność przyjętych heurystyk dla selekcji all relevant.Rozprawę dopełnia studium stosowalności algorytmu paproci losowych w problemie rozpoznawania instrumentów muzycznych w nagraniach, ilustrujące przydatność tej metody w innych kontekstach i proponujące jej uogólnienie na klasyfikację wieloetykietową

    The Missouri Miner, November 10, 1977

    Get PDF
    https://scholarsmine.mst.edu/missouri_miner/3165/thumbnail.jp

    The Gamut: A Journal of Ideas and Information, No. 12, Spring/Summer 1984

    Get PDF
    CONTENTS OF ISSUE NO. 12, SPRING/SUMMER,1984 Kenneth A. Torgerson: Jury or Judge, 2 The problems of trial by one\u27s peers. Robert Creeley: Conversation, 20 Interview reveals a poet\u27s concerns about teaching, money, readings, publishing. Carsten Ahrens: Ottawa County\u27s Very Special Daisy, 33 Rare botanical species of Sandusky area. George C. Chang: Progress and Promise of Electric Vehicles, 35 Will the future of transportation be battery-powered? Marvin H. Jones: Peculiar Portraits, 48 Ingrid Komar: Making Utopia Work, 50 The joys and travails of an intentional community. David B. Guralnik: Word Watch: Productive Suffixes II, 67 Timothy J. Runyan: Raising the Mary Rose, 69 Examining the benefits of four centuries of mud burial. Rita Beatie: Eleanor Steber at Seventy, 81 An opera star\u27s career at the Met and after. Announcement of winners: The Gamut Prize in Short Fiction, 90 Gary Fincke: The Fleas, 91 (First Prize)https://engagedscholarship.csuohio.edu/gamut_archives/1009/thumbnail.jp

    The musical enculturation of Irish traditional musicians: An ethnographic study of learning processes

    Get PDF
    The enculturation of Irish traditional musicians involves informal, non-formal, and sometimes formal learning processes in a number of different settings, including traditional music sessions, workshops, festivals, and classes. Irish traditional musicians also learn directly from family, peers, and mentors and by using various forms of technology. Each experience contributes to the enculturation process in meaningful and complementary ways. The ethnographic research discussed in this dissertation suggests that within Irish traditional music culture, enculturation occurs most effectively when learners experience a multitude of learning practices. A variety of experiences insures that novices receive multiple opportunities for engagement and learning. If a learner finds one learning practice ineffective, there are other avenues of enculturation. This thesis explores the musical enculturation of Irish traditional musicians. It focuses on the process of becoming a musician by drawing on methodologies and theories from ethnomusicology, education, and Irish traditional music studies. Data was gathered through multiple ethnographic methodologies. Fieldwork based on participant-observation was carried out in a variety of learning contexts, including traditional music sessions, festivals, workshops, and weekly classes. Additionally, interviews with twenty accomplished Irish traditional musicians provide diverse narratives and firsthand insight into musical development and enculturation. These and other methodologies are discussed in Chapter 1. The three main chapters of the thesis explore various common learning experiences. Chapter 2 explores how Irish traditional musicians learn during social and musical interactions between peers, mentors, and family members, and focuses on live music-making which occurs in private homes, sessions, and concerts. These informal and non-formal learning experiences primarily take place outside of organizations and institutions. The interview data suggests these learning experiences are perhaps the most pervasive and influential in terms of musical enculturation. Chapter 3 discusses learning experience in more organized settings, such as traditional music classes, workshops, summer schools, and festivals. The role of organizations such as Comhaltas Ceoltóirí Éireann and pipers’ clubs are discussed from the point of view of the learner. Many of the learning experiences explored in this chapter are informal, non-formal, and sometimes formal in nature, depending on the philosophy of the organization, institution, and individual teacher. The interview data and field observations indicate that learning in these contexts is common and plays a significant role in enculturation, particularly for traditional musicians who were born during and after the 1970s. Chapter 4 explores the ways Irish traditional musicians use technology, including written sources, phonography, videography, websites, and emerging technologies, during the enculturation process. Each type of technology presents different educational implications, and traditional musicians use these technologies in diverse ways and some more than others. For this, and other reasons, technology plays a complex role during the process of musical enculturation. Drawing on themes which emerge during Chapter 2, 3, and 4, the final chapter of this dissertation explores overarching patterns of enculturation within Irish traditional music culture. This ethnographic work suggests that longevity of participation and engagement in multiple learning and performance opportunities foster the enculturation of Irish traditional musicians. Through numerous and prolonged participation in music-making, novices become accustomed to and learn musical, social, and cultural behaviours. The final chapter also explores interconnections between learning experiences and also proposes directions for future research

    Ubiquitous Technologies for Emotion Recognition

    Get PDF
    Emotions play a very important role in how we think and behave. As such, the emotions we feel every day can compel us to act and influence the decisions and plans we make about our lives. Being able to measure, analyze, and better comprehend how or why our emotions may change is thus of much relevance to understand human behavior and its consequences. Despite the great efforts made in the past in the study of human emotions, it is only now, with the advent of wearable, mobile, and ubiquitous technologies, that we can aim to sense and recognize emotions, continuously and in real time. This book brings together the latest experiences, findings, and developments regarding ubiquitous sensing, modeling, and the recognition of human emotions

    Square dancing: official magazine of the Sets in Order American Square Dance Society.

    Get PDF
    Published monthly for and by Square Dancers
    corecore