Satunnaismetsä-koneoppimismenetelmä, teoria ja soveltaminen

Abstract

Taloudellisten, institutionaalisten ja teknologisten ympäristöjen kiihtyvä muutostahti on luonut tarpeen tehdä oikeita valintoja menestymisen ja kehityksen takeeksi. Parhaimman valinnan tekee henkilö, jolla on eniten tietoa ja varmuutta tiedon paikkansapitävyydestä. Vaihtoehtoisesti päätöksenteon epävarmuustekijöitä voidaan hallita eliminointimenetelmillä, joiden hyödyntäminen voi myös johtaa parempiin päätöksiin. Epävarmuuden minimoimisen edellytyksenä on niin ikään pohjatietojen parantaminen. Tästä tarpeesta ovat nousseet tiedonlouhintamenetelmät. Tiedonlouhintamenetelmiä on kehittynyt valtava määrä vastaamaan kysynnän luomia tarpeita. Päätöksentekopuu on eräs tällainen analysointimenetelmä ja päätöksentekopuun pohjalta on luotu koneoppimismenetelmä satunnaismetsä. Satunnaismetsä on tutkimusten mukaan tällä hetkellä paras saatavilla oleva luokittelumenetelmä ja valikoitunut tämän tutkielman aiheeksi. Luvussa 2 luomme pohjaa satunnaismetsä-menetelmän ymmärtämiseksi. Lähdemme liikkeelle koneoppimisesta ja datalouhintamenetelmistä, joilla alustamme päätöksentekopuutyökalun. Käy ilmi, että on olemassa luokittelu-, regressio- ja luokitteluregressiopuita, ja että tässä tutkielmassa keskitymme luokittelupuihin. Tämän jälkeen esittelemme päätöksentekopuun metodologiaa. Luvussa 3 esittelemme tutkielman kannalta päätöksentekopuiden tärkeimmät validointimenetelmät, sillä datalouhinnassa analysointimenetelmien validoiminen on yhtä tärkeää kuin itse analysoiminen. Esittelemme mallien validointiin liittyviä käsitteitä, kuten tarkkuus, yleistysvirhe ja ylisovittuminen. Käymme läpi yleisimpiä tapoja validoida malleja, sekä näytämme esimerkkien kautta työkalut, joita käytämme tutkielmassa. Näitä ovat tarkkuus, väärinluokittelumatriisi, ROC-, kumulatiivinen saanti- ja nostokäyrä. Luvussa 4 esittelemme satunnaismetsä-koneoppimismenetelmän. Käymme ensiksi läpi joukko-oppimisen metodologiaa, jonka jälkeen käsittelemme satunnaismetsän algoritmin. Osoitamme teoreettisesti, miksi satunnaismetsä on parempi luokittelija kuin esimerkiksi päätöksentekopuu näyttämällä, että satunnaismetsän puumäärän kasvaessa satunnaismetsän yleistysvirhe suppenee kohti nollaa. Analysoimme teoreettisesti satunnaismetsän hyötyjä ja haittoja. Satunnaismetsän hyötyjä ovat sen tarkkuus, nopeus, ymmärrettävyys, toimivuus valtavilla datamäärillä, sekä kykeneväisyys analysoida tietojoukon merkittävimpiä muuttujia. Haittoja ovat, että satunnaismetsä ei suoriudu yhtä hyvin regressio-ongelmissa kuin esimerkiksi logistinen regressiomalli, sekä huono sovellettavuus pieniin tietojoukkoihin. Luvussa 5 sovellamme opittuja taitoja suppeaan tietojoukkoon. Tarkoituksenamme on arvioida RStudion ja SAS Enterprise Minerin satunnaismetsä-pakettien toimivuutta tunnetulla syötejoukolla. Analysoimme satunnaismetsäin suoriutumista luokittelutehtävässä ja vertailemme tuloksia päätöksentekopuuhun ja regressiomalliin. Hyödynnämme luvussa 3 opittuja validointimenetelmiä. Käy ilmi, että RStudion ja SAS Enterprise Minerin satunnaismetsä-paketit toimivat hyvin, ja että satunnaismetsä suoriutuu pienenkin tietojoukon luokittelussa malleista parhaiten. Luvussa 6 sovellamme satunnaismetsää yrityksen tarjoamaan haasteeseen, jossa tarkoitus on selittää ja ennustaa uusien asiakkaiden tietyn asiakassegmentin asiakasvaihtuvuutta. Käytämme yhtiön tarjoamia tietokantoja ja SAS Enterprise Miner-työkalua. Suoritamme vertailun satunnaismetsä- ja päätöksentekopuu-mallien välillä käyttämällä luvussa 3 esiteltyjä validointimenetelmiä ja analysoimme tulokset. Käy ilmi, että ROC-käyrien ja tarkkuuden perusteella satunnaismetsä suoriutuu sekä luokittelussa että ennustamisessa paremmin kuin päätöksentekopuu. Luvussa 7 pohdimme, millaisissa puitteissa satunnaismetsä soveltuu yrityksen liiketoimintaprosessiin. Käymme läpi vaatimuksia, joita satunnaismetsän soveltaminen asettaa, sekä mitä lisäarvoa satunnaismetsä menetelmänä tuo yritykselle. Tulos on, että satunnaismetsä soveltuu hyvin yrityksille, jotka hyödyntävät SAS-työkaluja ja tuo lisäarvoa analysointitehtäviin olemalla ymmärrettävä malli, mutta kuitenkin monipuolinen, nopea ja tarkka

    Similar works