thesis

Normalisoitu kompressioetäisyys : katsaus sovelluksiin

Abstract

Normalisoitu kompressioetäisyys NCD on mitta kahden dataobjektin välisen keskinäisen etäisyyden laskemiseen. Etäisyysmitta kuvaa sitä, kuinka paljon kahdessa vertailtavassa dataobjektissa on samankaltaisuutta. NCD on normalisoidun informaatioetäisyyden NID:n approksimointi. NID perustuu dataobjektien Kolmogorov-kompleksisuuteen. Dataobjektit kuvataan bittijonoina ja niissä on sitä enemmän samankaltaisuutta, mitä enemmän ne sisältävät keskinäisinformaatiota. NID on universaali siinä mielessä, että se poikkeaa korkeintaan vakiotermin verran optimaalisesta menetelmästä. Vakiotermi ei puolestaan riipu lainkaan vertailtavista dataobjekteista. NCD approksimoi NID:tä reaalimaailman tiivistäjillä, minkä vuoksi se on vain näennäisuniversaali, mutta siitä huolimatta käyttökelpoinen. NCD:n nojalla muodostetaan datasta etäisyysmatriisi, jonka avulla alkiot voidaan ryvästää ja havainnollistaa erityisen kvartettimenetelmän avulla puurakenteeseen. Menetelmää on sovellettu lupaavasti monella alalla. Tutkielma käy läpi menetelmän taustalla olevan teorian ja esittelee sen sovelluskohteita sekä paneutuu erityisesti stemmatologiseen Heinrichi-aineistoon, jota testataan CompLearn-ilmaisohjelmalla, joka tuottaa etäisyysmatriisin sekä muodostaa puurakenteen kvartettimenetelmällä

    Similar works