42 research outputs found
Fast missing value imputation using ensemble of SOMs
This report presents a methodology for missing value imputation. The methodology is based on an ensemble of Self-Organizing Maps (SOM), which is weighted using Nonnegative Least Squares algorithm. Instead of a need for lengthy validation procedure as when using single SOMs, the ensemble proceeds straight into final model building. Therefore, the methodology has very low computational time while retaining the accuracy. The performance is compared to other state-of-the-art methodologies using two real world databases from different fields
Methodologies for time series prediction and missing value imputation
The amount of collected data is increasing all the time in the world. More sophisticated measuring instruments and increase in the computer processing power produce more and more data, which requires more capacity from the collection, transmission and storage.
Even though computers are faster, large databases need also good and accurate methodologies for them to be useful in practice. Some techniques are not feasible to be applied to very large databases or are not able to provide the necessary accuracy.
As the title proclaims, this thesis focuses on two aspects encountered with databases, time series prediction and missing value imputation. The first one is a function approximation and regression problem, but can, in some cases, be formulated also as a classification task. Accurate prediction of future values is heavily dependent not only on a good model, which is well trained and validated, but also preprocessing, input variable selection or projection and output approximation strategy selection. The importance of all these choices made in the approximation process increases when the prediction horizon is extended further into the future.
The second focus area deals with missing values in a database. The missing values can be a nuisance, but can be also be a prohibiting factor in the use of certain methodologies and degrade the performance of others. Hence, missing value imputation is a very necessary part of the preprocessing of a database. This imputation has to be done carefully in order to retain the integrity of the database and not to insert any unwanted artifacts to aggravate the job of the final data analysis methodology. Furthermore, even though the accuracy is always the main requisite for a good methodology, computational time has to be considered alongside the precision.
In this thesis, a large variety of different strategies for output approximation and variable processing for time series prediction are presented. There is also a detailed presentation of new methodologies and tools for solving the problem of missing values. The strategies and methodologies are compared against the state-of-the-art ones and shown to be accurate and useful in practice.Maailmassa tuotetaan koko ajan enemmän ja enemmän tietoa. Kehittyneemmät mittalaitteet, nopeammat tietokoneet sekä kasvaneet siirto- ja tallennuskapasiteetit mahdollistavat suurien tietomassojen keräämisen, siirtämisen ja varastoinnin.
Vaikka tietokoneiden laskentateho kasvaa jatkuvasti, suurten tietoaineistojen käsittelyssä tarvitaan edelleen hyviä ja tarkkoja menetelmiä. Kaikki menetelmät eivät sovellu valtavien aineistojen käsittelyyn tai eivät tuota tarpeeksi tarkkoja tuloksia.
Tässä työssä keskitytään kahteen tärkeään osa-alueeseen tietokantojen käsittelyssä: aikasarjaennustamiseen ja puuttuvien arvojen täydentämiseen. Ensimmäinen näistä alueista on regressio-ongelma, jossa pyritään arvioimaan aikasarjan tulevaisuutta edeltävien näytteiden pohjalta. Joissain tapauksissa regressio-ongelma voidaan muotoilla myös luokitteluongelmaksi.
Tarkka aikasarjan ennustaminen on riippuvainen hyvästä ja luotettavasta ennustusmallista. Malli on opetettava oikein ja sen oikeellisuus ja tarkkuus on varmistettava. Lisäksi aikasarjan esikäsittely, syötemuuttujien valinta- tai projektiotapa sekä ennustusstrategia täytyy valita huolella ja niiden soveltuvuus mallin yhteyteen on varmistettava huolellisesti. Tehtyjen valintojen tärkeys kasvaa entisestään mitä pidemmälle tulevaisuuteen ennustetaan.
Toinen tämän työn osa-alue käsittelee puuttuvien arvojen ongelmaa. Tietokannasta puuttuvat arvot voivat heikentää data-analyysimenetelmän tuottamia tuloksia tai jopa estää joidenkin menetelmien käytön, joten puuttuvien arvojen arviointi ja täydentäminen esikäsittelyn osana on suositeltavaa. Täydentäminen on kuitenkin tehtävä harkiten, sillä puutteellinen täydentäminen johtaa hyvin todennäköisesti epätarkkuuksiin lopullisessa käyttökohteessa ja ei-toivottuihin rakenteisiin tietokannan sisällä. Koska kyseessä on esikäsittely, eikä varsinainen datan hyötykäyttö, puuttuvien arvojen täydentämiseen käytetty laskenta-aika tulisi minimoida säilyttäen laskentatarkkuus.
Tässä väitöskirjassa on esitelty erilaisia tapoja ennustaa pitkän ajan päähän tulevaisuuteen ja keinoja syötemuuttujien valintaan. Lisäksi uusia menetelmiä puuttuvien arvojen täydentämiseen on kehitetty ja niitä on vertailtu olemassa oleviin menetelmiin
Mutual Information Based Initialization of Forward-Backward Search for Feature Selection in Regression Problems
Pure feature selection, where variables are chosen or not to
be in the training data set, still remains as an unsolved problem, especially
when the dimensionality is high. Recently, the Forward-Backward
Search algorithm using the Delta Test to evaluate a possible solution was
presented, showing a good performance. However, due to the locality of
the search procedure, the initial starting point of the search becomes crucial
in order to obtain good results. This paper presents new heuristics to
find a more adequate starting point that could lead to a better solution.
The heuristic is based on the sorting of the variables using the Mutual
Information criterion, and then performing parallel local searches. These
local searches provide an initial starting point for the actual parallel
Forward-Backward algorithm
A review and comparison of strategies for multi-step ahead time series forecasting based on the NN5 forecasting competition
Multi-step ahead forecasting is still an open challenge in time series
forecasting. Several approaches that deal with this complex problem have been
proposed in the literature but an extensive comparison on a large number of
tasks is still missing. This paper aims to fill this gap by reviewing existing
strategies for multi-step ahead forecasting and comparing them in theoretical
and practical terms. To attain such an objective, we performed a large scale
comparison of these different strategies using a large experimental benchmark
(namely the 111 series from the NN5 forecasting competition). In addition, we
considered the effects of deseasonalization, input variable selection, and
forecast combination on these strategies and on multi-step ahead forecasting at
large. The following three findings appear to be consistently supported by the
experimental results: Multiple-Output strategies are the best performing
approaches, deseasonalization leads to uniformly improved forecast accuracy,
and input selection is more effective when performed in conjunction with
deseasonalization
Strategies for the Long-Term Prediction of Time Series using Local Models
Aikasarjan arvojen ennustaminen pitkän matkan päähän on erittäin vaikeaa ja useita ongelmakohtia on otettava huomioon.
Siksipä onkin tärkeää kehittää hyviä ja tarkkoja keinoja päästäkseen ennustamisessa hyvään tarkkuuteen ja pitääkseen virheet mahdollisimman pieninä.
Tässä diplomityössä esitellään kolme erilaista pitkän matkan ennustusstrategiaa: rekursiivinen (Recursive), suora (Direct) sekä näiden yhdistelmä (Dirrec).
Työssä käytetään kahta ennustusmenetelmää: k:n lähimmän naapurin menetelmää ja menetelmää nimeltä Lazy Learning ('laiska oppiminen').
Molempien menetelmien kohdalla esitellään ja vertaillaan alkuperäisiä menetelmiä sekä niihin tehtyjä parannuksia.
Kaikki menetelmät tarvitsevat mallinvalintatyökaluja, joista 4 seuraavaa esitellään tarkemmin: k-kertainen ristiinvalidointi, Leave-one-out ristiinvalidointi, Bootstrap sekä Bootstrap 632.
Toinen tiiviisti aikasarjaennustamiseen liittyvä pulma on oikean syötteen valinta.
Tässä työssä syötteen valinta on sisällytetty edellä mainittujen menetelmien parannuksiin.
Kaikkien mainittujen menetelmien ja strategioiden toimintaa on vertailtu kolmen eri aikasarjan avulla: Santa Fe, Darwin Sea Level Pressure sekä Poland Electricity Load.
Lopuksi otetaan osaa CATS Benchmark -kilpailuun parhaaksi todetulla menetelmällä