Algorithms for robust PCA and applications for multi-way data.

Abstract

De statistische analyse van hoog-dimensionale gegevens kent een groeiende interesse in veel wetenschappelijke gebieden, dankzij de ontwikkeling van nieuwe technolog ieën, die toelaten om steeds meer eigenschappen van één onderzoeksobject simultaan te meten. Manuele en visuele inspectie van dergelijke gegevens zou voorname lijk leiden tot onvolledige of zelfs onjuiste besluiten. Het gebruik van dimensie-reductie technieken, zoals principale componenten analyse (PCA) , wordt daarentegen sterk aangeraden. Het verzamelen van grote hoeveelheden gegevens heeft echter ook tot gevolg dat de kans op de aanwezigheid van beschadigde of onzinnige elementen in de data zeer reëe l wordt. Dit kan vele oorzaken hebben, zoals bijvoorbeeld fout gekalibreer de meetinstrumenten, de onachtzaamheid van de wetenschapper, gewijzigde laboratorium omstandigheden, enz. Al deze gecontamineerde waarden kunnen worden onderverdeeld in twee klassen. De eerste soort bestaat uit observaties d ie volledig verschillen van de meerderheid van de overige punten. Deze obse rvaties hebben met andere woorden een sterk afwijkend profiel. We noemen dit typ e van gecontamineerde punten uitschietende observaties, uit schieters van het eerste type of kortweg uitschieters. De tweede kl asse van afwijkende gegevens zijn de elementsgewijze uitschieters </ &gt;of uitschieters van de tweede soort. Dit zijn elementen binnen één observatie di e zeer onverwachte waarden hebben. We kunnen dus stellen dat punten met elementsgewijze uitschieters slechts gedeeltelijk beschadigd zijn. Het is algemeen geweten dat beide soorten uitschieters een zeer negatieve invloed uitoefenen op de klassieke kleinste kwadraten methoden. Daarom is er de laatste decennia zeer veel onderzoek verricht om het doorbreken van de klassieke methoden, omw ille van uitschieters, te voorkomen en werden er robuuste alternatieven ontwikkel d. Met het ontstaan van ROBPCA [Hubert et al., 2005] is er een grote stap voorwaarts gezet binnen de robuuste statistiek, waarmee de nefaste effecten van uitschietende observaties op de klassieke principaal componenten analyse omzeild worden. ROBPCA kent vele voordelen. Ten eerste is het een robuus te dimensie-reductie techniek, die bruikbaar is voor zowel laagals hoog-dimensionale gegevens. Bovendien is ROBPCA zeer gebruiksvriendelijk , want het algoritme is reeds gemplementeerd in verschillende statistische pakk etten, zoals R en S-Plus, en MATLAB en resultaten worden verschaft binnen een redelijke rekentijd. Verder is de ROBPCA methode zeer uitgebreid bestude erd door toepassing ervan op chemische data sets, met zeer positieve besluit en tot gevolg. In dit werk verdiepen we ons verder in de mogelijkheden die ROBP CA biedt. In hoofdstuk 1, het eerste deel van dit werk, bekijken we de performantie van ROBPCA opnieuw , maar nu voor biologische gegevens. Bovendien zullen we ook onderzoeken in hoe verre ROBPCA kan dienen als eerste stap binnen een classificatie methode voor hoog-dimensionale data. Het tweede deel van deze dissertatie is gewijd aan de constructie van een snelle en robuuste mode l selectie methode voor ROBPCA en de robuuste regressie technieken RSIMPLS [Hubert and Vanden Branden, 2003] en RPCR [Hubert and Verboven, 200 3]. Er bestaan reeds verschillende procedures om het optimale aantal componente n te bepalen. Zo kan bijvoorbeeld de scree-plot [Jolliffe, 19 86] voor principale componenten analyse en de robuuste R2-waarde [Hubert and Verboven, 2003] voor beide regressie technieken gebruikt worden. Een andere populaire methode voor modelselectie en model validatie is de leave-one-out gekruiste validatie (CV).Voor een een ( n x p) data matrix X leidt deze gekruiste validati e techniek binnen de context van de principale componenten analyse tot de Predicted Residual Error Sum of Squares (PRESS) stati stiek. De optimale waarde voor kopt is dan die k&amp;nbs p;waarvoor PRESSk klein genoeg is. Voor regressie kan een equivalente statistiek, de Root Mean Squared E rror voor gekruiste validatie (RMSECV) gedefinieerd worden. Opnieuw wordt kopt bepaald als de k-waarde waarvoor RMSECVk klein genoeg of minimaal is. Twee nieuwe problemen doen echter hun intrede. Beide statistieken zijn niet robuust. bovendien , is de leave-one-out gekruiste validatie een zeer tijdsrovende techniek, zeker wanneer deze wordt toegepast binnen robuuste resampling algoritm es, zoals ROBPCA. Bedenk dat bijvoorbeeld ROBPCA n x kmax keer moet worden uitgevoerd om de PRESSk statistiek te kunnen berekenen voor verschillende waarden van k = 1, , kmax</ &gt;. Het is dus niet moeilijk te in te zien dat de berekening van de PRESS-waarden voor ROBPCA en de RMSECV-waarden voor RSIMPLS en RPCR aanleiding geven tot computationeel zeer zware procedures. Dit probleem van zowel de rekentijd als de robuustheid worden beiden behandeld in hoofdstukken 2, 3 en 4 van deze dissertatie. Hoofdstuk 2 richt zich op de ontwikkeling van het ROBPCA-kmax algoritme, dat r obuuste PCA modellen met k = 1, , kmax componenten tegelijk verschaft na het eenmali g toepassen van ROBPCA. Dit benaderend algoritme wordt beoordeeld door middel van een simulatie stud ie, waaruit blijkt dat de ROBPCA-kmax procedure als een volwaardige alternatief voor het kmax keer uitvoe ren van ROBPCA kan worden beschouwd. In hoofdstuk 3, wijden we eerst uit over hoe we een robuuste PRESS statistiek kunnen bekomen. D it wordt bereikt door het toevoegen van gewichten wi aan de definitie van PRESSk, wat volledig in overeenstemming is met de manier waarop de R2-statistiek [Hubert and Verboven, 2003] robuust gemaakt werd. Verder onderzoeken we hoe we de berekeningstijd van deze R-PRESS statistiek kunnen laten dalen. De ROBPCA-kmax techniek van hoofdstuk 2 en het hernemen va n de uitkomst van ROBPCA, toegepast op de volledige data set en met kmax componenten, zodat het resampling gedeelte kan worden overgeslagen, zullen hiertoe worden gebruikt. Door middel van een simulatie studie en voorbeelden wordt de ontwikkelde techniek geëvalueerd. Uiteindelijk zullen gelijkaardige technieken als die van hoofdstuk 3 er ook voor zorgen dat de RMSECV statistiek robuust wordt en versneld kan worden berekend. De gebruikte procedures staan beschreven in hoofdstuk 4. Opnieuw zullen voorbeelden aantonen dat de bekomen benaderende R-RMSECV statistiek toch snel en nauwkeurig een aanwijzing geeft over het optimale aantal componenten in het regressie model. Het derde en laatste grote deel van deze thesis beschrijft toepassingen van ROBPCA in <I &gt;multi-way gegevens. De term multi-way gegevens omvat alle data die voor verschillende verzam elingen van variabelen tegelijkertijd gemeten is. Het is daardoor ook natuurlijk er om dit type van gegevens te organiseren in een kubus (i.e. three-wa y gegevens) of een hogere orde tensor, in plaats van ze te forceren in matrixvorm (i .e. two-way gegevens). We werken binnen deze uiteenzetting met three-way dat a X van grootte (I xJxK), die bestaat uit I observaties ge meten voor J variabelen van de eerste soort en K variabelen van het tweede type. Een zeer typisch voorbeeld van three-way data zijn de fluorescentie data sets, waarbij de intensiteit van licht, dat geëxciteerd is op bepaalde golflengten, wordt gemeten voor bepaalde emissie-golflengten. Er bestaan reeds verscheidene methoden om deze three-way gegevens te modeleren, waaronder het PARAFAC model [Harshman, 1970; Carroll and Chang, 1970] en het Tuck er3 model [Tucker, 1966] de bekendste zijn. Beide algoritmes berekenen een score-m atrix A and twee loading-matrices B en C, die de g egevens samenvatten met F componenten op een meer informatievolle manier. Da ardoor kunnen PARAFAC en Tucker3 beschouwd worden als veralgemeningen van de principal e componenten analyse naar multi-way gegevens. In dit werk beperken we ons tot het PARAFAC model. Aangezien een alternerend kleinste kwadraten procedure gebruikt wordt om A, B en C te bepalen, zal het PARAFAC model sterk be&uml;&#305;nvloed wor den door beide soorten uitschieters. In hoofdstukken 5, 6 en 7, stellen we oplossingen voor om PARAFAC op een robuuste manier te modelleren. Het zal blijken dat ROBPCA hier een zeer belangrijke rol in zal spelen. In hoofdstuk 5, beginnen we met de ontwikkeling van een robuuste PARAFAC methode, die kan omgaan met uitschietende observaties. Aan de basis van deze techniek ligt het uitvo eren van het klassieke PARAFAC algoritme op een uitschietervrije deelverzamel ing uit de verzameling van alle I observaties. Een cruciale stap hierin is natuurlijk het vinden van deze uitschieter-vrije deelverzameling. ROBPCA zal hierbinnen gebruikt worden om een startverzameling te genereren. In het volgende hoofdstuk 6 wordt er onderzocht hoe de gekende problemen met scattering in fluorescentie data kunnen worden opgelost. Het is reeds overtuigend aang etoond dat Rayleigh en Raman scatter, die voorkomen in fluorescentie gegevens o mwille van instrumentele ruis, een slecht geschat PARAFAC model veroorzaken. De ze scattering kan worden beschouwd als systematische elementsgewijze uitsch ieters, omdat de scatter aanwezig is in alle observaties op ongeveer dezelfde pl aats. Er werden reeds verschillende studies gewijd aan het teniet doen van het nefaste effect van scattering op het PARAFAC model. Al deze studies vere isen echter een visuele inspectie van de gegevens om de locatie van de scatter aan t e geven. Deze methodes zijn daarom niet aangewezen wanneer verscheidene da ta sets moeten worden geanalyseerd. Bovendien wordt dit visueel spotten van scat tering zelfs problematisch, wanneer de scatter en het chemische signaal overlap pen. Daarom wordt in hoofdstuk 6 een geautomatiseerd scatter identificatie pr ogramma ontwikkeld. Een belangrijke stap in het algoritme bestaat uit het omvorm en van de three-way data naar matrices, waarbinnen de elementsgewijze contamina ties in X zullen optreden als uitschietende observaties. Daarna kan R OBPCA worden gebruikt om deze uitschieters automatisch te detecteren. Het laatste hoofdstuk 7 zal tenslotte de algoritmes van hoofdstuk 5 en hoofdstuk 6 combineren, z odat een volledig geautomatiseerde robuuste PARAFAC methode ontstaat, die zow el kan omgaan met de uitschietende observaties als de elementsgewijze uitschiet ers binnen fluorescentie data. Een simulatie studie en de toepassing van de ontwikkelde methode op een voorbeeld hebben uitgewezen dat deze gecombineerde method e de klassieke en beide methodes van hoofdstuk 5 en 6 heeft overtroffen voor data sets die beide uitschieters bevatten. Enkel de lange berekeningstijd van deze gecombineerde techniek is een minpunt. We beëindigen deze Nederlandse samenvatting met een korte opmerking over de gebruikte stati stische software. Alle voorgestelde technieken werden geschreven in MATLAB en ku nnen worden uitgevoerd met behulp van de MATLAB toolbox voor robuuste analyse s (LIBRA) [Verboven and Hubert, 2005] en de PLS-toolbox [Wise et al., 2004]. De LIBRA toolbox kan worden gedownload van de website http://wis.kuleuven.be/stat/robust/ LIBRA.html. De procedures van de eerste vier hoofdstukken zijn reeds beschikbaar in deze toolbox. De technieken van de laatste drie hoofdstukken zullen in de toe komst kunnen geraadpleegd worden van dezelfde bovenvernoemde webstek en zullen bovendien geïmplementeerd worden in de PLS toolbox. Referenties Carroll, J. and Chang, J. (1970). Analysis of individual differences in multidime nsional scaling via an N-way generalization of Eckart-Young decomposition. Psychometrika 35 283 319. Harshman, R. (1970). Foundations on the PARAFAC procedure: model and conditions for an explanatory multim ode factor analysis. UCLA Working PaperPhonetics 16 1 84. Hubert, M., Rousseeuw, P. and Vanden Branden, K. (2005). ROBPCA: a new approach to robust princ ipal components analysis. Technometrics 47 64 79. Hubert, M. and Vanden Branden, K. (2003). Robust methods for Partial Least Squares Regression. Journal of Chemometrics 17 537 549. Hubert, M. and Verboven, S. (2003). A robust PCR method for highdimensional regress ors. Journal of Chemometrics 17 438 452. Jolliffe, I. (1986). Principal Component Analysis. Springer, New York. Tucker, L. (1966). Some mathematical notes on three-mode factor analysis. P sychometrika 31 279 311. Verboven, S. and Hubert, M. (2005). LIBRA: a Matlab library for robust analysis.&amp;n bsp;Chemometrics and Intelligent Laboratory Systems 75 127 136. Wise, B., Gallagher, N., Bro, R., Shaver, J., Windig, W. and Koch, R. (2004). PLS Toolbox 3.5 for use with MATLAB. Software, Eigenvector Research, Inc. , August 2004. URL http://softwar e.eigenvector.com/status: publishe

    Similar works

    Full text

    thumbnail-image

    Available Versions