Premature barn er i risikogruppen for å utvikle sepsis, også kalt blodforgiftning, på grunn av deres umodne immunforsvar. Sepsis kan ha alvorlige konsekvenser hvis den ikke diagnostiseres og behandles tidlig. Diagnostisering hos premature er utfordrende på grunn av mangelen på klare kriterier. Globale metabolske analyser kan gi innsikt i de biokjemiske prosessene knyttet til ulike helsetilstander, som sepsis. Dette gjøres ved å analysere nivået og tilstedeværelsen av ulike kjemiske forbindelser i metabolske prøver. For å håndtere de store og komplekse datasettene fra globale metabolske analyser, er det nødvendig med verktøy som kan både behandle og analysere dataene. Nedenfor følger en beskrivelse av oppgavens problemstilling.
Hvordan kan datadrevne metoder fungere som et hjelpemiddel i metabolske data og helsedata samt hvilke krav stiller dette til tverrfaglig samarbeid? Kan teknikker for støyreduksjon, variabelseleksjon og maskinlæringsalgoritmer anvendes for å identifisere metabolitter/kjemiske forbindelser som har en sammenheng med sepsis?
CRISP-DM, Cross Industry Process for Data Mining, har blitt brukt som metodisk rammeverk i denne oppgaven. CRISP-DM er en standardiserte prosess som gir en strukturert tilnærming til prosjekter som omfatter analyse av store datamengder. I oppgaven har det blitt benyttet et datasett som inneholder helsedata fra premature barn, som inkluderer prøveresultater fra metabolske analyser av blodprøver.
Et av de sentrale funnene i prosjektperioden er at dataanalyse er et effektivt verktøy for å oppdage avvik i helse- og metabolske data. De fleste avvikene som ble oppdaget, kunne ikke ha blitt avdekket eller håndtert uten kunnskapen fra en klinker og den ansvarlige for den metabolske analysen. Dette understreker viktigheten av tverrfaglig samarbeid for å forbedre datakvaliteten.
Datasettet som ble brukt, inneholder flere variabler enn observasjoner, noe som gjorde det nødvendig å benytte preprosesseringsteknikker for å redusere kompleksiteten for å hjelpe maskinlæringsalgoritmene med å finne de underliggende mønstrene. I oppgaven ble ulike teknikker for skalering, støyredusering og variabelseleksjon testet. Den prediktive ytelsen til ulike maskinlæringsmodeller ble evaluert på datasett med og uten preprosessering for å vurdere effekten av disse teknikkene. Resultatene antyder at datasettene med preprosessering presterte bedre på enkelte modeller, spesielt de basert på logistisk regresjon.
Denne forbedringen i prediktiv ytelse kan antyde at preprosesseringsteknikkene kan ha fremhevet kjemiske forbindelser som er relevante for sepsis. Dette er imidlertid kun en indikasjon, da endelig evaluering krever biologisk validering.
Det er fortsatt usikkerhet knyttet til datakvaliteten, som krever nærmere undersøkelser i samarbeid med personer som har kjennskap til datasettet og den metabolske analysemetoden. Alle testede modeller viser tegn til overtilpasning, og det er mulig at andre kombinasjoner av preprosesseringsteknikker kan gi bedre resultater enn det som ble oppnådd i denne oppgaven. En mer systematisk uttesting av ulike preprosesseringsteknikker ville derfor vært fordelaktig.Preterm infants have an elevated risk of developing sepsis, also known as blood poisoning, due to their underdeveloped immune systems. Sepsis can have serious consequences if not diagnosed and treated early. Diagnosis in premature infants is challenging due to the lack of clear criteria. Untargeted metabolic analyses can provide insight into the biochemical processes associated with various health conditions, such as sepsis. This is done by analyzing the level and presence of various chemical compounds in metabolic samples. To manage the large and complex datasets from untargeted metabolic analyses, tools are needed that can both process and analyze the data. Below is a description of the thesis's main research question.
How can data-driven methods serve as an aid in metabolic data and health data, and how does this relate to interdisciplinary collaboration? Can techniques for noise reduction, variable selection, and machine learning algorithms be used to identify metabolites/chemical compounds that are associated with sepsis?
CRISP-DM, Cross Industry Process for Data Mining, are used as the main methodological framework in this thesis. CRISP-DM is a standardized process that provide a structured approach towards projects which revolves around the analyzation of large datasets. In this thesis, a dataset containing health data from premature infants has been used, which includes test results from metabolic analyses of blood samples.
One of the key findings during the project period is that data analysis is an effective tool for detecting anomalies in health and metabolic data. Most of the anomalies that were discovered could not have been detected or handled without the knowledge of a clinician and the person responsible for the metabolic analysis. This highlights the importance of interdisciplinary collaboration to improve data quality.
The dataset used contains more variables than observations, making it necessary to employ preprocessing techniques to reduce complexity and help machine learning algorithms find underlying patterns. In this thesis, various techniques for scaling, noise reduction, and variable selection were tested. The predictive performance of various machine learning models was evaluated on datasets with and without preprocessing to assess the effect of these techniques. The results suggest that the preprocessed datasets performed better on some models, especially those based on logistic regression.
This improvement in predictive performance may suggest that the preprocessing techniques may have highlighted chemical compounds relevant to sepsis. However, this is only an indication, as final evaluation requires biological validation.
There is still uncertainty regarding the data quality, which requires further investigation in collaboration with individuals who have knowledge of the dataset and the metabolic analysis method. All tested models show signs of overfitting, and it is possible that other combinations of preprocessing techniques could yield better results than those achieved in this thesis. A more systematic testing of different preprocessing techniques would therefore be beneficial
Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.