194 research outputs found
Recommended from our members
Machine learning to model health with multimodal mobile sensor data
The widespread adoption of smartphones and wearables has led to the accumulation of rich datasets, which could aid the understanding of behavior and health in unprecedented detail. At the same time, machine learning and specifically deep learning have reached impressive performance in a variety of prediction tasks, but their use on time-series data appears challenging. Existing models struggle to learn from this unique type of data due to noise, sparsity, long-tailed distributions of behaviors, lack of labels, and multimodality.
This dissertation addresses these challenges by developing new models that leverage multi-task learning for accurate forecasting, multimodal fusion for improved population subtyping, and self-supervision for learning generalized representations. We apply our proposed methods to challenging real-world tasks of predicting mental health and cardio-respiratory fitness through sensor data.
First, we study the relationship of passive data as collected from smartphones (movement and background audio) to momentary mood levels. Our new training pipeline, which combines different sensor data into a low-dimensional embedding and clusters longitudinal user trajectories as outcome, outperforms traditional approaches based solely on psychology questionnaires. Second, motivated by mood instability as a predictor of poor mental health, we propose encoder-decoder models for time-series forecasting which exploit the bi-modality of mood with multi-task learning.
Next, motivated by the success of general-purpose models in vision and language tasks, we propose a self-supervised neural network ready-to-use as a feature extractor for wearable data. To this end, we set the heart rate responses as the supervisory signal for activity data, leveraging their underlying physiological relationship and show that the resulting task-agnostic embeddings can generalize in predicting structurally different downstream outcomes through transfer learning (e.g. BMI, age, energy expenditure), outperforming unsupervised autoencoders and biomarkers. Finally, acknowledging fitness as a strong predictor of overall health, which, however, can only be measured with expensive instruments (e.g., a VO2max test), we develop models that enable accurate prediction of fine-grained fitness levels with wearables in the present, and more importantly, its direction and magnitude almost a decade later.
All proposed methods are evaluated on large longitudinal datasets with tens of thousands of participants in the wild. The models developed and the insights drawn in this dissertation provide evidence for a better understanding of high-dimensional behavioral and physiological data with implications for large-scale health and lifestyle monitoring.The Department of Computer Science and Technology at the University of Cambridge through the EPSRC through Grant DTP (EP/N509620/1), and the Embiricos Trust Scholarship of Jesus College Cambridg
Prediction of oxygen uptake (VO2) using neural networks
This thesis focuses on using neural network models for the prediction of oxygen uptake (VO2). The predictions are made using regression techniques. The dataset contains independent predictor variables such as heart rate (HR), energy expenditure (EE), height, body mass, gender and age. VO2 is the output dependent variable. The goal is to evaluate and compare the performance of neural networks to other machine learning techniques such as support vector machines and multiple linear regression.
Few neural network models have been tested previously in the literature for maximal oxygen uptake (VO2max) prediction. During the last decade, most approaches have focused on support vector machines and linear regression equations. In this thesis, data collected at the University of Jyväskylä is used to create a dataset for the prediction of VO2. A detailed statistical analysis has been performed to see the relationship between speed, VO2 and energy expenditure. Using 8 different combinations of predictor variables, neural network’s performance and the effect of predictor variables on the performance is measured. Data pre-processing is performed. R2 value and root mean square error value is used for measuring the performance of the machine learning models. Same data set is used for all models to ensure accurate results.
The results of this thesis show that speed, VO2 and energy expenditure have a direct relationship. Males show higher energy produced as compared to females. The neural network model outperformed support vector machine and multiple linear regression by resulting in accurate predictions, high R2 value and low root mean square value. The highest accuracy is achieved with the model containing all predictor variables. The inclusion of HR as a predictor variable is important due to its effect on the performance of the model.
Further advancements in neural networks can allow more accurate VO2 predictions, the model can also be used in a wearable device for real-time VO2 prediction. The same approach can be extended to predict VO2max values
A mathematical model for predicting HR max, VO2 max, and oxygen uptake kinetics during treadmill walking and running at varied intensities
Maximal oxygen uptake (VO2 max) is difficult to measure and most predictions are inaccurate due to a variety of assumptions. The purpose of this study was to validate a dynamical system model (DSM) for predicting HR max and VO2 max during walking and running. A secondary purpose was to predict VO2 responses using a neural network. Twenty-six healthy males completed a maximal cardiopulmonary exercise test (CPET) and a submaximal protocol. The models were applied to the submaximal data to estimate the participants’ HR/VO2 responses and predict their HR max and VO2 max. The model accurately tracked HR and VO2 responses (R2 = -.85-0.99). However, it did not accurately estimate max (R2 < 0). Further refinement of the model is needed. This study elucidated some of the challenges of using a DSM and demonstrated that a neural network may be useful for easily predicting VO2 responses.Master of Art
Recommended from our members
Digital phenotyping through multimodal, unobtrusive sensing
The growing adoption of multimodal wearable and mobile devices, such as smartphones and wrist-worn watches has generated an increase in the collection of physiological and behavioural data at scale. This digital phenotyping data enables researchers to make inferences regarding users’ physical and mental health at scale, for the first time. However, translating this data into actionable insights requires computational approaches that turn unlabelled, multimodal time-series sensor data into validated measures that can be interpreted at scale.
This thesis describes the derivation of novel computational methods that leverage digital phenotyping data from wearable devices in large-scale populations to infer physical behaviours. These methods combine insights from signal processing, data mining and machine learning alongside domain knowledge in physical activity and sleep epidemiology. First, the inference of sleeping windows in free-living conditions through a heart rate sensing approach is explored. This algorithm is particularly valuable in the absence of ground truth or sleep diaries given its simplicity, adaptability and capacity for personalization. I then explore multistage sleep classification through combined movement and cardiac wearable sensing and machine learning. Further, I demonstrate that postural changes detected through wrist accelerometers can inform habitual behaviours and are valuable complements to traditional, intensity-based physical activity metrics. I then leverage the concomitant responses of heart rate to physical activity that can be captured through multimodal wearable sensors through a self-supervised training task. The resulting embeddings from this task are shown to be useful for the downstream classification of demographic factors, BMI, energy expenditure and cardiorespiratory fitness. Finally, I describe a deep learning model for the adaptive inference of cardiorespiratory fitness (VO2max) using wearable data in free living conditions. I demonstrate the robustness of the model in a large UK population and show the models’ adaptability by evaluating its performance in a subset of the population with repeated measures ~6 years after the original recordings.
Together, this work increases the potential of multimodal wearable and mobile sensors for physical activity and behavioural inferences in population studies. In particular, this thesis showcases the potential of using wearable devices to make valuable physical activity, sleep and fitness inferences in large cohort studies. Given the nature of the data collected and the fact that most of this data is currently generated by commercial providers and not research institutes, laying the foundations for responsible data governance and ethical use of these technologies will be critical to building trust and enabling the development of the field of digital phenotyping.I was funded by GlaxoSmithKline and the Engineering and Physical Sciences Research Council. I was also supported by the Alan Turing Institute through their Enrichment Scheme
Predicting Elite Triathlon Performance - A Comparison of Multiple Regressions and Artificial Neural Networks
Abstract
Two different computational approaches were used to predict Olympic distance triathlon race time of German male elite triathletes. Anthropometric measurements and two treadmill running tests to collect physiological variables were repeatedly conducted on eleven male elite triathletes between 2008 and 2012. After race time normalization, exploratory factor analysis (EFA), as a mathematical preselection method, followed by multiple linear regression (MLR) and dominance paired comparison (DPC), as a preselection method considering professional expertise, followed by nonlinear artificial neural network (ANN) were conducted to predict overall race time. Both computational approaches yielded two prediction models. MLR provided R² = 0.41 in case of anthropometric variables (predictive: pelvis width and shoulder width) and R² = 0.67 in case of physiological variables (predictive: maximum respiratory rate, running pace at 3-mmol·L-1 blood lactate and maximum blood lactate). ANNs using the five most important variables after DPC yielded R² = 0.43 in case of anthropometric variables and R² = 0.86 in case of physiological variables. The advantage of ANNs over MLRs was the possibility to take non-linear relationships into account. Overall, race time of male elite triathletes could be well predicted without interfering with individual training programs and season calendars.</jats:p
A Framework for Intelligent Inventory Prediction in Small and Medium- Scale Enterprise
The aim of this research is to apply an intelligent technique to predict optimal inventory quantity in small and medium-scale enterprise. This is in view of the fact that the conventional models such as the EOQ model use only deterministic while some decision variables are non- deterministic in nature. Forecasted average demand of items for ten months in a small-scale retail outlet was collected and trained using an Artificial Neural Networks (ANN) of 5 neurons in the input layer with eight neurons in the first hidden layer and four neurons in the second hidden layer. Two feed-forward training algorithms of quasi-newton and quick propagation were employed in the training with the results of fuzzy logic technology found in the literature as the target output. Results obtained show that the quasi-newton algorithm covaries stronger with the fuzzy logic results than the quick propagation results. The objective and subjective feelings of the inventory manager were also captured to optimise the results of the training. The study is at a framework stage and will proceed to implementation level when more datasets are collected. Data collection in a small-scale outlet is a daunting task as record keeping is hardly done. The inclusion of non-deterministic circumstances such as emotional and objective feelings of the inventory manager to predict inventory is novel considering the fact that studies in the available intelligent inventory prediction have not employed such variables in their predictions. Keywords: Artificial Neural networks, Fuzzy logic, Quasi newton, Quick propagation, EOQ, Inventory, Forecast. DOI: 10.7176/EJBM/13-2-03 Publication date: January 31st 202
A framework for intelligent inventory prediction in small and medium- scale enterprise.
The aim of this research is to apply an intelligent technique to predict optimal inventory quantity in small and medium-scale enterprise. This is in view of the fact that the conventional models such as the EOQ model use only deterministic while some decision variables are non-deterministic in nature. Forecasted average demand of items for ten months in a small-scale retail outlet was collected and trained using an Artificial Neural Networks (ANN) of 5 neurons in the input layer with eight neurons in the first hidden layer and four neurons in the second hidden layer. Two feed-forward training algorithms of quasi-newton and quick propagation were employed in the training with the results of fuzzy logic technology found in the literature as the target output. Results obtained show that the quasi-newton algorithm covaries stronger with the fuzzy logic results than the quick propagation results. The objective and subjective feelings of the inventory manager were also captured to optimise the results of the training. The study is at a framework stage and will proceed to implementation level when more datasets are collected. Data collection in a small-scale outlet is a daunting task as record keeping is hardly done. The inclusion of non-deterministic circumstances such as emotional and objective feelings of the inventory manager to predict inventory is novel considering the fact that studies in the available intelligent inventory prediction have not employed such variables in their predictions
Prediction and structure of triathlon performance in recreational and elite triathletes
Die Sportart Triathlon kombiniert die drei Ausdauersportarten Schwimmen, Radfahren und Laufen, die nacheinander ohne Pause ausgeführt werden und in eine Gesamtwettkampfzeit münden. Die Olympische Distanz über 1.5 km Schwimmen, 40 km Radfahren und 10 km Laufen stellt die am meisten verbreitete Wettkampfdistanz dar, sowohl im Amateur- als auch im Profi-Bereich. Als Ausdauer determinierte Sportart erfordert Triathlon, wie auch die drei Einzeldisziplinen, spezifische physiologische Anforderungen. Zahlreiche weitere Bereiche wie die Anthropometrie der Athletinnen und Athleten, psychologische Voraussetzungen und vieles mehr können ebenfalls leistungsdeterminierend sein. Es ist davon auszugehen, dass selbst die einzelnen Streckenlängen im Triathlon – neben der Olympischen Distanz existieren noch die kürzere Sprint- sowie die längere Halb- und Langdistanz – jeweils spezifische Charakteristika mit sich bringen, die durch eine angepasste Vorbereitung und Trainingsgestaltung vorbereitet werden können.
Die Bestimmung solch leistungsrelevanter Parameter einer Sportart oder einer sportlichen Leistung werden im Bereich der Trainingswissenschaft als Struktur der sportlichen Leistung zusammengefasst und bilden die Grundlage für wissenschaftlich fundierte Aussagen zur Trainingsgestaltung, Talentauswahl und vielem mehr. Eng damit verbunden ist die Prognose sportlicher Leistung, die auf Basis der identifizierten Parameter und deren Quantifizierung mittels einer aktuellen leistungsdiagnostischen Untersuchung eine Prognose der tatsächlichen Wettkampfleistung bspw. in Form einer Gesamtwettkampfzeit ermöglichen kann. Die Verknüpfung dieser beiden Aspekte – die Prognose und die Struktur der sportlichen Leistung in der Sportart Triathlon – bilden den Kern der vorliegenden Dissertation, wobei sowohl Amateur- als auch Profi-Sportler in den Fokus genommen wurden.
Die Dissertation umfasst acht Kapitel. Nach einem kurzen Vorwort und einer allgemeinen Einführung in die Thematik (Kapitel 1) liefert Kapitel 2 den theoretischen und methodischen Hintergrund. Insbesondere werden die Besonderheiten, Rahmenbedingungen und Voraussetzungen der Sportart Triathlon, der aktuelle Forschungsstand in den Bereichen der Prognose und Struktur sportlicher Leistung sowie die in dieser Thesis verwendeten methodischen Ansätze näher beleuchtet. Da der Einsatz unterschiedlicher Methoden ein wichtiger Bestandteil dieser Arbeit darstellt wird deren Einsatz in den drei Studien (Kapitel 4 bis 6) ausführlicher vorbereitet: die explorative Faktorenanalyse und der Dominanz-Paar-Vergleich als Verfahren zur Vorselektion leistungsrelevanter Parameter, die multiple lineare Regression und künstliche neuronale Netze zur Prognose der individuellen Gesamtwettkampfzeit sowie die Strukturgleichungsanalyse als Verfahren zur Berechnung eines Strukturgleichungsmodells der sportlichen Leistung im Triathlon.
Nach der Ableitung der Fragestellungen und der Darstellung der Ziele der vorliegenden Thesis (Kapitel 3), liefern die Forschungsarbeiten in den drei darauffolgenden Kapiteln Erklärungsansätze hierzu. Die Studie in Kapitel 4 liefert erste Erkenntnisse und weist Leistungsparameter nach, die zur Prognose der individuellen Wettkampfleistung von Amateur-Triathleten über die Sprintdistanz dienen. Hierbei wurden anthropometrische, physiologische und trainingsbezogene Parameter im Rahmen einer Leistungsdiagnostik unter Laborbedingungen unmittelbar vor einem Triathlon Wettkampf erfasst und statistische Zusammenhänge zur erbrachten Wettkampfleistung hergestellt. Drei Modelle zur Prognose der Wettkampfleistung konnten mittels linearer Regression berechnet und dabei leistungsrelevante Parameter identifiziert werden. Das auf dem physiologischen Parameter Blutlaktatkonzentration nach 18 min bei 200 W auf einem Fahrradergometer aufbauende Prognosemodel liefert die höchste Varianzaufklärung (R² = 0.71), gefolgt von den Modellen basierend auf den anthropometrischen Parametern Beinlänge und Armspannweite (R² = 0.67) und dem trainingsbezogenen Parameter Trainingsumfang im Schwimmen (R² = 0.41). Nachgewiesen werden konnte, dass dies selbst bei kleinen Stichproben möglich ist und Hinweise zur Trainingsgestaltung und zur Wettkampfeinteilung liefern kann, insbesondere im Amateur-Bereich jedoch mit einer stark eingeschränkten Generalisierbarkeit verbunden sein dürfte. Eine Herausforderung bei größeren Studien dürfte daher die vergleichbare Erfassung der Gesamtwettkampfzeit als abhängige Variable darstellen.
Die Studie in Kapitel 5 untersucht auf Basis der vorangegangenen Erfahrungen die Prognose der Gesamtwettkampfzeit von Profi-Triathleten über die olympische Distanz. Hierbei wurden die routinemäßig durchgeführten leistungsdiagnostischen Untersuchungen von Triathleten, die in der Vorbereitung auf die olympischen Sommerspiele im Jahr 2012 durch das Institut für Angewandte Trainingswissenschaft in Leipzig getestet wurden, analysiert und für die Berechnungen der Prognosemodelle verwendet. Dem hohen Maß an Standardisierung der Testungen mit einer großen Anzahl an erfassten Parametern stand die Notwendigkeit der Normalisierung der Gesamtwettkampfzeiten gegenüber. Dies war notwendig, da die Profi-Triathleten an unterschiedlichen Wettkämpfen teilgenommen hatten, zwar überwiegend über dieselbe Streckenlänge jedoch mit unterschiedlichsten Streckenprofilen, Teilnehmerfeldern, klimatischen Bedingungen, etc. Im Vergleich zur bisherigen Literatur konnten mit zwei unterschiedlichen Ansätzen – multiple Regressionen für lineare und künstliche neuronale Netze für nichtlineare Zusammenhänge zwischen Parametern und Gesamtwettkampfzeit – gute Ergebnisse für Prognosemodelle auf Basis anthropometrischer und physiologischer Parameter erzielt werden. Beide Ansätze lieferten je zwei Prognosemodelle. Die lineare Regression führt zu R² = 0.41 auf Basis anthropometrischer Parameter (prädiktiv: Beckenbreite und Schulterbreite) und zu R² = 0.67 auf Basis physiologischer Parameter (prädiktiv: maximale Atemfrequenz, Laufgeschwindigkeit bei 3-mmol·L-1 Blutlaktatkonzentration und maximale Blutlaktatkonzentration). Basierend auf den jeweils fünf relevantesten Parametern einer Vorselektion führen künstliche neuronale Netze zu R² = 0.43 auf Basis anthropometrischer Parameter und R² = 0.86 auf Basis physiologischer Parameter. Der Vorteil neuronaler Netze gegenüber der linearen Regression liegt dabei in der Möglichkeit nichtlineare Zusammenhänge abzubilden. Im Gegensatz zur durchgeführten Studie mit Amateur-Triathleten stellen die Profi-Triathleten eine sehr homogene Stichprobe dar, die der Grundgesamtheit des deutschen Nationalkaders sehr nahekommt, weshalb die Ergebnisse und insbesondere die identifizierten Leistungsparameter eine höhere Generalisierbarkeit aufweisen, wenn auch für einen sehr kleinen Kreis an Athleten. Insbesondere zur Ableitung von wichtigen Merkmalen für Athletinnen und Athleten in Nachwuchskadern liefern die Ergebnisse wertvolle Hinweise auf potentiell relevante anthropometrische Voraussetzungen sowie auf leistungsrelevante und durch Training beeinflussbare physiologische Parameter.
Die dritte Studie (Kapitel 6) nutzt die Ergebnisse der erstellten Prognosemodelle aus Kapitel 5, um trotz des Vorhandenseins einer kleinen Stichprobe ein Strukturmodell der sportlichen Leistung im Triathlon über die olympische Distanz zu entwickeln. Hierbei konnten schlussendlich drei gültige Modelle erstellt werden, die einen ersten wichtigen Schritt zur wissenschaftlich fundierten Aufklärung der Leistungsstruktur im olympischen Triathlon liefern. Insbesondere das Modell, das die Erfahrung von professionellen Trainern in der Vorauswahl an Parametern nutzt, liefert als gut einzustufende Modellparameter, die im Einklang zu den Erkenntnissen der zuvor erstellten Prognosemodelle und des Strukturmodels basierend auf theoretischen Überlegungen und einschlägiger Literatur stehen. Als relevant einzustufende Parameter sind hier sowohl anthropometrische (Körpergewicht, BMI, fettfreie Körpermasse) als auch physiologische (relative maximale Sauerstoffaufnahme, Laufgeschwindigkeit bei 3-mmol/l Blutlaktatkonzentration, maximale Laufgeschwindigkeit in einem spezifischen Mobilisationstest) Kenngrößen zu nennen. Als Limitation ist der Einsatz einer kleinen Stichprobe zu nennen, da dies bei der Berechnung von Strukturmodellen von Nachteil sein kann, bei der Verwendung von Daten von Profi-Athleten jedoch unvermeidbar ist. Die entwickelten Modelle sind aus mathematisch-statistischer Sicht eindeutig bestimmt, müssen jedoch durch weitere Datensätze ergänzt werden, um umfassendere Modelle zu ermöglichen.
Kapitel 7 liefert schließlich eine allgemeine Diskussion der Forschungsergebnisse und einen Ausblick auf zukünftige Studien. Die Befunde der drei durchgeführten Studien werden zusammengeführt und mit dem bisherigen Wissensstand abgeglichen, um eine umfassendere Betrachtung leistungsrelevanter Parameter der Sportart Triathlon sowie der eingesetzten methodischen Ansätze der multiplen Regression, künstlicher neuronaler Netze sowie der Strukturanalyse vorzunehmen. Die vorliegende Dissertation liefert im Wesentlichen sowohl in der Fachliteratur bereits als leistungsrelevant identifizierte Parameter aber auch bisher weniger betrachtete jedoch als potentiell relevant einzustufende Leistungsparameter. Als wesentliches Ergebnis der Dissertation muss der Einsatz der angewendeten Methoden im Kontext der trainingswissenschaftlichen Leistungsdiagnostik gesehen werden, da dies bisher wenig verbreitet ist. Wissend um die Einschränkung kleiner Stichproben, welche im Profi-Bereich unvermeidbar sind, werden die möglichen Potentiale für zukünftige Studien deutlich und zeigen somit ein spannendes und bedeutsames zukünftiges Forschungsfeld und Implikationen für sich anschließende Studien auf.
Die Dissertation schlieĂźt mit einer allgemeinen Zusammenfassung (Kapitel 8) der vorliegenden Arbeit
- …