625 research outputs found
Class-Level Spectral Features for Emotion Recognition
The most common approaches to automatic emotion recognition rely on utterance-level prosodic features. Recent studies have shown that utterance-level statistics of segmental spectral features also contain rich information about expressivity and emotion. In our work we introduce a more fine-grained yet robust set of spectral features: statistics of Mel-Frequency Cepstral Coefficients computed over three phoneme type classes of interest – stressed vowels, unstressed vowels and consonants in the utterance. We investigate performance of our features in the task of speaker-independent emotion recognition using two publicly available datasets. Our experimental results clearly indicate that indeed both the richer set of spectral features and the differentiation between phoneme type classes are beneficial for the task. Classification accuracies are consistently higher for our features compared to prosodic or utterance-level spectral features. Combination of our phoneme class features with prosodic features leads to even further improvement. Given the large number of class-level spectral features, we expected feature selection will improve results even further, but none of several selection methods led to clear gains. Further analyses reveal that spectral features computed from consonant regions of the utterance contain more information about emotion than either stressed or unstressed vowel features. We also explore how emotion recognition accuracy depends on utterance length. We show that, while there is no significant dependence for utterance-level prosodic features, accuracy of emotion recognition using class-level spectral features increases with the utterance length
End-to-End Audiovisual Fusion with LSTMs
Several end-to-end deep learning approaches have been recently presented
which simultaneously extract visual features from the input images and perform
visual speech classification. However, research on jointly extracting audio and
visual features and performing classification is very limited. In this work, we
present an end-to-end audiovisual model based on Bidirectional Long Short-Term
Memory (BLSTM) networks. To the best of our knowledge, this is the first
audiovisual fusion model which simultaneously learns to extract features
directly from the pixels and spectrograms and perform classification of speech
and nonlinguistic vocalisations. The model consists of multiple identical
streams, one for each modality, which extract features directly from mouth
regions and spectrograms. The temporal dynamics in each stream/modality are
modeled by a BLSTM and the fusion of multiple streams/modalities takes place
via another BLSTM. An absolute improvement of 1.9% in the mean F1 of 4
nonlingusitic vocalisations over audio-only classification is reported on the
AVIC database. At the same time, the proposed end-to-end audiovisual fusion
system improves the state-of-the-art performance on the AVIC database leading
to a 9.7% absolute increase in the mean F1 measure. We also perform audiovisual
speech recognition experiments on the OuluVS2 database using different views of
the mouth, frontal to profile. The proposed audiovisual system significantly
outperforms the audio-only model for all views when the acoustic noise is high.Comment: Accepted to AVSP 2017. arXiv admin note: substantial text overlap
with arXiv:1709.00443 and text overlap with arXiv:1701.0584
Deep fusion of multi-channel neurophysiological signal for emotion recognition and monitoring
How to fuse multi-channel neurophysiological signals for emotion recognition is emerging as a hot research topic in community of Computational Psychophysiology. Nevertheless, prior feature engineering based approaches require extracting various domain knowledge related features at a high time cost. Moreover, traditional fusion method cannot fully utilise correlation information between different channels and frequency components. In this paper, we design a hybrid deep learning model, in which the 'Convolutional Neural Network (CNN)' is utilised for extracting task-related features, as well as mining inter-channel and inter-frequency correlation, besides, the 'Recurrent Neural Network (RNN)' is concatenated for integrating contextual information from the frame cube sequence. Experiments are carried out in a trial-level emotion recognition task, on the DEAP benchmarking dataset. Experimental results demonstrate that the proposed framework outperforms the classical methods, with regard to both of the emotional dimensions of Valence and Arousal
A step towards Advancing Digital Phenotyping In Mental Healthcare
Smartphones and wrist-wearable devices have infiltrated our lives in recent years. According
to published statistics, nearly 84% of the world’s population owns a smartphone,
and almost 10% own a wearable device today (2022). These devices continuously generate
various data sources from multiple sensors and apps, creating our digital phenotypes.
This opens new research opportunities, particularly in mental health care, which has previously
relied almost exclusively on self-reports of mental health symptoms.
Unobtrusive monitoring using patients’ devices may result in clinically valuable markers
that can improve diagnostic processes, tailor treatment choices, provide continuous
insights into their condition for actionable outcomes, such as early signs of relapse, and
develop new intervention models. However, these data sources must be translated into
meaningful, actionable features related to mental health to achieve their full potential.
In the mental health field, there is a great need and much to be gained from defining a
way to continuously assess the evolution of patients’ mental states, ideally in their everyday
environment, to support the monitoring and treatments by health care providers. A
smartphone-based approach may be valuable in gathering long-term objective data, aside
from the usually used self-ratings, to predict clinical state changes and investigate causal
inferences about state changes in patients (e.g., those with affective disorders).
Being objective does not imply that passive data collection is also perfect. It has several
challenges: some sensors generate vast volumes of data, and others cause significant
battery drain. Furthermore, the analysis of raw passive data is complicated, and collecting
certain types of data may interfere with the phenotype of interest. Nonetheless, machine
learning is predisposed to address these matters and advance psychiatry’s era of personalised
medicine.
This work aimed to advance the research efforts on mobile and wearable sensors for
mental health monitoring. We applied supervised and unsupervised machine learning
methods to model and understand mental disease evolution based on the digital phenotype
of patients and clinician assessments at the follow-up visits, which provide ground
truths. We needed to cope with regularly and irregularly sampled, high-dimensional, and
heterogeneous time series data susceptible to distortion and missingness. Hence, the developed
methods must be robust to these limitations and handle missing data properly.
Throughout the various projects presented here, we used probabilistic latent variable
models for data imputation and feature extraction, namely, mixture models (MM) and hidden
Markov models (HMM). These unsupervised models can learn even in the presence
of missing data by marginalising the missing values in the function of the present observations. Once the generative models are trained on the data set with missing values, they can
be used to generate samples for imputation. First, the most probable component/state has
to be found for each sample. Then, sampling from the most probable distribution yields
valid and robust parameter estimates and explicit imputed values for variables that can
be analysed as outcomes or predictors. The imputation process can be repeated several
times, creating multiple datasets, thereby accounting for the uncertainty in the imputed
values and implicitly augmenting the data. Moreover, they are robust to moderate deviations
of the observed data from the assumed underlying distribution and provide accurate
estimates even when missingness is high.
Depending on the properties of the data at hand, we employed feature extraction
methods combined with classical machine learning algorithms or deep learning-based
techniques for temporal modelling to predict various mental health outcomes - emotional
state, World Health Organisation Disability Assessment Schedule (WHODAS 2.0) functionality
scores and Generalised Anxiety Disorder-7 (GAD-7) scores, of psychiatric outpatients.
We mainly focused on one-size-fits-all models, as the labelled sample size per
patient was limited; however, in the mood prediction case, it was possible to apply personalised
models.
Integrating machines and algorithms into the clinical workflow require interpretability
to increase acceptance. Therefore, we also analysed feature importance by computing
Shapley additive explanations (SHAP) values. SHAP values provide an overview of essential
features in the machine learning models by designating the weight of predictability
of each feature positively or negatively to the target variable.
The provided solutions, as such, are proof of concept, which require further clinical
validation to be deployable in the clinical workflow. Still, the results are promising
and lay some foundations for future research and collaboration among clinicians, patients,
and computer scientists. They set the paths to advance future research prospects in
technology-based mental healthcare.En los últimos años, los smartphones y los dispositivos y pulseras inteligentes, comúnmente
conocidos como wearables, se han infiltrado en nuestras vidas. Según las estadísticas
publicadas a día de hoy (2022), cerca del 84% de la población tiene un smartphone y
aproximadamente un 10% también posee un wearable. Estos dispositivos generan datos
de forma continua en base a distintos sensores y aplicaciones, creando así nuestro fenotipo
digital. Estos datos abren nuevas vías de investigación, particularmente en el área de salud
mental, dónde las fuentes de datos han sido casi exclusivamente autoevaluaciones de síntomas
de salud mental.
Monitorizar de forma no intrusiva a los pacientes mediante sus dispositivos puede dar
lugar a marcadores valiosos en aplicación clínica. Esto permite mejorar los procesos de
diagnóstico, adaptar tratamientos, e incluso proporcionar información continua sobre el
estado de los pacientes, como signos tempranos de recaída, y hasta desarrollar nuevos
modelos de intervención. Aun así, estos datos en crudo han de ser traducidos a datos
interpretables relacionados con la salud mental para conseguir un máximo rendimiento de
los mismos.
En salud mental existe una gran necesidad, y además hay mucho que ganar, de definir
cómo evaluar de forma continuada la evolución del estado mental de los pacientes en su
entorno cotidiano para ayudar en el tratamiento y seguimiento de los mismos por parte
de los profesionales sanitarios. En este ámbito, un enfoque basado en datos recopilados
desde sus smartphones puede ser valioso para recoger datos objetivos a largo plazo al
mismo tiempo que se acompaña de las autoevaluaciones utilizadas habitualmente. La
combinación de ambos tipos de datos puede ayudar a predecir los cambios en el estado
clínico de estos pacientes e investigar las relaciones causales sobre estos cambios (por
ejemplo, en aquellos que padecen trastornos afectivos).
Aunque la recogida de datos de forma pasiva tiene la ventaja de ser objetiva, también
implica varios retos. Por un lado, ciertos sensores generan grandes volúmenes de
datos, provocando un importante consumo de batería. Además, el análisis de los datos
pasivos en crudo es complicado, y la recogida de ciertos tipos de datos puede interferir
con el fenotipo que se quiera analizar. No obstante, el machine learning o aprendizaje
automático, está predispuesto a resolver estas cuestiones y aportar avances en la medicina
personalizada aplicada a psiquiatría.
Esta tesis tiene como objetivo avanzar en la investigación de los datos recogidos por
sensores de smartphones y wearables para la monitorización en salud mental. Para ello,
aplicamos métodos de aprendizaje automático supervisado y no supervisado para modelar y comprender la evolución de las enfermedades mentales basándonos en el fenotipo digital
de los pacientes. Estos resultados se comparan con las evaluaciones de los médicos en
las visitas de seguimiento, que proporcionan las etiquetas reales. Para aplicar estos métodos
hemos lidiado con datos provenientes de series temporales con alta dimensionalidad,
muestreados de forma regular e irregular, heterogéneos y, además, susceptibles a presentar
patrones de datos perdidos y/o distorsionados. Por lo tanto, los métodos desarrollados
deben ser resistentes a estas limitaciones y manejar adecuadamente los datos perdidos.
A lo largo de los distintos proyectos presentados en este trabajo, hemos utilizado
modelos probabilísticos de variables latentes para la imputación de datos y la extracción
de características, como por ejemplo, Mixture Models (MM) y hidden Markov Models
(HMM). Estos modelos no supervisados pueden aprender incluso en presencia de datos
perdidos, marginalizando estos valores en función de las datos que sí han sido observados.
Una vez entrenados los modelos generativos en el conjunto de datos con valores
perdidos, pueden utilizarse para imputar dichos valores generando muestras. En primer
lugar, hay que encontrar el componente/estado más probable para cada muestra. Luego,
se muestrea de la distirbución más probable resultando en estimaciones de parámetros robustos
y válidos. Además, genera imputaciones explícitas que pueden ser tratadas como
resultados. Este proceso de imputación puede repetirse varias veces, creando múltiples
conjuntos de datos, con lo que se tiene en cuenta la incertidumbre de los valores imputados
y aumentándose así, implícitamente, los datos. Además, estas imputaciones son
resistentes a desviaciones que puedan existir en los datos observados con respecto a la
distribución subyacente asumida y proporcionan estimaciones precisas incluso cuando la
falta de datos es elevada.
Dependiendo de las propiedades de los datos en cuestión, hemos usado métodos de extracción
de características combinados con algoritmos clásicos de aprendizaje automático
o técnicas basadas en deep learning o aprendizaje profundo para el modelado temporal.
La finalidad de ambas opciones es ser capaces de predecir varios resultados de salud
mental/estado emocional, como la puntuación sobre el World Health Organisation Disability
Assessment Schedule (WHODAS 2.0), o las puntuaciones del generalised anxiety
disorder-7 (GAD-7) de pacientes psiquiátricos ambulatorios. Nos centramos principalmente
en modelos generalizados, es decir, no personalizados para cada paciente sino
explicativos para la mayoría, ya que el tamaño de muestras etiquetada por paciente es
limitado; sin embargo, en el caso de la predicción del estado de ánimo, puidmos aplicar
modelos personalizados.
Para que la integración de las máquinas y algoritmos dentro del flujo de trabajo clínico
sea aceptada, se requiere que los resultados sean interpretables. Por lo tanto, en este trabajo
también analizamos la importancia de las características sacadas por cada algoritmo
en base a los valores de las explicaciones aditivas de Shapley (SHAP). Estos valores proporcionan
una visión general de las características esenciales en los modelos de aprendizaje
automático designando el peso, positivo o negativo, de cada característica en su
predictibilidad sobre la variable objetivo. Las soluciones aportadas en esta tesis, como tales, son pruebas de concepto, que requieren
una mayor validación clínica para poder ser desplegadas en el flujo de trabajo
clínico. Aun así, los resultados son prometedores y sientan base para futuras investigaciones
y colaboraciones entre clínicos, pacientes y científicos de datos. Éstas establecen
las guías para avanzar en las perspectivas de investigación futuras en la atención sanitaria
mental basada en la tecnología.Programa de Doctorado en Multimedia y Comunicaciones por la Universidad Carlos III de Madrid y la Universidad Rey Juan CarlosPresidente: David Ramírez García.- Secretario: Alfredo Nazábal Rentería.- Vocal: María Luisa Barrigón Estéve
- …