Search CORE

2 research outputs found

Clasificación del llanto infantil en entornos de escasez de datos

Author: Cozma Alexandru Marius
Publication venue
Publication date: 10/06/2024
Field of study

Debido a la popularización del aprendizaje automático en la última década, múltiples ámbitos han sido sujetos de aplicación de estas técnicas con el fin de ofrecerles soluciones precisas e inmediatas. Uno de los campos más investigados ha sido la identificación de la causa de los llantos en los infantes, debido a los grandes beneficios que podría tener la resolución de esta problemática tan presente en nuestra sociedad. Actualmente se cuenta con un gran abanico de soluciones basadas en Machine Learning (ML) y Deep Learning (DL), pero todas ellas parten de una base similar, y esta base es la escasez de los datos. Obtener datos de este tipo es una cuestión complicada debido a la sensibilidad de los datos y que su obtención y clasificación requiere de grandes costes temporales y económicos. Además, esta clasificación nunca es completamente precisa debido a la naturaleza subjetiva del sistema auditivo humano. Multitud de esfuerzos han sido llevados a cabo por pulir los distintos modelos de aprendizaje automático más populares, incluso combinando varias de estas soluciones en una sola con el fin de aprovechar las fortalezas de cada una. No obstante, pocos esfuerzos se han realizado en intentar remover el obstáculo de la base de todos los estudios. Entre estos esfuerzos se encuentra la generación sintética de datos con el fin de remediar los balances que puedan existir entre las distintas clases. Distintas técnicas de data augmentation como el oversampling, noise adding u otras manipulaciones del dato original se han efectuado en muy poca medida. Por otro lado, el uso de arquitecturas de aprendizaje automático pensadas para conjuntos de datos pequeños tampoco han sido el foco principal de los investigadores. Las arquitecturas siamesas son un tipo de modelo cuyo principal objetivo es multiplicar la cantidad de datos disponibles al agruparlos en parejas, tripletes o conjuntos de similitud y disimilitud. Esta técnica requiere utilizar una arquitectura base, la cuál es duplicada, triplicada o n-plicada para evaluar las similitudes y diferencias entre estos conjuntos de similitud y disimilitud. Estas arquitecturas aún requieren de varias investigaciones para poder establecer su potencial dentro del ámbito de clasificación de los llantos de los infantes. Por otro lado, una vez pasadas las barreras que actualmente este ámbito de estudio tiene debido a la escasez de datos, muchas empresas e individuos podrán nutrirse del potencial que esta solución puede traer. Este tipo de soluciones son ampliables a cualquier ámbito que requiere una identificación o clasificación de sonidos, con lo que el potencial es enorme. En este trabajo se pretende estudiar este paradigma, con el objetivo de presentar lo que estas nuevas arquitecturas podrían ofrecer

Repositorio Institucional de la Universidad de Alicante

Infant Cry Signal Processing, Analysis, and Classification with Artificial Neural Networks

Author: Ji Chunyan
Publication venue: ScholarWorks @ Georgia State University
Publication date: 13/12/2021
Field of study

As a special type of speech and environmental sound, infant cry has been a growing research area covering infant cry reason classification, pathological infant cry identification, and infant cry detection in the past two decades. In this dissertation, we build a new dataset, explore new feature extraction methods, and propose novel classification approaches, to improve the infant cry classification accuracy and identify diseases by learning infant cry signals. We propose a method through generating weighted prosodic features combined with acoustic features for a deep learning model to improve the performance of asphyxiated infant cry identification. The combined feature matrix captures the diversity of variations within infant cries and the result outperforms all other related studies on asphyxiated baby crying classification. We propose a non-invasive fast method of using infant cry signals with convolutional neural network (CNN) based age classification to diagnose the abnormality of infant vocal tract development as early as 4-month age. Experiments discover the pattern and tendency of the vocal tract changes and predict the abnormality of infant vocal tract by classifying the cry signals into younger age category. We propose an approach of generating hybrid feature set and using prior knowledge in a multi-stage CNNs model for robust infant sound classification. The dominant and auxiliary features within the set are beneficial to enlarge the coverage as well as keeping a good resolution for modeling the diversity of variations within infant sound and the experimental results give encouraging improvements on two relative databases. We propose an approach of graph convolutional network (GCN) with transfer learning for robust infant cry reason classification. Non-fully connected graphs based on the similarities among the relevant nodes are built to consider the short-term and long-term effects of infant cry signals related to inner-class and inter-class messages. With as limited as 20% of labeled training data, our model outperforms that of the CNN model with 80% labeled training data in both supervised and semi-supervised settings. Lastly, we apply mel-spectrogram decomposition to infant cry classification and propose a fusion method to further improve the infant cry classification performance

ScholarWorks @ Georgia State University