4 research outputs found
Recommended from our members
Combined supervised and unsupervised learning to identify subclasses of disease for better prediction
This thesis was submitted for the award of Doctor of Philosophy and was awarded by Brunel University LondonDisease subtyping, which aids in the development of personalised treatments, remains a challenge in data analysis because of the many different ways to group patients based upon their data. However, if I can identify subclasses of disease, this will help to develop better models that are more specific to individuals and should therefore improve prediction and understanding of the underlying characteristics of the disease in question. In addition, patients might suffer from multiple disease complications. Models that are tailored to individuals could improve both prediction of multiple complications and understanding of underlying disease characteristics. However, AI models can become outdated over time due to either sudden changes in the underlying data, such as those caused by new measurement methods, or incremental changes, such as the ageing of the study population. This thesis proposes a new algorithm that integrates consensus clustering methods with classification in order to overcome issues with sample bias. The method was tested on a freely available dataset of real-world breast cancer cases and data from a London hospital on systemic sclerosis, a rare and potentially fatal condition. The results show that nearest consensus clustering classification improves accuracy and prediction significantly when this algorithm is compared with competitive similar methods. In addition, this thesis proposes a new algorithm that integrates latent class models with classification. The new algorithm uses latent class models to cluster patients within groups; this results in improved classification and aids in the understanding of the underlying differences of the discovered groups. The method was tested on data from patients with systemic sclerosis (SSc), a rare and potentially fatal condition, and coronary heart disease. Results show that the latent class multi-label classification (MLC) model improves accuracy when compared with competitive similar methods. Finally, this thesis implemented the updated concept drift method (DDM) to monitor AI models over time and detect drifts when they occur. The method was tested on data from patients with SSc and patients with coronavirus disease (COVID)
Reconocimiento de tendencias en un campo de investigación en publicaciones cientÃficas y su clasificación a los objetivos de desarrollo sostenible aplicando técnicas de procesamiento de lenguaje natural
Los centros de investigación y las universidades, al ser generadores de conocimiento, experimentan la
imperiosa necesidad de someter su producción cientÃfica a un análisis riguroso a fin de detectar y
evaluar su influencia. Asimismo, resulta relevante que dichas entidades sean capaces de identificar la
correspondencia entre su producción cientÃfica y las metas o polÃticas a nivel nacional e internacional,
dado que esto se erige como un factor crucial para reconocer su aporte y relevancia. Adicionalmente,
como parte de las actividades cientÃficas que permitan la planificación estratégica y la toma de
decisiones para el personal académico, los formuladores de polÃticas y los financiadores, estas
entidades podrÃan apoyarse del análisis masivo de productos académicos, como artÃculos cientÃficos y
tesis, para detectar tendencias de investigación.
La disciplina de ciencia de datos se enfoca en la gestión de datos masivos para convertirla en
conocimiento mediante técnicas de Inteligencia Artificial. Dentro de este marco, técnicas de
Procesamiento del Lenguaje Natural, como la clasificación de texto y el topic modeling, se utilizan para
el análisis y aprendizaje del lenguaje. En el ámbito académico, el análisis automatizado de la producción
cientÃfica mediante la aplicación de metodologÃas de ciencia de datos puede ayudar a reconocer la
alineación con polÃticas cientÃficas y generar estrategias de innovación. En artÃculos cientÃficos, la
clasificación de texto permite identificar su alineación con polÃticas, como las relacionadas con el
desarrollo sostenible, mientras que el topic modeling identifica tendencias en tópicos cientÃficos
fomentando procesos de innovación.
La revisión de la literatura realizada en esta tesis pone de manifiesto que las tareas de clasificación de
texto y el topic modeling pueden implementarse con diferentes arquitecturas y técnicas de Machine
Learning. El estado de la técnica plantea el uso de Modelos de Lenguaje de Gran Escala (Large Language
Models, LLM) para alcanzar niveles muy altos de desempeño, sin embargo, se requiere de conocimiento
más especializado y de grandes recursos de cómputo. Los modelos de clasificación y topic modeling
clásicos podrÃan ser una alternativa, sin embargo, existen discrepancias en resultados con datasets de
productos cientÃficos. Aunque existen algunos desarrollos metodológicos especÃficos para la
clasificación de texto, no existen estudios consistentes que consideren de forma explÃcita el desempeño
con datasets de artÃculos cientÃficos con etiquetas de los objetivos de desarrollo sostenible
desbalanceadas. Para el topic moldeing es necesario identificar si los modelos clásicos en comparación
con los LLM, aun son de un desempeño razonablemente efectivos en artÃculos cientÃficos con sólo
tÃtulo y resumen como el texto principal para crear los datasets.
En este contexto se proponen dos frameworks, uno para comparar modelos de clasificación de texto
con etiquetas múltiples cuyos algoritmos y técnicas requieren limitada infraestructura de cómputo y el
segundo, para comparar modelos que descubren tópicos cientÃficos (sus propensiones y nuevas temáticas). Ambos frameworks contienen criterios en donde los conjuntos de datos de artÃculos
cientÃficos son procesados de tal manera que impacten directamente en el desempeño de los modelos.
Los resultados en clasificación de texto multi-etiqueta permiten reconocer una correspondencia entre
la calidad de los datos (mediante el preprocesamiento), el algoritmo de clasificación base y el método
de transformación multi-etiqueta, que afecta el desempeño de los modelos. La comparativa de
modelos para el topic modeling, logra identificar que el mejor resultado se obtiene del modelo basado en
el LLM, que tiene la capacidad de aprovechar la información contextual y semántica del texto de
entrada al utilizar un modelo pre-entrenado de BERT
Robust approaches for face recognition
This thesis gave answers to a number of important questions regarding face classification. Via this research, new methods were introduced to represent four facial attributes (three of them related to the demographic information of the human face: gender, age and race) and the fourth one related to facial expression. It stated that, discriminative facial features regarding to demographic information (gender, age and race) and expression information can be obtained by applying texture analysis techniques to the polar raster sampled images. In addition, it is found that, multi-label classification (MLC) is more suitable in the real world as a human face can be associated with multiple labels