Search CORE

4 research outputs found

Recommended from our members

Combined supervised and unsupervised learning to identify subclasses of disease for better prediction

Author: Alsaid Alyousef Awad
Publication venue: Brunel University London
Publication date: 01/01/2022
Field of study

This thesis was submitted for the award of Doctor of Philosophy and was awarded by Brunel University LondonDisease subtyping, which aids in the development of personalised treatments, remains a challenge in data analysis because of the many different ways to group patients based upon their data. However, if I can identify subclasses of disease, this will help to develop better models that are more specific to individuals and should therefore improve prediction and understanding of the underlying characteristics of the disease in question. In addition, patients might suffer from multiple disease complications. Models that are tailored to individuals could improve both prediction of multiple complications and understanding of underlying disease characteristics. However, AI models can become outdated over time due to either sudden changes in the underlying data, such as those caused by new measurement methods, or incremental changes, such as the ageing of the study population. This thesis proposes a new algorithm that integrates consensus clustering methods with classification in order to overcome issues with sample bias. The method was tested on a freely available dataset of real-world breast cancer cases and data from a London hospital on systemic sclerosis, a rare and potentially fatal condition. The results show that nearest consensus clustering classification improves accuracy and prediction significantly when this algorithm is compared with competitive similar methods. In addition, this thesis proposes a new algorithm that integrates latent class models with classification. The new algorithm uses latent class models to cluster patients within groups; this results in improved classification and aids in the understanding of the underlying differences of the discovered groups. The method was tested on data from patients with systemic sclerosis (SSc), a rare and potentially fatal condition, and coronary heart disease. Results show that the latent class multi-label classification (MLC) model improves accuracy when compared with competitive similar methods. Finally, this thesis implemented the updated concept drift method (DDM) to monitor AI models over time and detect drifts when they occur. The method was tested on data from patients with SSc and patients with coronavirus disease (COVID)

Brunel University Research Archive

Reconocimiento de tendencias en un campo de investigación en publicaciones científicas y su clasificación a los objetivos de desarrollo sostenible aplicando técnicas de procesamiento de lenguaje natural

Author: Morales Hernández Roberto Carlos
Publication venue
Publication date: 01/09/2023
Field of study

Los centros de investigación y las universidades, al ser generadores de conocimiento, experimentan la imperiosa necesidad de someter su producción científica a un análisis riguroso a fin de detectar y evaluar su influencia. Asimismo, resulta relevante que dichas entidades sean capaces de identificar la correspondencia entre su producción científica y las metas o políticas a nivel nacional e internacional, dado que esto se erige como un factor crucial para reconocer su aporte y relevancia. Adicionalmente, como parte de las actividades científicas que permitan la planificación estratégica y la toma de decisiones para el personal académico, los formuladores de políticas y los financiadores, estas entidades podrían apoyarse del análisis masivo de productos académicos, como artículos científicos y tesis, para detectar tendencias de investigación. La disciplina de ciencia de datos se enfoca en la gestión de datos masivos para convertirla en conocimiento mediante técnicas de Inteligencia Artificial. Dentro de este marco, técnicas de Procesamiento del Lenguaje Natural, como la clasificación de texto y el topic modeling, se utilizan para el análisis y aprendizaje del lenguaje. En el ámbito académico, el análisis automatizado de la producción científica mediante la aplicación de metodologías de ciencia de datos puede ayudar a reconocer la alineación con políticas científicas y generar estrategias de innovación. En artículos científicos, la clasificación de texto permite identificar su alineación con políticas, como las relacionadas con el desarrollo sostenible, mientras que el topic modeling identifica tendencias en tópicos científicos fomentando procesos de innovación. La revisión de la literatura realizada en esta tesis pone de manifiesto que las tareas de clasificación de texto y el topic modeling pueden implementarse con diferentes arquitecturas y técnicas de Machine Learning. El estado de la técnica plantea el uso de Modelos de Lenguaje de Gran Escala (Large Language Models, LLM) para alcanzar niveles muy altos de desempeño, sin embargo, se requiere de conocimiento más especializado y de grandes recursos de cómputo. Los modelos de clasificación y topic modeling clásicos podrían ser una alternativa, sin embargo, existen discrepancias en resultados con datasets de productos científicos. Aunque existen algunos desarrollos metodológicos específicos para la clasificación de texto, no existen estudios consistentes que consideren de forma explícita el desempeño con datasets de artículos científicos con etiquetas de los objetivos de desarrollo sostenible desbalanceadas. Para el topic moldeing es necesario identificar si los modelos clásicos en comparación con los LLM, aun son de un desempeño razonablemente efectivos en artículos científicos con sólo título y resumen como el texto principal para crear los datasets. En este contexto se proponen dos frameworks, uno para comparar modelos de clasificación de texto con etiquetas múltiples cuyos algoritmos y técnicas requieren limitada infraestructura de cómputo y el segundo, para comparar modelos que descubren tópicos científicos (sus propensiones y nuevas temáticas). Ambos frameworks contienen criterios en donde los conjuntos de datos de artículos científicos son procesados de tal manera que impacten directamente en el desempeño de los modelos. Los resultados en clasificación de texto multi-etiqueta permiten reconocer una correspondencia entre la calidad de los datos (mediante el preprocesamiento), el algoritmo de clasificación base y el método de transformación multi-etiqueta, que afecta el desempeño de los modelos. La comparativa de modelos para el topic modeling, logra identificar que el mejor resultado se obtiene del modelo basado en el LLM, que tiene la capacidad de aprovechar la información contextual y semántica del texto de entrada al utilizar un modelo pre-entrenado de BERT

Brújula - Repositorio Institucional

Robust approaches for face recognition

Author: Mohammed Ahmed Abdulateef
Publication venue: Deakin University, Faculty of Science Engineering and Built Environment, School of Information Technology
Publication date: 02/10/2018
Field of study

This thesis gave answers to a number of important questions regarding face classification. Via this research, new methods were introduced to represent four facial attributes (three of them related to the demographic information of the human face: gender, age and race) and the fourth one related to facial expression. It stated that, discriminative facial features regarding to demographic information (gender, age and race) and expression information can be obtained by applying texture analysis techniques to the polar raster sampled images. In addition, it is found that, multi-label classification (MLC) is more suitable in the real world as a human face can be associated with multiple labels

Deakin Research Online