349 research outputs found

    30th European Congress on Obesity (ECO 2023)

    Get PDF
    This is the abstract book of 30th European Congress on Obesity (ECO 2023

    Machine learning approaches in microbiome research: challenges and best practices

    Get PDF
    Microbiome data predictive analysis within a machine learning (ML) workflow presents numerous domain-specific challenges involving preprocessing, feature selection, predictive modeling, performance estimation, model interpretation, and the extraction of biological information from the results. To assist decision-making, we offer a set of recommendations on algorithm selection, pipeline creation and evaluation, stemming from the COST Action ML4Microbiome. We compared the suggested approaches on a multi-cohort shotgun metagenomics dataset of colorectal cancer patients, focusing on their performance in disease diagnosis and biomarker discovery. It is demonstrated that the use of compositional transformations and filtering methods as part of data preprocessing does not always improve the predictive performance of a model. In contrast, the multivariate feature selection, such as the Statistically Equivalent Signatures algorithm, was effective in reducing the classification error. When validated on a separate test dataset, this algorithm in combination with random forest modeling, provided the most accurate performance estimates. Lastly, we showed how linear modeling by logistic regression coupled with visualization techniques such as Individual Conditional Expectation (ICE) plots can yield interpretable results and offer biological insights. These findings are significant for clinicians and non-experts alike in translational applications

    Deep learning in food category recognition

    Get PDF
    Integrating artificial intelligence with food category recognition has been a field of interest for research for the past few decades. It is potentially one of the next steps in revolutionizing human interaction with food. The modern advent of big data and the development of data-oriented fields like deep learning have provided advancements in food category recognition. With increasing computational power and ever-larger food datasets, the approach’s potential has yet to be realized. This survey provides an overview of methods that can be applied to various food category recognition tasks, including detecting type, ingredients, quality, and quantity. We survey the core components for constructing a machine learning system for food category recognition, including datasets, data augmentation, hand-crafted feature extraction, and machine learning algorithms. We place a particular focus on the field of deep learning, including the utilization of convolutional neural networks, transfer learning, and semi-supervised learning. We provide an overview of relevant studies to promote further developments in food category recognition for research and industrial applicationsMRC (MC_PC_17171)Royal Society (RP202G0230)BHF (AA/18/3/34220)Hope Foundation for Cancer Research (RM60G0680)GCRF (P202PF11)Sino-UK Industrial Fund (RP202G0289)LIAS (P202ED10Data Science Enhancement Fund (P202RE237)Fight for Sight (24NN201);Sino-UK Education Fund (OP202006)BBSRC (RM32G0178B8

    Análisis de datos educativos aplicado en el estudio de la incidencia de factores socioeconómicos en el rendimiento escolar

    Get PDF
    La investigación que corresponde con esta tesis se desarrolló en el campo de la Minería de Datos Educativos, en un sentido más amplio, en la Ciencia Informática aplicada en la Educación. El documento articula el análisis de datos con el problema multifactorial del rendimiento académico en las escuelas. Así, el objetivo general es el análisis de la incidencia de los factores socioeconómicos en el aprovechamiento académico a nivel escolar, con la finalidad de contribuir a su entendimiento y mejora, mediante la aplicación de modelos de análisis de datos predictivos o supervisados y descriptivos o no supervisados. También se ha incluido un análisis confirmatorio que tiene relaciones entre sus elementos, a priori sustentados en las exploraciones estadísticas de los datos que anteceden al desarrollo de los modelos supervisados y no supervisados y también a dichos modelos. Los datos objeto de estudio corresponden a dos escuelas de Ecuador, dado que la cantidad de datos entre una y otra difería considerablemente no se presenta un análisis comparativo, sino uno con base en la información consolidada que totaliza 6808 instancias o registros de calificaciones y 88 columnas que lo describen. El análisis gira en torno a cada registro de calificaciones y no de cada alumno, porque en el sistema escolar ecuatoriano las bajas calificaciones en una materia, simplificadas como rendimiento académico, pueden llegar a determinar la reprobación del año básico cursado por el alumno. El proceso de análisis ejecutado es iterativo, permite ir hacia adelante y hacia atrás entre las fases que lo componen, siempre que resulte necesario tener mejores resultados. Se basa en el ciclo de vida conocido como CRISP-DM, siglas del Proceso Estándar Intersectorial para Minería de Datos. Además, se adicionó algunas prácticas sugeridas en el Proceso Estándar Intersectorial para el Desarrollo de Aplicaciones de Aprendizaje Automático con Metodología de Garantía de Calidad o CRISP-ML (Q), cómo, por ejemplo, cumplir con requisitos que promuevan la calidad de datos, robustez del modelo y evaluación de riesgos, para así aminorar problemas de sesgo, sobreajuste y falta de reproducibilidad de los modelos hacia nuevas escuelas y regiones. Se utilizó el modelado predictivo para ayudar a las instituciones educativas con la identificación temprana de los estudiantes con dificultades para sostener su rendimiento académico escolar. Se desarrolló modelos predictivos que utilizan datos de calificaciones, factores socioeconómicos y de comportamiento de los estudiantes, mismos que se han recopilado de sistemas provistos por el Estado y del departamento de orientación estudiantil de las escuelas ecuatorianas. Con ello se buscó clasificar con precisión si un estudiante está en riesgo de reprobar un curso o experimentar problemas en cierta materia del curso. La identificación de patrones de estudiantes en riesgo es de ayuda a los docentes y más actores educativos en la toma de medidas proactivas que favorezcan la participación efectiva en las aulas de clases y en que se aminore las eventuales brechas educativas relacionadas con el rendimiento académico. Se recurrió a 13 modelos supervisados, 5 no supervisados y un análisis confirmatorio. La relación entre los resultados obtenidos a partir de ellos guarda consistencia. Los datos fueron estudiados desde cinco ejes (1) Modelos no supervisados, (2) Modelos de clasificación considerando notas intermedias, (3) Modelos de clasificación sin considerar notas intermedias, (4) Modelos de regresión sin considerar notas intermedias y (5) Modelos de clasificación con datos reducidos en su dimensionalidad, balanceados y sin considerar notas intermedias. Cuando no se incluyó a las notas intermedias fue porque era de esperar que el promedio final se vea muy influenciado por las calificaciones progresivas de los alumnos, por tanto, la no inclusión de dichas calificaciones ilustra de mejor manera la incidencia de los factores socioeconómicos sobre el rendimiento académico. Existen calificaciones que en el sistema escolar ecuatoriano se registran, pero no condicionan la aprobación del año básico por parte del alumno, estas son el comportamiento de cada alumno y la calificación de su participación en los denominados proyectos escolares, que tienen como finalidad evaluar a las habilidades sociales de los alumnos. Con la reducción de la dimensionalidad se favoreció los tiempos de entrenamiento de los modelos supervisados a la par de prevenir la indisponibilidad de ciertos datos para los análisis posteriores. La información resultante de los modelos se combinó con el aporte de la revisión sistemática de la literatura. De modo general, los métodos de ensamblado reportaron los mejores valores en las diversas métricas, entonces, los resultados de las clasificaciones y regresiones logradas son confiables y no casuales, reflejan los patrones en los datos, porque en tales métodos de ensamblado se empleó 50 estimadores basados en árboles de decisión. Como referencia a una métrica, la Exactitud de la clasificación siempre superó el 90% y las regresiones tuvieron una efectividad de hasta el 85% porque las predicciones de promedios en los mejores casos pueden efectuase con un error de hasta 1.5 puntos sobre 10 posibles. En esta investigación doctoral, se ha combinado la objetividad de las métricas en las tareas de clasificación y regresión, con la subjetiva pero importante interpretabilidad de los resultados, apoyados en estudios referidos a técnicas de puntuación de características y su respectiva ilustración visual, con ello se ha pretendido que los modelos resulten interpretables por los usuarios posibles al tiempo de fortalecer su confianza en las decisiones de los modelos de las instituciones escolares. Parte de los resultados obtenidos muestran que los alumnos que no alcanzan los aprendizajes requeridos, es decir, que obtienen las calificaciones más bajas posibles, tienen como tendencia a un padre en estado civil de unión libre, un bajo número de hermanos, suelen presentar alguna discapacidad, su comportamiento en principio es A o el más alto, pero tiende a bajar conforme avanza el periodo lectivo, en sus proyectos escolares tienen una muy buena calificación B pero que no es la mejor A, su padre suele tener una ocupación laboral informal (por ejemplo, guardia de seguridad), el ingreso familiar suele ser bajo y también suelen vivir en familias reconstruidas. A futuro, estudios como el presente pueden ser fortalecidos con la incorporación de más escuelas de distintas regiones para obtener un abordaje más significativo por disponer de más datos y así producir resultados más fiables y extrapolables.Facultad de Informátic

    Jornadas Nacionales de Investigación en Ciberseguridad: actas de las VIII Jornadas Nacionales de Investigación en ciberseguridad: Vigo, 21 a 23 de junio de 2023

    Get PDF
    Jornadas Nacionales de Investigación en Ciberseguridad (8ª. 2023. Vigo)atlanTTicAMTEGA: Axencia para a modernización tecnolóxica de GaliciaINCIBE: Instituto Nacional de Cibersegurida

    Accident prediction using machine learning:analyzing weather conditions, and model performance

    Get PDF
    Abstract. The primary focus of this study was to investigate the impact of weather and road conditions on the severity of accidents and to determine the feasibility of machine learning models in accurately predicting the likelihood of such incidents. The research was centered on two key research questions. Firstly, the study examined the influence of weather and road conditions on accident severity and identified the most related factors contributing to accidents. We utilized an open-source accident dataset, which was preprocessed using techniques like variable selection, missing data elimination, and data balancing through the Synthetic Minority Over-sampling Technique (SMOTE). Chi-square statistical analysis was performed, suggesting that all weather-related variables are more or less associated with the severity of accidents. Visibility and temperature were found to be the most critical factors affecting the severity of road accidents. Hence, appropriate measures such as implementing effective fog dispersal systems, heatwave alerts, or improved road maintenance during extreme temperatures could help reduce accident severity. Secondly, the research evaluated the ability of machine learning models including decision trees, random forests, naive bayes, extreme gradient boost, and neural networks to predict accident likelihood. The models’ performance was gauged using metrics like accuracy, precision, recall, and F1 score. The Random Forest model emerged as the most reliable and accurate model for predicting accidents, with an overall accuracy of 98.53%. The Decision Tree model also showed high overall accuracy (95.33%), indicating its reliability. However, the Naive Bayes model showed the lowest accuracy (63.31%) and was deemed less reliable in this context. It is concluded that machine learning models can be effectively used to predict the likelihood of accidents, with models like Random Forest and Decision Tree proving the most effective. However, the effectiveness of each model may vary depending on the dataset and context, necessitating further testing and validation for real-world implementation. These findings not only provide insight into the factors affecting accident severity but also open a promising avenue in employing machine learning techniques for proactive accident prediction and mitigation. Future studies can aim to refine the models further and potentially integrate them into traffic management systems to enhance road safety

    Investigation of iris recognition in the visible spectrum

    Get PDF
    mong the biometric systems that have been developed so far, iris recognition systems have emerged as being one of the most reliable. In iris recognition, most of the research was conducted on operation under near infrared illumination. For unconstrained scenarios of iris recognition systems, the iris images are captured under visible light spectrum and therefore incorporate various types of imperfections. In this thesis the merits of fusing information from various sources for improving the state of the art accuracies of colour iris recognition systems is evaluated. An investigation of how fundamentally different fusion strategies can increase the degree of choice available in achieving certain performance criteria is conducted. Initially, simple fusion mechanisms are employed to increase the accuracy of an iris recognition system and then more complex fusion architectures are elaborated to further enhance the biometric system’s accuracy. In particular, the design process of the iris recognition system with reduced constraints is carried out using three different fusion approaches: multi-algorithmic, texture and colour fusion and multiple classifier systems. In the first approach, one novel iris feature extraction methodology is proposed and a multi-algorithmic iris recognition system using score fusion, composed of 3 individual systems, is benchmarked. In the texture and colour fusion approach, the advantages of fusing information from the iris texture with data extracted from the eye colour are illustrated. Finally, the multiple classifier systems approach investigates how the robustness and practicability of an iris recognition system operating on visible spectrum images can be enhanced by training individual classifiers on different iris features. Besides the various fusion techniques explored, an iris segmentation algorithm is proposed and a methodology for finding which colour channels from a colour space reveal the most discriminant information from the iris texture is introduced. The contributions presented in this thesis indicate that iris recognition systems that operate on visible spectrum images can be designed to operate with an accuracy required by a particular application scenario. Also, the iris recognition systems developed in the present study are suitable for mobile and embedded implementations
    corecore