3 research outputs found

    Empowering the Data Scientist professional profile through competition dynamics

    Get PDF
    La Ciencia de Datos es el área que comprende el desarrollo de métodos científicos, procesos y sistemas para extraer conocimiento a partir de datos recopilados previamente, con el objetivo de analizar los procedimientos llevados a cabo actualmente. El perfil profesional asociado a este campo es el del Científico de Datos, generalmente llevado a cabo por Ingenieros Informáticos gracias a que las aptitudes y competencias adquiridas durante su formación se ajustan perfectamente a lo requerido en este puesto laboral. Debido a la necesidad de formación de nuevos Científicos de Datos, entre otros fines, surgen plataformas en las que éstos pueden adquirir una amplia experiencia, como es el caso de Kaggle. El principal objetivo de esta experiencia docente es proporcionar al alumnado una experiencia práctica con un problema real, así como la posibilidad de cooperar y competir al mismo tiempo. Así, la adquisición y el desarrollo de las competencias necesarias en Ciencia de Datos se realiza en un entorno altamente motivador. La realización de actividades relacionadas con este perfil ha tenido una repercusión directa sobre el alumnado, siendo fundamental la motivación, la capacidad de aprendizaje y el reciclaje continuo de conocimientos a los que se someten los Ingenieros Informáticos.Data Science is the area that comprises the development of scientific methods, processes, and systems for extracting knowledge from previously collected data, aiming to analyse the procedures being carried out currently. The professional profile associated with this field is the Data Scientist, generally carried out by Computer Engineers as the skills and competencies acquired during their training are perfectly suited to what this job requires. Due to the need for training new Data Scientists, among other goals, there are different emerging platforms where they can acquire extensive experience, such as Kaggle. The main objective of this teaching experience is to provide students with practical experience on a real problem, as well as the possibility of cooperating and competing at the same time. Thus, the acquisition and development of the necessary competencies in Data Science are carried out in a highly motivating environment. The development of activities related to this profile has had a direct impact on the students, being fundamental the motivation, the learning capacity and the continuous recycling of knowledge to which Computer Engineers are subjected

    The Seventeenth Data Release of the Sloan Digital Sky Surveys: Complete Release of MaNGA, MaStar and APOGEE-2 Data

    Get PDF
    This paper documents the seventeenth data release (DR17) from the Sloan Digital Sky Surveys; the fifth and final release from the fourth phase (SDSS-IV). DR17 contains the complete release of the Mapping Nearby Galaxies at Apache Point Observatory (MaNGA) survey, which reached its goal of surveying over 10,000 nearby galaxies. The complete release of the MaNGA Stellar Library (MaStar) accompanies this data, providing observations of almost 30,000 stars through the MaNGA instrument during bright time. DR17 also contains the complete release of the Apache Point Observatory Galactic Evolution Experiment 2 (APOGEE-2) survey which publicly releases infra-red spectra of over 650,000 stars. The main sample from the Extended Baryon Oscillation Spectroscopic Survey (eBOSS), as well as the sub-survey Time Domain Spectroscopic Survey (TDSS) data were fully released in DR16. New single-fiber optical spectroscopy released in DR17 is from the SPectroscipic IDentification of ERosita Survey (SPIDERS) sub-survey and the eBOSS-RM program. Along with the primary data sets, DR17 includes 25 new or updated Value Added Catalogs (VACs). This paper concludes the release of SDSS-IV survey data. SDSS continues into its fifth phase with observations already underway for the Milky Way Mapper (MWM), Local Volume Mapper (LVM) and Black Hole Mapper (BHM) surveys

    Diseño y análisis de redes neuronales convolucionales ordinales: aplicaciones

    No full text
    En los últimos años, se están utilizando técnicas de aprendizaje profundo para mejorar diferentes procesos y resolver diferentes tareas del mundo real. El crecimiento exponencial del volumen de información generada por procesos del día a día constituye la principal causa para la adopción de este tipo de técnicas. Sin la existencia de las técnicas de aprendizaje profundo, el procesamiento manual de tal volumen de datos sería inviable. Los métodos de aprendizaje automático tradicionales requerían un preprocesamiento previo de la información por parte de los humanos para poder utilizarla para entrenar modelos que sean capaces de extraer conocimiento a partir de los datos generados. Sin embargo, la utilización de técnicas de aprendizaje profundo elimina la necesidad de este paso previo, permitiendo a los modelos procesar directamente la información en bruto. Como consecuencia, estos modelos permiten abordar una amplia gama de problemas de aprendizaje automático, incluyendo clasificación, regresión o clustering, así como tareas específicas de aprendizaje profundo como localización y segmentación. Esta Tesis se centra principalmente en la resolución de tareas de clasificación, en las que el objetivo es asignar la etiqueta correcta a cada patrón a partir de un conjunto discreto de posibles categorías basadas en las características de entrada asociadas. Más concretamente, esta Tesis aborda problemas de clasificación ordinal, que son variantes de los problemas de clasificación en los que las categorías siguen un orden que viene determinado por cada problema concreto. En estos casos, el objetivo es predecir la clase correcta o, en su defecto, una clase cercana para minimizar el coste de los errores. Los errores en clases lejanas suponen costes mucho mayores que los errores en clases adyacentes. Además, en este tipo de problemas existe cierta incertidumbre en el etiquetado de clases vecinas debido a la similitud de las mismas. Por ello, esta Tesis propone diversas metodologías de aprendizaje profundo para clasificación ordinal. Este tipo de metodologías consideran las características propias de los problemas ordinales con el fin de minimizar los costes de los errores cometidos. Las comparaciones experimentales realizadas en esta Tesis muestran que las metodologías ordinales propuestas mejoran el rendimiento frente a las nominales. Por otro lado, también se explora la influencia de las funciones de activación en el rendimiento de los modelos de aprendizaje profundo. Estas funciones modifican la salida de cada neurona para introducir transformaciones no lineales que permiten capturar información más compleja, por lo que cumplen un papel fundamental en los modelos de aprendizaje profundo. Por ello, esta Tesis también explora el uso de metaheurísticas que determinan la arquitectura óptima y los valores de los hiperparámetros sin requerir la especificación manual de los parámetros. Por ´ultimo, las metodologías desarrolladas en esta tesis se aplican a diferentes problemas del mundo real relacionados con los campos de la biomedicina y la industria.In recent years, numerous domains have embraced the application of deep learning techniques to enhance their processes and tackle diverse tasks. The exponential growth of information generated is a key driving force behind the adoption of these techniques, rendering manual processing by humans infeasible. Traditional machine learning methods necessitated prior data pre-processing by humans to train models capable of extracting knowledge from the information generated. However, the utilisation of deep learning techniques eliminates the need for this pre-processing step, allowing models to directly process raw information. Consequently, a wide range of machine learning problems, including classification, regression, clustering, as well as deep learning-specific tasks like localisation and segmentation, can be addressed. This Thesis primarily focuses on solving classification tasks, whereby the objective is to assign the correct label to each pattern from a discrete set of possible categories based on associated input features. More specifically, this Thesis tackles ordinal classification problems, which are variants of classification problems where categories follow an order determined by the specific problem. In such cases, the aim is to predict the correct class or a nearby class to minimise the cost of errors. Errors in distant classes incur greater costs compared to errors in adjacent classes. Additionally, similarity between neighbouring classes introduces uncertainty during the labelling process due to the difficulty in distinguishing between them. Therefore, this Thesis proposes various deep learning methodologies for ordinal classification, considering the characteristics unique to this problem type, in order to minimise error costs associated with such tasks. Furthermore, the experimental comparisons carried out in this Thesis show that the proposed methodologies improve performance over standard classification techniques. Furthermore, the influence of activation functions on the performance of deep learning models is explored. These functions modify the output of each neuron to introduce nonlinear transformations that capture more complex information. Activation functions play a critical role in the selection of deep learning models. Thus, this Thesis also examines the use of metaheuristics that determine the optimal architecture and hyperparameter values without requiring manual parameter specification. Finally, the methodologies developed in this Thesis are applied to real-world problems in the fields of biomedicine and industry
    corecore