34 research outputs found

    GUASOM: An Adaptive Visualization Tool for Unsupervised Clustering in Spectrophotometric Astronomical Surveys

    Get PDF
    Financiado para publicación en acceso aberto: Universidade da Coruña/CISUG[Abstract] We present an adaptive visualization tool for unsupervised classification of astronomical objects in a Big Data context such as the one found in the increasingly popular large spectrophotometric sky surveys. This tool is based on an artificial intelligence technique, Kohonen’s self-organizing maps, and our goal is to facilitate the analysis work of the experts by means of oriented domain visualizations, which is impossible to achieve by using a generic tool. We designed a client-server that handles the data treatment and computational tasks to give responses as quickly as possible, and we used JavaScript Object Notation to pack the data between server and client. We optimized, parallelized, and evenly distributed the necessary calculations in a cluster of machines. By applying our clustering tool to several databases, we demonstrated the main advantages of an unsupervised approach: the classification is not based on pre-established models, thus allowing the “natural classes” present in the sample to be discovered, and it is suited to isolate atypical cases, with the important potential for discovery that this entails. Gaia Utility for the Analysis of self-organizing maps is an analysis tool that has been developed in the context of the Data Processing and Analysis Consortium, which processes and analyzes the observations made by ESA’s Gaia satellite (European Space Agency) and prepares the mission archive that is presented to the international community in sequential periodic publications. Our tool is useful not only in the context of the Gaia mission, but also allows segmenting the information present in any other massive spectroscopic or spectrophotometric database.This work made use of the infrastructures acquired with grants provided by the State Research Agency (AEI) of the Spanish Government and the European Regional Development Fund (FEDER), RTI2018-095076-B-C22. We acknowledge support from CIGUS-CITIC, funded by Xunta de Galicia and the European Union (FEDER Galicia 2014-2020 Program) through grant ED431G 2019/01 and research consolidation grant ED431B 2021/36. This work has made use of data from the European Space Agency (ESA) mission Gaia (https://www.cosmos.esa.int/gaia), processed by the Gaia Data Processing and Analysis Consortium (DPAC), https://www.cosmos.esa.int/web/gaia/dpac/consortium). Funding for the DPAC has been provided by national institutions, in particular the institutions participating in the Gaia Multilateral Agreement. Funding for the Sloan Digital Sky Survey IV has been provided by the Alfred P. Sloan Foundation, the U.S. Department of Energy Office of Science, and the Participating Institutions. SDSS-IV acknowledges support and resources from the Center for High Performance Computing at the University of Utah. The SDSS website is www.sdss.org. SDSS-IV is managed by the Astrophysical Research Consortium for the Participating Institutions of the SDSS Collaboration. We also want to acknowledge Alhambra survey funded by the Spanish Goverment under Grant AYA2006-14056. Open Access funding provided thanks to the Universidade da Coruña/CISUG agreement with Springer NatureXunta de Galicia; ED431G 2019/01Xunta de Galicia; ED431B 2021/3

    A Blended Artificial Intelligence Approach for Spectral Classification of Stars in Massive Astronomical Surveys

    Get PDF
    [Abstract] This paper analyzes and compares the sensitivity and suitability of several artificial intelligence techniques applied to the Morgan–Keenan (MK) system for the classification of stars. The MK system is based on a sequence of spectral prototypes that allows classifying stars according to their effective temperature and luminosity through the study of their optical stellar spectra. Here, we include the method description and the results achieved by the different intelligent models developed thus far in our ongoing stellar classification project: fuzzy knowledge-based systems, backpropagation, radial basis function (RBF) and Kohonen artificial neural networks. Since one of today’s major challenges in this area of astrophysics is the exploitation of large terrestrial and space databases, we propose a final hybrid system that integrates the best intelligent techniques, automatically collects the most important spectral features, and determines the spectral type and luminosity level of the stars according to the MK standard system. This hybrid approach truly emulates the behavior of human experts in this area, resulting in higher success rates than any of the individual implemented techniques. In the final classification system, the most suitable methods are selected for each individual spectrum, which implies a remarkable contribution to the automatic classification process.This work was supported by Ministry of Science, Innovation and Universities (FEDER RTI2018-095076-B-C22) and Xunta de Galicia (ED431B 2018/42)Xunta de Galicia; ED431B 2018/4

    Extracción de conocimiento en bases de datos astronómicas mediante redes de neuronas artificiales : aplicaciones en la misión Gaia

    Get PDF
    [Resumen] En la llamada era de las TIC, las capacidades de los sistemas de adquisición de datos han aumentado enormemente, de forma que resulta complicado almacenar toda la información que producen, así como su análisis posterior. Esta explosión de datos ha aparecido recientemente en el campo de la Astronomía, donde cada vez se observan un número mayor de objetos, con mayor periodicidad. Un ejemplo de esto es la próxima misión Gaia, que observará múltiples propiedades de hasta mil millones de estrellas, cuya información tendrá un volumen del orden del petabyte. Por lo tanto, para analizar tal cantidad de datos, es necesario desarrollar nuevos métodos de análisis que permitan extraer todo el conocimiento presente en los mismos. Esta tesis está dedicada al desarrollo de métodos de análisis de datos, los cuales se integran en la cadena de procesado de Gaia, con el objetivo de extraer conocimiento de los datos recogidos por la misión. Con el objetivo de analizar los datos de la misión Gaia, se ha organizado un consorcio a nivel europeo, llamado Data Processing and Analysis Consortium (DPAC), compuesto por cientos de científicos e ingenieros. DPAC se divide en ocho unidades de coordinación (CUs), estando esta tesis dedicada al desarrollo de algoritmos en la CU8, que se encarga de la estimación de parámetros astrofísicos (APs) y la clasificación de las fuentes. Se desarrollan métodos basados en redes de neuronas artificiales (ANNs) para realizar las tareas relacionadas con dos paquetes de trabajo diferentes en la CU8: El paquete GSP-Spec (GWP-823) y el paquete OA (GWP-836). El paquete GSP-Spec se encarga de la estimación de APs de estrellas mediante el espectro del instrumento Radial Velocity Spectrograph (RVS). Aquí, se presentará el desarrollo de uno de los módulos de GSP-Spec, el cual se basa en la aplicación de ANNs de tipo feed-forward. Se presenta una metodología, basada en algoritmos genéticos de optimización, para la obtención de un conjunto óptimo de parámetros de configuración para la ANN en cada caso, en función de la relación señal a ruido (SNR) en el espectro RVS y del tipo de estrella a parametrizar. Además, con el objetivo de mejorar las estimaciones de APs, se estudian técnicas de procesado wavelet, aplicadas sobre el espectro RVS. A pesar de la efectividad que las ANNs muestran a la hora de estimar APs, en principio éstas carecen de la capacidad de proporcionar un valor de incertidumbre sobre dichas estimaciones, con lo cual resulta imposible conocer la fiabilidad de las mismas. Debido a ello, se presenta una arquitectura novedosa para la ANN, en la cual se invierten las entradas y salidas de la misma, de forma que la ANN estima el espectro RVS a partir de los APs. Dicha arquitectura de denomina red neuronal artificial generativa (GANN) y se aplica a la estimación de APs de un conjunto de espectros RVS simulados para la misión Gaia, donde se muestra más efectiva que el modelo de ANN convencional, en el caso de estrellas débiles, con un bajo SNR. Finalmente, la red GANN puede aplicarse para la obtención de la probabilidad a posteriori de cada uno de los APs dado el espectro RVS, lo cual permitirá un análisis más completo de los mismos. Dada la naturaleza de la misión Gaia, la cual es la primera misión astronómica que observará, de forma no sesgada, toda la bóveda celeste hasta magnitud 20, se espera una gran cantidad de objetos atípicos. El paquete OA en la CU8 se encarga del procesado de dicho tipo de objetos, los cuales se definen como aquellos que no han podido ser clasificados con fiabilidad por los paquetes de clasificación existentes en la cadena de procesamiento. Los métodos de OA se basan en el aprendizaje no supervisado del conjunto de observaciones atípicas. Dicho aprendizaje tiene dos partes: agrupamiento y reducción de dimensionalidad. Se seleccionan los mapas auto-organizativos (SOM) como algoritmo base para realizar dicho aprendizaje, demostrándose su efectividad cuando se aplica, con una configuración óptima, a las simulaciones de Gaia. Además, el algoritmo es aplicado a observaciones atípicas reales, provenientes del catálogo SDSS. Dado que es necesaria una identificación posterior de los grupos obtenidos por la red SOM, se aplican dos métodos de identificación diferentes. El primero está basado en la similitud entre los prototipos de la red y el conjunto de simulaciones de Gaia, mientras que el otro esa basado en la recuperación de clasificaciones almacenadas en el catálogo Simbad, mediante el cruce de coordenadas celestes. Gracias a la visualización de la red SOM, y a ambos métodos de identificación, es posible distinguir entre observaciones válidas y artefactos observacionales. Además, el método posibilita la selección de objetos de interés para observaciones posteriores, con el objetivo de determinar la naturaleza de los mismos.[Abstract] In the so-called IT era, the capabilities of data acquisition systems have increased to such an extent that it has become difficult to store all the information they produce, and analyse it. This explosion of data has recently appeared in the field of Astronomy, where an increasing number of objects are being observed on a regular basis. An example of this is the upcoming Gaia mission, which will pick up multiple properties of a billion stars, whose information will have a volume of approximately a petabyte. The analysis of a similar amount of information inevitably requires the development of new data analysis methods to extract all the knowledge it contains. This thesis is devoted to the development of data analysis methods to be integrated in the Gaia pipeline, such that knowledge can be extracted from the data collected by the mission. In order to analyze the data from the Gaia mission, the European Space Agency organized the Data Processing and Analysis Consortium (DPAC) which is composed of hundreds of scientists and engineers. DPAC is divided into eight Coordination Units (CUs). This thesis is dedicated to algorithm development in CU8, which is responsible for source classification and astrophysical parameters (AP) estimation. Methods based on Artificial Neural Networks (ANNs) are developed to perform the tasks related to two different work packages in CU8: the GSP-Spec package (GWP-823), and the OA package (GWP-836). The GSP-Spec package is responsible for estimating stellar APs by means of the Radial Velocity Spectrograph (RVS) spectrum. This work presents the development of one of the GSP-Spec modules, which is based on the application of feed-forward ANNs. A methodology is described, based on the optimization of genetic algorithms and aimed at obtaining an optimal set of configuration parameters for the ANN in each case, depending on the signal to noise ratio (SNR) in the RVS spectrum and on the type of star to parameterize. Furthermore, in order to improve the AP estimates, wavelet signal processing techniques, applied to the RVS spectrum, are studied. Despite the effectiveness shown by ANNs in estimating APs, in principle they lack the ability to provide an uncertainty value on these estimates, making it impossible to determine their reliability. Because of this, a new architecture for the ANN is presented in which the inputs and outputs are reversed, so that the ANN estimates the RVS spectrum from the APs. Such an architecture is called Generative ANN (GANN) and is applied to the AP estimation of a set of simulated RVS spectra for the Gaia mission, where it is more effective than the conventional ANN model, in the case of faint stars with low SNR. Finally, the GANN can be applied for obtaining the posterior probability of each of the APs according to the RVS spectrum, allowing for their more complete analysis. Given the nature of the Gaia mission, which is the first astronomical mission that will observe, in an unbiased way, the entire sky up to magnitude 20, a large number of outliers are expected. The OA package in CU8 handles the processing of this type of objects, which are defined as those that could not be reliably classified by the methods in the upstream classification packages. OA methods are based on the unsupervised learning of all outliers. Such learning has two parts: clustering and dimensionality reduction. The Self-Organizing Map (SOM) algorithm is selected as a basis for this learning. Its effectiveness is demonstrated when it is applied, with an optimal configuration, to the Gaia simulations. Furthermore, the algorithm is applied to real outliers from the SDSS catalog. Since a subsequent identification of the clusters obtained by the SOM is necessary, two different methods of identification are applied. The first method is based on the similarity between the SOM prototypes and the Gaia simulations, and the second method is based on the recovery of stored classifications in the SIMBAD catalog by cross-matching celestial coordinates. Thanks to the visualization of the SOM planes, and to both methods of identification, it is possible to distinguish between valid observations and observational artifacts. Furthermore, the method allows for the selection of objects of interest for follow-up observations, in order to determine their nature

    On the application of machine learning approaches in astronomy: Exploring novel representations of high-dimensional and complex astronomical data

    Get PDF
    The goal of the presented work is the application of data-driven methods on complex and high- dimensional astronomical databases. The focus of the work is the exploration of novel data representations in order to enable the use of statistical learning approaches in the analysis of data. With the help of diverse science cases, the advantages of the introduced approaches for classication, visualization and regression tasks are shown by applying the developed methodology to astronomical data. In the first part, an alternative approach for estimating redshifts of spectra by using the knowledge about the redshifts provided by the SDSS pipeline is presented. A novel data repre- sentation is employed which contains only information relevant for estimating the redshift and the detection of multiple redshift systems. Subsequently, a novel data representation for regu- larly sampled light curves based on recurrent networks is presented. This allows an explorative investigation of huge databases with unlabeled data. Finally, a new way of representing the static part of irregularly sampled light curves by a mixture of Gaussians is discussed. This represen- tation is more general than the extraction of features, as it allows the inclusion of photometric uncertainties and avoids the introduction of observational biases

    Minería de datos en la misión Gaia: visualización del catálogo, optimización del procesado y parametrización de estrellas

    Get PDF
    Programa Oficial de Doutoramento en Tecnoloxías da Información e as Comunicacións. 5032V01[Resumen] El trabajo realizado en esta tesis se enmarca dentro del proyecto Gaia, de la Agencia Espacial Europea (ESA), que tiene por objetivo procesar los datos sobre posiciones y brillos pertenecientes a más de mil millones de estrellas para generar el catálogo estelar más grande conocido hasta la actualidad, lo que lo convierte en un gran reto para toda la comunidad científica. Para realizar el procesado y análisis de los datos de Gaia se ha creado un consorcio internacional, denominado Data Processing and Analysis Consortium (DPAC), destinado a diseñar e implementar los mecanismos que permitan explotar la ingente cantidad de información que se obtendrá, del orden de un Petabyte. Está formado por más de 400 científicos e ingenieros entre los que nos incluimos los miembros del grupo de investigación en el que desarrollo esta tesis. Nuestro trabajo se basa principalmente en la aplicación de técnicas de la Inteligencia Artificial sobre los datos proporcionados por Gaia así como en la elaboración de herramientas que permitan a la comunidad científica utilizar esas técnicas para analizar la información astrofísica que contiene el catálogo. Concretamente los objetivos que se pretenden con este trabajo son los siguientes: • Aplicar técnicas de aprendizaje supervisado para la estimación de los principales parámetros atmosféricos para las estrellas en las que el instrumento RVS de Gaia medirá espectros con suficiente relación señal a ruido: temperatura efectiva, gravedad superficial logarítmica, abundancia de hierro respecto al hidrógeno o metalicidad y abundancia de elementos alfa respecto al hierro. Se demostrará la eficacia de la técnica utilizada aplicada a datos obtenidos por el satélite Gaia. • Proporcionar a la comunidad científica de una herramienta útil para la búsqueda y análisis de conjuntos de datos homogéneos mediante la aplicación de un algoritmo de aprendizaje no supervisado. Esta herramienta permite clasificar volúmenes gigantescos de datos, por lo que la optimización del algoritmo utilizado es un factor esencial. Se explicarán las técnicas utilizadas que permiten a esta herramienta procesar millones de datos en un tiempo reducido. • Desarrollar una herramienta que facilita el análisis de los resultados obtenidos por la técnica de clasificación sobre millones de objetos estelares, de tal forma que es capaz de mostrar de forma visual las diferentes agrupaciones de objetos estelares obtenidas por esta técnica, permitiendo explorar sus características. Dado que esta herramienta trabaja en un entorno Big Data el tratamiento de los datos adquiere un papel primordiaL Se comprobará cómo esta herramienta es de gran utilidad para el análisis de los datos y se explicarán las estrategias que se han seguido para poder visualizar conjuntos de millones de objetos astronómicos de forma ágil y fluida. En todos los casos, la gran cantidad de datos a tratar sugiere la necesidad de aplicar técnicas de procesamiento distribuido para evitar un consumo de recursos excesivo: tiempo de ejecución y uso de memoria, que puede llegar a impedir una ejecución satisfactoria de los métodos propuestos. Procesar toda esta información en el marco del proyecto Gala requiere una capacidad de cómputo importante, por lo que para reducir estos tiempos se realizan optimizaciones mediante técnicas de computación distribuida, como es Apache Spark, y mediante técnicas de procesado gráfico, como es CUDA. Otro aspecto importante es que el software resultante debe ser integrado dentro de las cadenas de ejecución existentes en DPAC y desplegado en los centros de procesado asociados, lo que requiere de un proceso de adaptación del software original para la plataforma de destino. Por último se demostrará la utilidad de la técnica de aprendizaje no supervisado en otras disciplinas donde se verá cómo es capaz de mejorar la detección de intrusiones en tráfico de redes de comunicaciones o en la generación de perfiles de usuarios para mejorar el marketing online.[Abstract] This Thesis has been developed in the context of the Gaia mission, the cornerstone of the European Space Agency (ESA), which is conducting a survey of a billion stars in the Milky Way to generate the largest known star catalog up to date. Such a catalog becomes a great challenge to the scientific community in computational astrophysics. It lS estimated that the total data archive will surpass 1 Petabyte and, in order to analyze such a huge amount of data, the Data Processing and Analysis Consortium (DPAC) has been organized, formed by more than four hundred scientists and engineers. The members of the research group in which I developed this Thesis, is part of DPAC. Our work is mainly based on the application of Artificial Intelligence techniques on the data gathered by Gaia. We also develop tools for the scientific community in order to perform their own analysis using these techniques. The main goals of this Thesis are the following: • Estímate, by means of supervised learning techniques, the main astrophysical parameters of the stars observed by the RVS instrument of Gaia with enough signal to noise ratio: effective temperature1 logarithm of surface gravity, iron abundances relative to hydrogen or metallicity, and abundances of ex - elements relative to iron. We will demonstrate the effectiveness of this technique applied to the Gaia data. • Provide the scientific community with a useful tool for analyzing homogeneous datasets by applying an unsupervised learning technique. Due to the enormous amounts of data that this tool must handle, the optimization of the algorithm used ls an essential factor. This work will detail the techniques used that allow this tool to process millions of data, minimizing the time consumption. • Develop a tool that facilitates the analysis of the results obtained by the classification technique on millions of stellar objects. In that way this tool should be able to present the results through different visualizations, allowing to explore their characteristics. An optimized data treatment is indispensable because this tool is developed in a Big Data environment. It will be verified how this tool is very useful to analyze data and we also detail the strategies used to visualize sets of millions of astronomical objects in an agile and fluid way. In all cases, the large amount of data to be processed make the application of distributed processing techniques mandatory in order to avoid excessive resource consumption: execution time and memory usage, which may prevent a satisfactory execution of the proposed methods. Processing all this information in the framework of the Gaia project requires an important computing capacity, so we develop different optimizations using distributed computing techniques, such as Apache Spark, and through graphic processing methods, such as CUDA. Another important aspect is that the resulting software must be integrated into the existing execution chains in DPAC and deployed in the associated data processing center (DPC), which requires a process to adapt ,the original software for the destination platform. Finally, we will demonstrate the usefulness of the unsupervised learning technique in other disciplines. It will be seen how this technique can improve the intrusion detection in network communications traffic ar in the generatian of user profiles to imprave social netwark marketing.[Resumo] o traballo realizado nesta tese enmárcase dentro do proxecto Gaia, da Axencia Espacial Europea, que ten por obxectivo procesar os datos pertencentes a máis de mil millóns de estrelas para xerar o catálogo estelar máis gTande coñecido ata a actualidade, o que o converte nun gran reto para toda a comunidade científica. Para realizar o procesado e análise dos datos de Gaia creouse un consorcio internacional, denominado Data Processing and Analysis Consortium (DPAC), destinado a deseñar e implementar os mecanismos que permitan explotar a inxente cantidade de información que se obterá, da orde dun Petabyte. Está formado por máis de 400 científicos e enxeñeiros entre os que nos incluÍmos os membros do grupo de investigación no que desenvolvo esta tese. o noso traballo basease principalmente na aplicación de técnicas da Intelixencia Artificial sobre os datos proporcionados por Gaia para resolver diferentes problemas, así como na elaboración de ferramentas que permitan á comunidade científica aplicar estas técnicas sobre os seus datos e analizar os resultados obtidos. Concretamente os obxectivos que se pretenden con este traballo son os seguintes: • Aplicar técnicas de aprendizaxe supervisada para a estimación dos principais parámetros estelares para as estrelas nas que o instrumento RVS de Gaia medirá espectros con suficiente relación sinal a ruído: Temperatura efectiva, gravidade superficial logarítmica, abundancia de ferro respecto ó hidróxeno ou metalicidade e abundancia de elementos alfa respecto ó ferro. Demostrarase a eficacia da técnica utilizada aplicada a datos obtidos polo satélite Gaja. • Proporcionar á comunidade científica dunha ferramenta útil para a procura e análise de conxuntos de datos homoxéneos mediante a aplicación dun algoritmo de aprendizaxe non supervisada. Esta ferramenta permite clasificar volumes xigantescos de datos) polo que a optimización do algoritmo utilizado é un factor esenciaL Explicaranse as técnicas empregadas que permiten a esta ferramenta procesar millóns de datos nun tempo reducido. • Desenvolver unha ferramenta que facilita a análise dos resultados obtidos pala técnica de clasificación sobre millóns de obxectos estelares, de tal forma que é capaz de amosar de forma visual os diferentes agrupamentos de obxectos estelares obtidos por esta técnica permitindo explorar as súas características. Dado que esta ferramenta traballa nunha contorna Big Data o tratamento dos datos adquire un papel primordial. Comprobarase como esta ferramenta é de gran utilidade para a VIII análise dos datos e explicaranse as estratexias que se seguiron para poder visualizar conxuntos de millóns de obxectos estelares de forma áxil e fluída. En todos os casos, a gran cantidade de datos a tratar suxire a necesidade de aplicar técnicas de procesamento distribuído para evitar un consumo de recursos excesivo: tempo de execución e uso de memoria, que pode chegar a impedir unha execución satisfactoria dos métodos propostos. Procesar toda esta información no marco do proxecto Gaia require unha capacidade de cómputo importante e para reducir estes tempos realízanse optimizacións mediante técnicas de computación distribuída, como é Apache Spark, e mediante técnicas de procesado gráfico, como é CUDA. Outro aspecto importante é que o software resultante debe ser integrado dentro das cadeas de execución existentes en DPAC e despregado nos centros de procesado asociados, o que require dun proceso de adaptación do software orixinal para a plataforma de destino. Para rematar demostrarase a utilidade da técnica de aprendizaxe non supervisada noutras disciplinas onde se verá como é capaz de mellorar a detección de intrusións en tráfico de redes de comunicacións ou na xeración de perfís de usuarios para mellorar o marketing online
    corecore