34 research outputs found
GUASOM: An Adaptive Visualization Tool for Unsupervised Clustering in Spectrophotometric Astronomical Surveys
Financiado para publicación en acceso aberto: Universidade da Coruña/CISUG[Abstract] We present an adaptive visualization tool for unsupervised classification of astronomical objects in a Big Data context such as the one found in the increasingly popular large spectrophotometric sky surveys. This tool is based on an artificial intelligence technique, Kohonen’s self-organizing maps, and our goal is to facilitate the analysis work of the experts by means of oriented domain visualizations, which is impossible to achieve by using a generic tool. We designed a client-server that handles the data treatment and computational tasks to give responses as quickly as possible, and we used JavaScript Object Notation to pack the data between server and client. We optimized, parallelized, and evenly distributed the necessary calculations in a cluster of machines. By applying our clustering tool to several databases, we demonstrated the main advantages of an unsupervised approach: the classification is not based on pre-established models, thus allowing the “natural classes” present in the sample to be discovered, and it is suited to isolate atypical cases, with the important potential for discovery that this entails. Gaia Utility for the Analysis of self-organizing maps is an analysis tool that has been developed in the context of the Data Processing and Analysis Consortium, which processes and analyzes the observations made by ESA’s Gaia satellite (European Space Agency) and prepares the mission archive that is presented to the international community in sequential periodic publications. Our tool is useful not only in the context of the Gaia mission, but also allows segmenting the information present in any other massive spectroscopic or spectrophotometric database.This work made use of the infrastructures acquired with grants provided by the State Research Agency (AEI) of the Spanish Government and the European Regional Development Fund (FEDER), RTI2018-095076-B-C22. We acknowledge support from CIGUS-CITIC, funded by Xunta de Galicia and the European Union (FEDER Galicia 2014-2020 Program) through grant ED431G 2019/01 and research consolidation grant ED431B 2021/36. This work has made use of data from the European Space Agency (ESA) mission Gaia (https://www.cosmos.esa.int/gaia), processed by the Gaia Data Processing and Analysis Consortium (DPAC), https://www.cosmos.esa.int/web/gaia/dpac/consortium). Funding for the DPAC has been provided by national institutions, in particular the institutions participating in the Gaia Multilateral Agreement. Funding for the Sloan Digital Sky Survey IV has been provided by the Alfred P. Sloan Foundation, the U.S. Department of Energy Office of Science, and the Participating Institutions. SDSS-IV acknowledges support and resources from the Center for High Performance Computing at the University of Utah. The SDSS website is www.sdss.org. SDSS-IV is managed by the Astrophysical Research Consortium for the Participating Institutions of the SDSS Collaboration. We also want to acknowledge Alhambra survey funded by the Spanish Goverment under Grant AYA2006-14056. Open Access funding provided thanks to the Universidade da Coruña/CISUG agreement with Springer NatureXunta de Galicia; ED431G 2019/01Xunta de Galicia; ED431B 2021/3
A Blended Artificial Intelligence Approach for Spectral Classification of Stars in Massive Astronomical Surveys
[Abstract]
This paper analyzes and compares the sensitivity and suitability of several artificial intelligence techniques applied to the Morgan–Keenan (MK) system for the classification of stars. The MK system is based on a sequence of spectral prototypes that allows classifying stars according to their effective temperature and luminosity through the study of their optical stellar spectra. Here, we include the method description and the results achieved by the different intelligent models developed thus far in our ongoing stellar classification project: fuzzy knowledge-based systems, backpropagation, radial basis function (RBF) and Kohonen artificial neural networks. Since one of today’s major challenges in this area of astrophysics is the exploitation of large terrestrial and space databases, we propose a final hybrid system that integrates the best intelligent techniques, automatically collects the most important spectral features, and determines the spectral type and luminosity level of the stars according to the MK standard system. This hybrid approach truly emulates the behavior of human experts in this area, resulting in higher success rates than any of the individual implemented techniques. In the final classification system, the most suitable methods are selected for each individual spectrum, which implies a remarkable contribution to the automatic classification process.This work was supported by Ministry of Science, Innovation and Universities (FEDER RTI2018-095076-B-C22) and Xunta de Galicia (ED431B 2018/42)Xunta de Galicia; ED431B 2018/4
Extracción de conocimiento en bases de datos astronómicas mediante redes de neuronas artificiales : aplicaciones en la misión Gaia
[Resumen] En la llamada era de las TIC, las capacidades de los sistemas de adquisición de datos
han aumentado enormemente, de forma que resulta complicado almacenar toda la
información que producen, así como su análisis posterior. Esta explosión de datos ha
aparecido recientemente en el campo de la Astronomía, donde cada vez se observan
un número mayor de objetos, con mayor periodicidad. Un ejemplo de esto es la
próxima misión Gaia, que observará múltiples propiedades de hasta mil millones de
estrellas, cuya información tendrá un volumen del orden del petabyte. Por lo tanto, para
analizar tal cantidad de datos, es necesario desarrollar nuevos métodos de análisis que
permitan extraer todo el conocimiento presente en los mismos. Esta tesis está dedicada
al desarrollo de métodos de análisis de datos, los cuales se integran en la cadena de
procesado de Gaia, con el objetivo de extraer conocimiento de los datos recogidos por
la misión.
Con el objetivo de analizar los datos de la misión Gaia, se ha organizado un consorcio a
nivel europeo, llamado Data Processing and Analysis Consortium (DPAC), compuesto
por cientos de científicos e ingenieros. DPAC se divide en ocho unidades de coordinación
(CUs), estando esta tesis dedicada al desarrollo de algoritmos en la CU8, que se encarga
de la estimación de parámetros astrofísicos (APs) y la clasificación de las fuentes. Se
desarrollan métodos basados en redes de neuronas artificiales (ANNs) para realizar
las tareas relacionadas con dos paquetes de trabajo diferentes en la CU8: El paquete
GSP-Spec (GWP-823) y el paquete OA (GWP-836).
El paquete GSP-Spec se encarga de la estimación de APs de estrellas mediante el espectro
del instrumento Radial Velocity Spectrograph (RVS). Aquí, se presentará el desarrollo
de uno de los módulos de GSP-Spec, el cual se basa en la aplicación de ANNs de
tipo feed-forward. Se presenta una metodología, basada en algoritmos genéticos de
optimización, para la obtención de un conjunto óptimo de parámetros de configuración
para la ANN en cada caso, en función de la relación señal a ruido (SNR) en el espectro
RVS y del tipo de estrella a parametrizar. Además, con el objetivo de mejorar las
estimaciones de APs, se estudian técnicas de procesado wavelet, aplicadas sobre el
espectro RVS. A pesar de la efectividad que las ANNs muestran a la hora de estimar APs,
en principio éstas carecen de la capacidad de proporcionar un valor de incertidumbre
sobre dichas estimaciones, con lo cual resulta imposible conocer la fiabilidad de las
mismas. Debido a ello, se presenta una arquitectura novedosa para la ANN, en la
cual se invierten las entradas y salidas de la misma, de forma que la ANN estima el
espectro RVS a partir de los APs. Dicha arquitectura de denomina red neuronal artificial
generativa (GANN) y se aplica a la estimación de APs de un conjunto de espectros RVS
simulados para la misión Gaia, donde se muestra más efectiva que el modelo de ANN
convencional, en el caso de estrellas débiles, con un bajo SNR. Finalmente, la red GANN
puede aplicarse para la obtención de la probabilidad a posteriori de cada uno de los APs
dado el espectro RVS, lo cual permitirá un análisis más completo de los mismos.
Dada la naturaleza de la misión Gaia, la cual es la primera misión astronómica que
observará, de forma no sesgada, toda la bóveda celeste hasta magnitud 20, se espera una
gran cantidad de objetos atípicos. El paquete OA en la CU8 se encarga del procesado
de dicho tipo de objetos, los cuales se definen como aquellos que no han podido ser
clasificados con fiabilidad por los paquetes de clasificación existentes en la cadena de
procesamiento. Los métodos de OA se basan en el aprendizaje no supervisado del
conjunto de observaciones atípicas. Dicho aprendizaje tiene dos partes: agrupamiento y
reducción de dimensionalidad. Se seleccionan los mapas auto-organizativos (SOM) como
algoritmo base para realizar dicho aprendizaje, demostrándose su efectividad cuando se
aplica, con una configuración óptima, a las simulaciones de Gaia. Además, el algoritmo
es aplicado a observaciones atípicas reales, provenientes del catálogo SDSS. Dado que
es necesaria una identificación posterior de los grupos obtenidos por la red SOM, se
aplican dos métodos de identificación diferentes. El primero está basado en la similitud
entre los prototipos de la red y el conjunto de simulaciones de Gaia, mientras que el
otro esa basado en la recuperación de clasificaciones almacenadas en el catálogo Simbad,
mediante el cruce de coordenadas celestes. Gracias a la visualización de la red SOM,
y a ambos métodos de identificación, es posible distinguir entre observaciones válidas
y artefactos observacionales. Además, el método posibilita la selección de objetos de
interés para observaciones posteriores, con el objetivo de determinar la naturaleza de los
mismos.[Abstract] In the so-called IT era, the capabilities of data acquisition systems have increased to
such an extent that it has become difficult to store all the information they produce, and
analyse it. This explosion of data has recently appeared in the field of Astronomy, where
an increasing number of objects are being observed on a regular basis. An example of
this is the upcoming Gaia mission, which will pick up multiple properties of a billion
stars, whose information will have a volume of approximately a petabyte. The analysis
of a similar amount of information inevitably requires the development of new data
analysis methods to extract all the knowledge it contains. This thesis is devoted to the
development of data analysis methods to be integrated in the Gaia pipeline, such that
knowledge can be extracted from the data collected by the mission.
In order to analyze the data from the Gaia mission, the European Space Agency
organized the Data Processing and Analysis Consortium (DPAC) which is composed
of hundreds of scientists and engineers. DPAC is divided into eight Coordination Units
(CUs). This thesis is dedicated to algorithm development in CU8, which is responsible
for source classification and astrophysical parameters (AP) estimation. Methods based
on Artificial Neural Networks (ANNs) are developed to perform the tasks related to
two different work packages in CU8: the GSP-Spec package (GWP-823), and the OA
package (GWP-836). The GSP-Spec package is responsible for estimating stellar APs
by means of the Radial Velocity Spectrograph (RVS) spectrum. This work presents
the development of one of the GSP-Spec modules, which is based on the application of
feed-forward ANNs. A methodology is described, based on the optimization of genetic
algorithms and aimed at obtaining an optimal set of configuration parameters for the
ANN in each case, depending on the signal to noise ratio (SNR) in the RVS spectrum and
on the type of star to parameterize. Furthermore, in order to improve the AP estimates,
wavelet signal processing techniques, applied to the RVS spectrum, are studied. Despite
the effectiveness shown by ANNs in estimating APs, in principle they lack the ability
to provide an uncertainty value on these estimates, making it impossible to determine
their reliability. Because of this, a new architecture for the ANN is presented in which
the inputs and outputs are reversed, so that the ANN estimates the RVS spectrum from
the APs. Such an architecture is called Generative ANN (GANN) and is applied to the
AP estimation of a set of simulated RVS spectra for the Gaia mission, where it is more
effective than the conventional ANN model, in the case of faint stars with low SNR.
Finally, the GANN can be applied for obtaining the posterior probability of each of the
APs according to the RVS spectrum, allowing for their more complete analysis.
Given the nature of the Gaia mission, which is the first astronomical mission that will
observe, in an unbiased way, the entire sky up to magnitude 20, a large number of outliers
are expected. The OA package in CU8 handles the processing of this type of objects,
which are defined as those that could not be reliably classified by the methods in the
upstream classification packages. OA methods are based on the unsupervised learning
of all outliers. Such learning has two parts: clustering and dimensionality reduction.
The Self-Organizing Map (SOM) algorithm is selected as a basis for this learning.
Its effectiveness is demonstrated when it is applied, with an optimal configuration, to
the Gaia simulations. Furthermore, the algorithm is applied to real outliers from the
SDSS catalog. Since a subsequent identification of the clusters obtained by the SOM is
necessary, two different methods of identification are applied. The first method is based
on the similarity between the SOM prototypes and the Gaia simulations, and the second
method is based on the recovery of stored classifications in the SIMBAD catalog by
cross-matching celestial coordinates. Thanks to the visualization of the SOM planes, and
to both methods of identification, it is possible to distinguish between valid observations
and observational artifacts. Furthermore, the method allows for the selection of objects
of interest for follow-up observations, in order to determine their nature
On the application of machine learning approaches in astronomy: Exploring novel representations of high-dimensional and complex astronomical data
The goal of the presented work is the application of data-driven methods on complex and high-
dimensional astronomical databases. The focus of the work is the exploration of novel data
representations in order to enable the use of statistical learning approaches in the analysis of
data. With the help of diverse science cases, the advantages of the introduced approaches for
classication, visualization and regression tasks are shown by applying the developed methodology
to astronomical data.
In the first part, an alternative approach for estimating redshifts of spectra by using the
knowledge about the redshifts provided by the SDSS pipeline is presented. A novel data repre-
sentation is employed which contains only information relevant for estimating the redshift and
the detection of multiple redshift systems. Subsequently, a novel data representation for regu-
larly sampled light curves based on recurrent networks is presented. This allows an explorative
investigation of huge databases with unlabeled data. Finally, a new way of representing the static
part of irregularly sampled light curves by a mixture of Gaussians is discussed. This represen-
tation is more general than the extraction of features, as it allows the inclusion of photometric
uncertainties and avoids the introduction of observational biases
Minería de datos en la misión Gaia: visualización del catálogo, optimización del procesado y parametrización de estrellas
Programa Oficial de Doutoramento en Tecnoloxías da Información e as Comunicacións. 5032V01[Resumen]
El trabajo realizado en esta tesis se enmarca dentro del proyecto Gaia, de la Agencia
Espacial Europea (ESA), que tiene por objetivo procesar los datos sobre posiciones y
brillos pertenecientes a más de mil millones de estrellas para generar el catálogo estelar
más grande conocido hasta la actualidad, lo que lo convierte en un gran reto para toda
la comunidad científica.
Para realizar el procesado y análisis de los datos de Gaia se ha creado un
consorcio internacional, denominado Data Processing and Analysis Consortium (DPAC),
destinado a diseñar e implementar los mecanismos que permitan explotar la ingente
cantidad de información que se obtendrá, del orden de un Petabyte. Está formado por
más de 400 científicos e ingenieros entre los que nos incluimos los miembros del grupo
de investigación en el que desarrollo esta tesis.
Nuestro trabajo se basa principalmente en la aplicación de técnicas de la Inteligencia
Artificial sobre los datos proporcionados por Gaia así como en la elaboración de
herramientas que permitan a la comunidad científica utilizar esas técnicas para analizar
la información astrofísica que contiene el catálogo. Concretamente los objetivos que se
pretenden con este trabajo son los siguientes:
• Aplicar técnicas de aprendizaje supervisado para la estimación de los principales
parámetros atmosféricos para las estrellas en las que el instrumento RVS de
Gaia medirá espectros con suficiente relación señal a ruido: temperatura efectiva,
gravedad superficial logarítmica, abundancia de hierro respecto al hidrógeno o
metalicidad y abundancia de elementos alfa respecto al hierro. Se demostrará la
eficacia de la técnica utilizada aplicada a datos obtenidos por el satélite Gaia.
• Proporcionar a la comunidad científica de una herramienta útil para la búsqueda y
análisis de conjuntos de datos homogéneos mediante la aplicación de un algoritmo
de aprendizaje no supervisado. Esta herramienta permite clasificar volúmenes
gigantescos de datos, por lo que la optimización del algoritmo utilizado es un factor
esencial. Se explicarán las técnicas utilizadas que permiten a esta herramienta
procesar millones de datos en un tiempo reducido.
• Desarrollar una herramienta que facilita el análisis de los resultados obtenidos por
la técnica de clasificación sobre millones de objetos estelares, de tal forma que es
capaz de mostrar de forma visual las diferentes agrupaciones de objetos estelares
obtenidas por esta técnica, permitiendo explorar sus características. Dado que esta
herramienta trabaja en un entorno Big Data el tratamiento de los datos adquiere
un papel primordiaL Se comprobará cómo esta herramienta es de gran utilidad
para el análisis de los datos y se explicarán las estrategias que se han seguido para
poder visualizar conjuntos de millones de objetos astronómicos de forma ágil y
fluida.
En todos los casos, la gran cantidad de datos a tratar sugiere la necesidad de aplicar
técnicas de procesamiento distribuido para evitar un consumo de recursos excesivo:
tiempo de ejecución y uso de memoria, que puede llegar a impedir una ejecución
satisfactoria de los métodos propuestos. Procesar toda esta información en el marco del
proyecto Gala requiere una capacidad de cómputo importante, por lo que para reducir
estos tiempos se realizan optimizaciones mediante técnicas de computación distribuida,
como es Apache Spark, y mediante técnicas de procesado gráfico, como es CUDA.
Otro aspecto importante es que el software resultante debe ser integrado dentro de
las cadenas de ejecución existentes en DPAC y desplegado en los centros de procesado
asociados, lo que requiere de un proceso de adaptación del software original para la
plataforma de destino.
Por último se demostrará la utilidad de la técnica de aprendizaje no supervisado en otras
disciplinas donde se verá cómo es capaz de mejorar la detección de intrusiones en tráfico
de redes de comunicaciones o en la generación de perfiles de usuarios para mejorar el
marketing online.[Abstract]
This Thesis has been developed in the context of the Gaia mission, the cornerstone of
the European Space Agency (ESA), which is conducting a survey of a billion stars in
the Milky Way to generate the largest known star catalog up to date. Such a catalog
becomes a great challenge to the scientific community in computational astrophysics.
It lS estimated that the total data archive will surpass 1 Petabyte and, in order to analyze
such a huge amount of data, the Data Processing and Analysis Consortium (DPAC)
has been organized, formed by more than four hundred scientists and engineers. The
members of the research group in which I developed this Thesis, is part of DPAC.
Our work is mainly based on the application of Artificial Intelligence techniques on the
data gathered by Gaia. We also develop tools for the scientific community in order to
perform their own analysis using these techniques. The main goals of this Thesis are
the following:
• Estímate, by means of supervised learning techniques, the main astrophysical
parameters of the stars observed by the RVS instrument of Gaia with enough signal
to noise ratio: effective temperature1 logarithm of surface gravity, iron abundances
relative to hydrogen or metallicity, and abundances of ex - elements relative to
iron. We will demonstrate the effectiveness of this technique applied to the Gaia
data.
• Provide the scientific community with a useful tool for analyzing homogeneous
datasets by applying an unsupervised learning technique. Due to the enormous
amounts of data that this tool must handle, the optimization of the algorithm used
ls an essential factor. This work will detail the techniques used that allow this tool
to process millions of data, minimizing the time consumption.
• Develop a tool that facilitates the analysis of the results obtained by the
classification technique on millions of stellar objects. In that way this tool should
be able to present the results through different visualizations, allowing to explore
their characteristics. An optimized data treatment is indispensable because this
tool is developed in a Big Data environment. It will be verified how this tool is
very useful to analyze data and we also detail the strategies used to visualize sets
of millions of astronomical objects in an agile and fluid way.
In all cases, the large amount of data to be processed make the application of distributed
processing techniques mandatory in order to avoid excessive resource consumption: execution time and memory usage, which may prevent a satisfactory execution of the
proposed methods. Processing all this information in the framework of the Gaia project
requires an important computing capacity, so we develop different optimizations using
distributed computing techniques, such as Apache Spark, and through graphic processing
methods, such as CUDA.
Another important aspect is that the resulting software must be integrated into the
existing execution chains in DPAC and deployed in the associated data processing
center (DPC), which requires a process to adapt ,the original software for the destination
platform.
Finally, we will demonstrate the usefulness of the unsupervised learning technique in
other disciplines. It will be seen how this technique can improve the intrusion detection
in network communications traffic ar in the generatian of user profiles to imprave social
netwark marketing.[Resumo]
o traballo realizado nesta tese enmárcase dentro do proxecto Gaia, da Axencia Espacial
Europea, que ten por obxectivo procesar os datos pertencentes a máis de mil millóns de
estrelas para xerar o catálogo estelar máis gTande coñecido ata a actualidade, o que o
converte nun gran reto para toda a comunidade científica.
Para realizar o procesado e análise dos datos de Gaia creouse un consorcio internacional,
denominado Data Processing and Analysis Consortium (DPAC), destinado a deseñar e
implementar os mecanismos que permitan explotar a inxente cantidade de información
que se obterá, da orde dun Petabyte. Está formado por máis de 400 científicos e
enxeñeiros entre os que nos incluÍmos os membros do grupo de investigación no que
desenvolvo esta tese.
o noso traballo basease principalmente na aplicación de técnicas da Intelixencia Artificial
sobre os datos proporcionados por Gaia para resolver diferentes problemas, así como na
elaboración de ferramentas que permitan á comunidade científica aplicar estas técnicas
sobre os seus datos e analizar os resultados obtidos. Concretamente os obxectivos que
se pretenden con este traballo son os seguintes:
• Aplicar técnicas de aprendizaxe supervisada para a estimación dos principais
parámetros estelares para as estrelas nas que o instrumento RVS de Gaia medirá
espectros con suficiente relación sinal a ruído: Temperatura efectiva, gravidade
superficial logarítmica, abundancia de ferro respecto ó hidróxeno ou metalicidade
e abundancia de elementos alfa respecto ó ferro. Demostrarase a eficacia da técnica
utilizada aplicada a datos obtidos polo satélite Gaja.
• Proporcionar á comunidade científica dunha ferramenta útil para a procura e
análise de conxuntos de datos homoxéneos mediante a aplicación dun algoritmo
de aprendizaxe non supervisada. Esta ferramenta permite clasificar volumes
xigantescos de datos) polo que a optimización do algoritmo utilizado é un factor
esenciaL Explicaranse as técnicas empregadas que permiten a esta ferramenta
procesar millóns de datos nun tempo reducido.
• Desenvolver unha ferramenta que facilita a análise dos resultados obtidos pala
técnica de clasificación sobre millóns de obxectos estelares, de tal forma que é
capaz de amosar de forma visual os diferentes agrupamentos de obxectos estelares
obtidos por esta técnica permitindo explorar as súas características. Dado que esta
ferramenta traballa nunha contorna Big Data o tratamento dos datos adquire un
papel primordial. Comprobarase como esta ferramenta é de gran utilidade para a
VIII
análise dos datos e explicaranse as estratexias que se seguiron para poder visualizar
conxuntos de millóns de obxectos estelares de forma áxil e fluída.
En todos os casos, a gran cantidade de datos a tratar suxire a necesidade de aplicar
técnicas de procesamento distribuído para evitar un consumo de recursos excesivo:
tempo de execución e uso de memoria, que pode chegar a impedir unha execución
satisfactoria dos métodos propostos. Procesar toda esta información no marco do
proxecto Gaia require unha capacidade de cómputo importante e para reducir estes
tempos realízanse optimizacións mediante técnicas de computación distribuída, como é
Apache Spark, e mediante técnicas de procesado gráfico, como é CUDA.
Outro aspecto importante é que o software resultante debe ser integrado dentro das
cadeas de execución existentes en DPAC e despregado nos centros de procesado
asociados, o que require dun proceso de adaptación do software orixinal para a
plataforma de destino.
Para rematar demostrarase a utilidade da técnica de aprendizaxe non supervisada
noutras disciplinas onde se verá como é capaz de mellorar a detección de intrusións
en tráfico de redes de comunicacións ou na xeración de perfís de usuarios para mellorar
o marketing online