Search CORE

101 research outputs found

Treatment of Massive Metagenomic Data with Graphs

Author: Rebrij Romina
Santa María Cristóbal
Santa María Victoria
Soria Marcelo A.
Publication venue
Publication date: 01/06/2018
Field of study

Among the de novo strategies to assemble metagenomic DNA fragments the application of de Bruijn graphs stands out. These graphs greatly reduce the computational complexity and overload that arises as a consequence of the huge data volume. An Eulerian cycle can be established on a de Bruijn graph that allows the assembly of sequence reads into longer fragments for genome reconstruction. This paper shows the theoretical principles of the computational schema applied. Also, the difficulties that appear in the practical application of the method and the algorithmic features of some of the available open source programs. Finally, the work of the authors research group is summarized.Facultad de Informátic

Treatment of Massive Metagenomic Data with Graphs

Author: Rebrij Romina
Santa María Cristóbal
Santa María Victoria
Soria Marcelo A.
Publication venue
Publication date: 01/06/2018
Field of study

Servicio de Difusión de la Creación Intelectual

Estimación de biodiversidad por data mining y simulación

Author: Santa María Cristóbal
Soria Marcelo A.
Publication venue
Publication date: 18/07/2012
Field of study

Los estudios de diversidad microbiológica basados en información genética involucran procesos computacionales fundados en la minería de datos y en la estimación estadística. Con el objetivo de obtener la riqueza de especies, entendida como el número de las mismas, y su distribución en el medio, se procesan secuencias del gen 16S rRNA. Se mide la “distancia genética” entre secuencias y se procede a un agrupamiento en “clusters” a partir del cual se realiza el recuento. Las estimaciones estadísticas estándar tropiezan con la incertidumbre creada por la insuficiencia del tamaño muestral lo que requiere explorar formas alternativas de estimación. El trabajo presenta dos formas de evaluación de la riqueza a partir de una estimación de la probabilidad de existencia de especie nueva y del concepto de entropía. A tal efecto se utiliza la simulación como una técnica de explotación de los datos muestrales con la que se obtienen resultados que mejoran las estimaciones habituales.Presentado en el VIII Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI

Servicio de Difusión de la Creación Intelectual

Algoritmo con cobertura muestral en data mining aplicado al estudio de la biodiversidad

Author: Santa María Cristóbal
Soria Marcelo A.
Publication venue
Publication date: 01/01/2012
Field of study

Enmarcadas en la biología computacional, la aplicación conjunta de técnicas de Data Mining y Simulación a secuencias muestrales de ADN con el objeto de evaluar la riqueza, principal parámetro de biodiversidad, ha producido resultados que mejoran las estimaciones usualmente realizadas por procedimientos solo estadísticos. A partir del agrupamiento jerárquico de secuencias de la muestra en diferentes “clusters” que representan taxones distintos seleccionados por umbral de disimilaridad, es posible construir un modelo experimental y aplicar sobre él algoritmos de recuento de especies, o más generalmente de taxones (ARE ), que elevan a niveles compatibles con la apreciación biológica la riqueza subestimada por los procedimientos estándar. Se desarrolla aquí en detalle un algoritmo alternativo a dichos procedimientos ARE que incorpora el concepto de cobertura muestral y proporciona así estabilidad a la simulación asociada. Se procesan dos conjuntos muestrales y se obtienen conclusiones sobre el desempeño del algoritmo con cobertura muestral.Eje: Base de datos y minería de datosRed de Universidades con Carreras en Informática (RedUNCI

Servicio de Difusión de la Creación Intelectual

Minería de datos sobre comunidades biológicas

Author: Santa María Cristóbal
Soria Marcelo A.
Publication venue
Publication date: 10/08/2012
Field of study

La práctica científica y tecnológica suele reunir conceptos originados en diversas disciplinas para desarrollar perfiles y potenciales usos que adquieren cierta unidad e independencia conceptual. Tal es el caso de data mining que a partir de la tecnología de las bases de datos incorporó paulatinamente ideas provenientes de la inteligencia artificial y de la estadística para clasificar y/o predecir resultados sobre un muy variado conjunto de sistemas. El proyecto de investigación aquí presentado estudia técnicas bioinformáticas con las que se trabaja sobre comunidades microbiológicas de suelos. Tales métodos tienen el propósito de clasificar los organismos que forman parte del medio y predecir su diversidad. El análisis parte de la representación computacional del ADN que codifica la información genética y establece, con datos obtenidos a partir de muestras, las propiedades del conjunto de microorganismos que conforman esa comunidad. Este tipo de estudio, denominado metagenómica, permite agrupar los distintos tipos de organismos en clusters que representan alguna categoría taxonómica como especie, género, familia etc. También es posible a partir de estos agrupamientos realizar estimaciones de biodiversidad que proporcionen información sobre la potencialidad y riqueza del suelo. El proyecto de investigación tiene dos objetivos. Por un lado establecer un modelo bioinformático markoviano para la comparación de secuencias de ADN a efecto de clasificación, y por otro presentar un análisis crítico de los procedimientos de data mining aplicados a la evaluación de la riqueza en distintos ecosistemas.Eje: Bases de datos y minería de datosRed de Universidades con Carreras en Informática (RedUNCI

Servicio de Difusión de la Creación Intelectual

Minería de datos sobre comunidades biológicas

Author: Santa María Cristóbal
Soria Marcelo A.
Publication venue
Publication date: 01/05/2010
Field of study

Aplicaciones de data mining al estudio de la biodiversidad

Author: Santa María Cristóbal
Soria Marcelo A.
Publication venue
Publication date: 01/05/2011
Field of study

El trabajo propone la utilización conjunta de técnicas de data mining y simulación para evaluar la riqueza y diversidad de comunidades microbianas. Se parte de una muestra formada por distintas secuencias de ADN que se alinean para luego ser agrupadas según su similaridad en clusters. Cada uno de estos clusters es una especie y el propósito es estimar su número y distribución en la comunidad basándose en la información que da la muestra. La técnica de rarefacción, sustentada en el procedimiento bootstrap, permite construir una curva cuya tendencia asintótica es precisamente la riqueza de la comunidad. Para alcanzar tal asíntota, y a la vez para estimar la distribución estadística de las especies, se propone una simulación que utiliza la estimación de Turing sobre la probabilidad de nueva especie al seleccionar un individuo nuevo y la idea de cobertura para la porción de la distribución que cubre la muestra.Eje: Bases de datos y minería de datosRed de Universidades con Carreras en Informática (RedUNCI

Servicio de Difusión de la Creación Intelectual

Interpreter Chart Diagram N-S

Author: Aballay Patricia
Mac Gaul de Jorge Marcia
Soria Marcelo A.
Zamora Rodrigo Gabriel
Publication venue
Publication date: 13/09/2012
Field of study

The team of researchers develops and implements technological resources focused on a methodological strategy that supports its use. Our investigation deals with the analysis beginner students’ competences attending the Analisis de Sistema career at the UNSa, in order to solve different computing problems such as the analysis of the design if the diagram N-S and the desktop test. This work describes the process undertaken by the educational software design called Diagramar. Its development and the searching activity are related to the adopted methodologies: the Extreme Programming and Investigation-Action. The pedagogical importance of Diagramar lies on finding an answer to students and teachers’ needs, providing a technological resource developed to fit these needs. It is mainly focused on the elaboration of the N-S diagrams. There are not many texts that provide an specification of algorithm and translate a methodological strategy able to support the staff of teachers from a continual investigation on its own practice.Presentado en el VIII Workshop Tecnología Informática aplicada en Educación (WTIAE)Red de Universidades con Carreras en Informática (RedUNCI

Servicio de Difusión de la Creación Intelectual

Big data para el análisis de tormentas severas

Author: Banchero Santiago
Mezher Romina
Soria Marcelo A.
Publication venue
Publication date: 01/09/2016
Field of study

Se presenta para discusión los primeros resultados del trabajo de una tesis de maestría en minería de datos y descubrimiento de conocimiento que tiene el objetivo de evaluar cuál es la capacidad de predicción de ocurrencia de granizo de un conjunto de índices de inestabilidad utilizando técnicas de aprendizaje automático en un entorno de Big Data. Además deja constancia de los procesos de ETL para la integración de un conjunto de fuentes heterogéneas con variedad de escalas de relevamiento y los primeros resultados del análisis multivariado sobre algunos eventos destacados. Una tormenta severa es un fenómeno atmosférico con capacidades destructivas, como pueden ser tormentas eléctricas intensas, tormentas de granizo y tornados. El granizo se considera un riesgo natural y los daños provocados por este fenómeno meteorológico extremo causan en Argentina graves pérdidas en algunas regiones y afecta a diferentes sectores económicos, tanto en las zonas urbanas como rurales. La precipitación de granizo se caracteriza por tener una alta variabilidad espacial y temporal lo que representa un gran desafío para el análisis y desarrollo de modelos de pronóstico a corto plazo.Sociedad Argentina de Informática e Investigación Operativa (SADIO

Servicio de Difusión de la Creación Intelectual

Big data para el análisis de tormentas severas

Author: Banchero Santiago
Mezher Romina
Soria Marcelo A.
Publication venue
Publication date: 01/09/2016
Field of study