101 research outputs found

    Treatment of Massive Metagenomic Data with Graphs

    Get PDF
    Among the de novo strategies to assemble metagenomic DNA fragments the application of de Bruijn graphs stands out. These graphs greatly reduce the computational complexity and overload that arises as a consequence of the huge data volume. An Eulerian cycle can be established on a de Bruijn graph that allows the assembly of sequence reads into longer fragments for genome reconstruction. This paper shows the theoretical principles of the computational schema applied. Also, the difficulties that appear in the practical application of the method and the algorithmic features of some of the available open source programs. Finally, the work of the authors research group is summarized.Facultad de Informátic

    Treatment of Massive Metagenomic Data with Graphs

    Get PDF
    Among the de novo strategies to assemble metagenomic DNA fragments the application of de Bruijn graphs stands out. These graphs greatly reduce the computational complexity and overload that arises as a consequence of the huge data volume. An Eulerian cycle can be established on a de Bruijn graph that allows the assembly of sequence reads into longer fragments for genome reconstruction. This paper shows the theoretical principles of the computational schema applied. Also, the difficulties that appear in the practical application of the method and the algorithmic features of some of the available open source programs. Finally, the work of the authors research group is summarized.Facultad de Informátic

    Estimación de biodiversidad por data mining y simulación

    Get PDF
    Los estudios de diversidad microbiológica basados en información genética involucran procesos computacionales fundados en la minería de datos y en la estimación estadística. Con el objetivo de obtener la riqueza de especies, entendida como el número de las mismas, y su distribución en el medio, se procesan secuencias del gen 16S rRNA. Se mide la “distancia genética” entre secuencias y se procede a un agrupamiento en “clusters” a partir del cual se realiza el recuento. Las estimaciones estadísticas estándar tropiezan con la incertidumbre creada por la insuficiencia del tamaño muestral lo que requiere explorar formas alternativas de estimación. El trabajo presenta dos formas de evaluación de la riqueza a partir de una estimación de la probabilidad de existencia de especie nueva y del concepto de entropía. A tal efecto se utiliza la simulación como una técnica de explotación de los datos muestrales con la que se obtienen resultados que mejoran las estimaciones habituales.Presentado en el VIII Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI

    Algoritmo con cobertura muestral en data mining aplicado al estudio de la biodiversidad

    Get PDF
    Enmarcadas en la biología computacional, la aplicación conjunta de técnicas de Data Mining y Simulación a secuencias muestrales de ADN con el objeto de evaluar la riqueza, principal parámetro de biodiversidad, ha producido resultados que mejoran las estimaciones usualmente realizadas por procedimientos solo estadísticos. A partir del agrupamiento jerárquico de secuencias de la muestra en diferentes “clusters” que representan taxones distintos seleccionados por umbral de disimilaridad, es posible construir un modelo experimental y aplicar sobre él algoritmos de recuento de especies, o más generalmente de taxones (ARE ), que elevan a niveles compatibles con la apreciación biológica la riqueza subestimada por los procedimientos estándar. Se desarrolla aquí en detalle un algoritmo alternativo a dichos procedimientos ARE que incorpora el concepto de cobertura muestral y proporciona así estabilidad a la simulación asociada. Se procesan dos conjuntos muestrales y se obtienen conclusiones sobre el desempeño del algoritmo con cobertura muestral.Eje: Base de datos y minería de datosRed de Universidades con Carreras en Informática (RedUNCI

    Minería de datos sobre comunidades biológicas

    Get PDF
    La práctica científica y tecnológica suele reunir conceptos originados en diversas disciplinas para desarrollar perfiles y potenciales usos que adquieren cierta unidad e independencia conceptual. Tal es el caso de data mining que a partir de la tecnología de las bases de datos incorporó paulatinamente ideas provenientes de la inteligencia artificial y de la estadística para clasificar y/o predecir resultados sobre un muy variado conjunto de sistemas. El proyecto de investigación aquí presentado estudia técnicas bioinformáticas con las que se trabaja sobre comunidades microbiológicas de suelos. Tales métodos tienen el propósito de clasificar los organismos que forman parte del medio y predecir su diversidad. El análisis parte de la representación computacional del ADN que codifica la información genética y establece, con datos obtenidos a partir de muestras, las propiedades del conjunto de microorganismos que conforman esa comunidad. Este tipo de estudio, denominado metagenómica, permite agrupar los distintos tipos de organismos en clusters que representan alguna categoría taxonómica como especie, género, familia etc. También es posible a partir de estos agrupamientos realizar estimaciones de biodiversidad que proporcionen información sobre la potencialidad y riqueza del suelo. El proyecto de investigación tiene dos objetivos. Por un lado establecer un modelo bioinformático markoviano para la comparación de secuencias de ADN a efecto de clasificación, y por otro presentar un análisis crítico de los procedimientos de data mining aplicados a la evaluación de la riqueza en distintos ecosistemas.Eje: Bases de datos y minería de datosRed de Universidades con Carreras en Informática (RedUNCI

    Minería de datos sobre comunidades biológicas

    Get PDF
    La práctica científica y tecnológica suele reunir conceptos originados en diversas disciplinas para desarrollar perfiles y potenciales usos que adquieren cierta unidad e independencia conceptual. Tal es el caso de data mining que a partir de la tecnología de las bases de datos incorporó paulatinamente ideas provenientes de la inteligencia artificial y de la estadística para clasificar y/o predecir resultados sobre un muy variado conjunto de sistemas. El proyecto de investigación aquí presentado estudia técnicas bioinformáticas con las que se trabaja sobre comunidades microbiológicas de suelos. Tales métodos tienen el propósito de clasificar los organismos que forman parte del medio y predecir su diversidad. El análisis parte de la representación computacional del ADN que codifica la información genética y establece, con datos obtenidos a partir de muestras, las propiedades del conjunto de microorganismos que conforman esa comunidad. Este tipo de estudio, denominado metagenómica, permite agrupar los distintos tipos de organismos en clusters que representan alguna categoría taxonómica como especie, género, familia etc. También es posible a partir de estos agrupamientos realizar estimaciones de biodiversidad que proporcionen información sobre la potencialidad y riqueza del suelo. El proyecto de investigación tiene dos objetivos. Por un lado establecer un modelo bioinformático markoviano para la comparación de secuencias de ADN a efecto de clasificación, y por otro presentar un análisis crítico de los procedimientos de data mining aplicados a la evaluación de la riqueza en distintos ecosistemas.Eje: Bases de datos y minería de datosRed de Universidades con Carreras en Informática (RedUNCI

    Aplicaciones de data mining al estudio de la biodiversidad

    Get PDF
    El trabajo propone la utilización conjunta de técnicas de data mining y simulación para evaluar la riqueza y diversidad de comunidades microbianas. Se parte de una muestra formada por distintas secuencias de ADN que se alinean para luego ser agrupadas según su similaridad en clusters. Cada uno de estos clusters es una especie y el propósito es estimar su número y distribución en la comunidad basándose en la información que da la muestra. La técnica de rarefacción, sustentada en el procedimiento bootstrap, permite construir una curva cuya tendencia asintótica es precisamente la riqueza de la comunidad. Para alcanzar tal asíntota, y a la vez para estimar la distribución estadística de las especies, se propone una simulación que utiliza la estimación de Turing sobre la probabilidad de nueva especie al seleccionar un individuo nuevo y la idea de cobertura para la porción de la distribución que cubre la muestra.Eje: Bases de datos y minería de datosRed de Universidades con Carreras en Informática (RedUNCI

    Interpreter Chart Diagram N-S

    Get PDF
    The team of researchers develops and implements technological resources focused on a methodological strategy that supports its use. Our investigation deals with the analysis beginner students’ competences attending the Analisis de Sistema career at the UNSa, in order to solve different computing problems such as the analysis of the design if the diagram N-S and the desktop test. This work describes the process undertaken by the educational software design called Diagramar. Its development and the searching activity are related to the adopted methodologies: the Extreme Programming and Investigation-Action. The pedagogical importance of Diagramar lies on finding an answer to students and teachers’ needs, providing a technological resource developed to fit these needs. It is mainly focused on the elaboration of the N-S diagrams. There are not many texts that provide an specification of algorithm and translate a methodological strategy able to support the staff of teachers from a continual investigation on its own practice.Presentado en el VIII Workshop Tecnología Informática aplicada en Educación (WTIAE)Red de Universidades con Carreras en Informática (RedUNCI

    Big data para el análisis de tormentas severas

    Get PDF
    Se presenta para discusión los primeros resultados del trabajo de una tesis de maestría en minería de datos y descubrimiento de conocimiento que tiene el objetivo de evaluar cuál es la capacidad de predicción de ocurrencia de granizo de un conjunto de índices de inestabilidad utilizando técnicas de aprendizaje automático en un entorno de Big Data. Además deja constancia de los procesos de ETL para la integración de un conjunto de fuentes heterogéneas con variedad de escalas de relevamiento y los primeros resultados del análisis multivariado sobre algunos eventos destacados. Una tormenta severa es un fenómeno atmosférico con capacidades destructivas, como pueden ser tormentas eléctricas intensas, tormentas de granizo y tornados. El granizo se considera un riesgo natural y los daños provocados por este fenómeno meteorológico extremo causan en Argentina graves pérdidas en algunas regiones y afecta a diferentes sectores económicos, tanto en las zonas urbanas como rurales. La precipitación de granizo se caracteriza por tener una alta variabilidad espacial y temporal lo que representa un gran desafío para el análisis y desarrollo de modelos de pronóstico a corto plazo.Sociedad Argentina de Informática e Investigación Operativa (SADIO

    Big data para el análisis de tormentas severas

    Get PDF
    Se presenta para discusión los primeros resultados del trabajo de una tesis de maestría en minería de datos y descubrimiento de conocimiento que tiene el objetivo de evaluar cuál es la capacidad de predicción de ocurrencia de granizo de un conjunto de índices de inestabilidad utilizando técnicas de aprendizaje automático en un entorno de Big Data. Además deja constancia de los procesos de ETL para la integración de un conjunto de fuentes heterogéneas con variedad de escalas de relevamiento y los primeros resultados del análisis multivariado sobre algunos eventos destacados. Una tormenta severa es un fenómeno atmosférico con capacidades destructivas, como pueden ser tormentas eléctricas intensas, tormentas de granizo y tornados. El granizo se considera un riesgo natural y los daños provocados por este fenómeno meteorológico extremo causan en Argentina graves pérdidas en algunas regiones y afecta a diferentes sectores económicos, tanto en las zonas urbanas como rurales. La precipitación de granizo se caracteriza por tener una alta variabilidad espacial y temporal lo que representa un gran desafío para el análisis y desarrollo de modelos de pronóstico a corto plazo.Sociedad Argentina de Informática e Investigación Operativa (SADIO
    corecore