5 research outputs found

    Minería de datos sobre comunidades biológicas

    Get PDF
    La práctica científica y tecnológica suele reunir conceptos originados en diversas disciplinas para desarrollar perfiles y potenciales usos que adquieren cierta unidad e independencia conceptual. Tal es el caso de data mining que a partir de la tecnología de las bases de datos incorporó paulatinamente ideas provenientes de la inteligencia artificial y de la estadística para clasificar y/o predecir resultados sobre un muy variado conjunto de sistemas. El proyecto de investigación aquí presentado estudia técnicas bioinformáticas con las que se trabaja sobre comunidades microbiológicas de suelos. Tales métodos tienen el propósito de clasificar los organismos que forman parte del medio y predecir su diversidad. El análisis parte de la representación computacional del ADN que codifica la información genética y establece, con datos obtenidos a partir de muestras, las propiedades del conjunto de microorganismos que conforman esa comunidad. Este tipo de estudio, denominado metagenómica, permite agrupar los distintos tipos de organismos en clusters que representan alguna categoría taxonómica como especie, género, familia etc. También es posible a partir de estos agrupamientos realizar estimaciones de biodiversidad que proporcionen información sobre la potencialidad y riqueza del suelo. El proyecto de investigación tiene dos objetivos. Por un lado establecer un modelo bioinformático markoviano para la comparación de secuencias de ADN a efecto de clasificación, y por otro presentar un análisis crítico de los procedimientos de data mining aplicados a la evaluación de la riqueza en distintos ecosistemas.Eje: Bases de datos y minería de datosRed de Universidades con Carreras en Informática (RedUNCI

    Minería de datos sobre comunidades biológicas

    Get PDF
    La práctica científica y tecnológica suele reunir conceptos originados en diversas disciplinas para desarrollar perfiles y potenciales usos que adquieren cierta unidad e independencia conceptual. Tal es el caso de data mining que a partir de la tecnología de las bases de datos incorporó paulatinamente ideas provenientes de la inteligencia artificial y de la estadística para clasificar y/o predecir resultados sobre un muy variado conjunto de sistemas. El proyecto de investigación aquí presentado estudia técnicas bioinformáticas con las que se trabaja sobre comunidades microbiológicas de suelos. Tales métodos tienen el propósito de clasificar los organismos que forman parte del medio y predecir su diversidad. El análisis parte de la representación computacional del ADN que codifica la información genética y establece, con datos obtenidos a partir de muestras, las propiedades del conjunto de microorganismos que conforman esa comunidad. Este tipo de estudio, denominado metagenómica, permite agrupar los distintos tipos de organismos en clusters que representan alguna categoría taxonómica como especie, género, familia etc. También es posible a partir de estos agrupamientos realizar estimaciones de biodiversidad que proporcionen información sobre la potencialidad y riqueza del suelo. El proyecto de investigación tiene dos objetivos. Por un lado establecer un modelo bioinformático markoviano para la comparación de secuencias de ADN a efecto de clasificación, y por otro presentar un análisis crítico de los procedimientos de data mining aplicados a la evaluación de la riqueza en distintos ecosistemas.Eje: Bases de datos y minería de datosRed de Universidades con Carreras en Informática (RedUNCI

    Determination genetics differencies using alignment signal of biological sequences DNA

    Get PDF
    Biologické sekvence se neustále vyvíjejí, dochází u nich k mutacím, delecím a inzercím. Z důvodu potřeby klasifikovat sekvence a stanovit míru jejich podobnosti byly vytvořeny metody pro jejich zarovnání jako jsou bodová matice nebo algoritmy Needleman-Wunsch a Smith-Waterman pro globální a lokální zarovnání. Tyto konzervativní metody jsou však omezeny na předpoklad, že přestože došlo v sekvencích ke změnám, zachovaly si malou vzdálenost mezi podobnými úseky. Proto byly vytvořeny metody pro porovnání bez zarovnání, jako je metoda znaků v sekvenci, Euklidovská vzdálenost nebo Univerzální sekvenční mapy, které se snaží nedostatky metod využívajících zarovnání eliminovat.Biological sequences are constantly evolving so there are mutations, deletions and inserts. Because of need to classify these sequences and determine degree of their similarity have been developed aligment methods. For example Dot matrix or algorithms like Needleman-Wunsch and Smith-Waterman used for global and local alignment. These methods can be considered as conservative and are limited because it is assumed that although there have been changes during evolution they still preserve small distance between similar regions. Therefore number of methods have been proposed to eliminate these limitations by comparing sequences without alignment. These methods for example Words in sequences, Euklidean distance or Universal sequence maps are designed to eliminate limitations of alignment using methods.

    Aplicaciones de data mining al estudio de la biodiversidad en relevamientos metagenómicos

    Get PDF
    El trabajo aquí presentado trata acerca de las mediciones de biodiversidad en comunidades microbianas que suelen involucrar dos aspectos: la riqueza y la distribución de los taxones. Una metodología usual para estudiar esas comunidades comprende la utilización de genes marcadores, tal como el que codifica para el rRNA 16S. Se presenta un estado del arte referido a las técnicas de procesamiento computacional que son empleadas, en esos análisis, sobre las secuencias de ADN del gen marcador. También se reseñan las formas de estimación estadística de la diversidad más comúnmente usadas. Se evalúan y detallan las limitaciones que surgen de la aplicación de esos métodos, que comprenden procedimientos habituales en explotación de datos afectados, en este caso, por la presencia de taxones dominantes y de otros que resultan raros aunque no menos importantes desde el punto de vista del análisis del ecosistema. Se proponen alternativas de estimación por simulación para el descubrimiento del conocimiento sobre cantidad de taxones y distribución de los mismos. Los estimadores desarrollados procuran describir las características de la comunidad hallando un patrón distintivo a partir de los datos. En particular se utiliza una idea de Alan Turing acerca de la probabilidad de selección de una especie aun no contabilizada, para construir un Algoritmo de Recuento de Especies (ARE) que expande la muestra original poniendo en evidencia la distribución real y la riqueza. Se emplea también la idea de cobertura muestral para proponer distintas correcciones a este procedimiento y se construye un algoritmo de estimación que combina el uso de ambos estimadores con el de la entropía, que mide la cantidad de información muestral. Los resultados de las pruebas realizadas muestran el desempeño más eficiente de los algoritmos construidos respecto de las mediciones por estimación no paramétrica o por rarefacción, las que a menudo subestiman los valores de riqueza de la población microbiana.Fil:Santa María, Cristóbal Raúl. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina

    Statistical modelling of clickstream behaviour to inform real-time advertising decisions

    Get PDF
    Online user browsing generates vast quantities of typically unexploited data. Investigating this data and uncovering the valuable information it contains can be of substantial value to online businesses, and statistics plays a key role in this process. The data takes the form of an anonymous digital footprint associated with each unique visitor, resulting in 10610^{6} unique profiles across 10710^{7} individual page visits on a daily basis. Exploring, cleaning and transforming data of this scale and high dimensionality (2TB+ of memory) is particularly challenging, and requires cluster computing. We outline a variable selection method to summarise clickstream behaviour with a single value, and make comparisons to other dimension reduction techniques. We illustrate how to apply generalised linear models and zero-inflated models to predict sponsored search advert clicks based on keywords. We consider the problem of predicting customer purchases (known as conversions), from the customer’s journey or clickstream, which is the sequence of pages seen during a single visit to a website. We consider each page as a discrete state with probabilities of transitions between the pages, providing the basis for a simple Markov model. Further, Hidden Markov models (HMMs) are applied to relate the observed clickstream to a sequence of hidden states, uncovering meta-states of user activity. We can also apply conventional logistic regression to model conversions in terms of summaries of the profile’s browsing behaviour and incorporate both into a set of tools to solve a wide range of conversion types where we can directly compare the predictive capability of each model. In real-time, predicting profiles that are likely to follow similar behaviour patterns to known conversions, will have a critical impact on targeted advertising. We illustrate these analyses with results from real data collected by an Audience Management Platform (AMP) - Carbon
    corecore