Histograma basat en Representació jeràrquica per dades de Microarray Classificació

Abstract

[ANGLÈS] A general framework for microarray classification relying on histogram based hierarchical clustering is proposed in this work. It produces precise and reliable classifiers based on a two-step approach. In the first step, the feature set is enhanced by histogram based features corresponding to each cluster produced via hierarchical clustering, where a parameter (maximum number of dominant genes) can be tuned based on the dataset characteristics. In the second step, a reliable classifier is built from a wrapper feature selection process called Improved Sequential Floating Forward Selection (IFFS) to properly choose a small feature set for the classification task. Considering the sample scarcity in the microarray datasets, a reliability parameter has been considered to improve the feature selection process along with classification error rate. Different combinations of error rate and reliability has been used as the scoring rule. Linear Discriminant Analysis (LDA) and K-Nearest Neighbour (KNN) classifiers have been used for this work and the performances has been compared. The potential of the proposed framework has been evaluated with three publicly available datasets : colon, lymphoma and leukaemia. The experimental results have confirmed the usefulness of the histogram based hierarchical clustering and the new representative feature generation algorithm. A gene level analysis has revealed that the best features selected by the feature selection algorithm has only very few basic constituent genes involved. The comparative results showed that the proposed framework can compete with state of the art alternatives.[CASTELLÀ] Un marco general para la clasificación de microarrays se propone en este trabajo. Produce clasificadores precisos y fiables basados en un enfoque de dos pasos. En el primer paso, el conjunto de características se ve reforzado por una serie de características basado en un histograma correspondiente a cada racimo producido a través de la agrupación jerárquica, donde puede ser un parámetro (número máximo de genes dominantes) sintonizado sobre la base de las características del conjunto de datos. En el segundo paso, un clasificador fiable se construye a partir de un proceso de envoltura de la característica de selección llamado Improved Sequential Floating Forward Selection (IFFS) para elegir adecuadamente un conjunto de características pequeño para la tarea de clasificación. Considerando la escasez de la muestra en los microarrays de datos, un parámetro de fiabilidad ha sido considerado para mejorar el proceso de selección de características, junto con la tasa de clasificación de error. Las diferentes combinaciones de tasa de error y la fiabilidad se ha utilizado como la regla de puntuación. Linear Discriminant Analysis (LDA) y K-Nearest Neighbour (KNN) clasificadores se ha utilizado para este trabajo y el rendimiento ha sido comparado. El potencial del proyecto de marco ha sido evaluado con tres conjuntos de datos disponibles al público: colon, linfoma y leucemia. Los resultados experimentales han confirmado la utilidad del histograma basado en la agrupación jerárquica y el algoritmo representante característica nueva generación. Un análisis a nivel de gen ha revelado que las mejores características seleccionadas por el algoritmo de selección de característica sólo tiene genes básicos muy pocos constituyentes implicados. Los resultados comparativos mostraron que el marco propuesto puede competir con el estado del arte de las alternativas.[CATALÀ] Un marc general per a la classificació de microarrays es proposa en aquest treball. Produeix classificadors precisos i fiables basats en un enfocament de dos passos. En el primer pas, el conjunt de característiques es veu reforçada per una sèrie de característiques basat en histograma corresponent a cada raïm produïda a través de l'agrupació jeràrquica, on pot ser un paràmetre (nombre màxim de gens dominants) sintonitzat sobre la base de les característiques del conjunt de dades. En el segon pas, un classificador fiable es construeix a partir d'un procés d'embolcall de la característica de selecció anomenat Improved Sequential Floating Forward Selection (IFFS) per triar adequadament un conjunt de característiques petit per a la tasca de classificació. Considerant l'escassetat de la mostra en els microarrays de dades, un paràmetre de fiabilitat ha estat considerat per millorar el procés de selecció de característiques, juntament amb la taxa de classificació d'error. Les diferents combinacions de taxa d'error i la fiabilitat s'ha utilitzat com la regla de puntuación. Linear Discriminant Analysis (LDA) i K-Nearest Neighbour (KNN) classificadors s'haN utilitzat per aquest treball i el rendiment ha estat comparat. El potencial del projecte de marc ha estat avaluat amb tres conjunts de dades disponibles al públic: còlon, limfoma i leucèmia. Els resultats experimentals han confirmat la utilitat de l'histograma basat en l'agrupació jeràrquica i l'algoritme representant característica nova generació. Una anàlisi a nivell de gen ha revelat que les millors característiques seleccionades per l'algorisme de selecció de característiques només té gens bàsics molt pocs constituents implicats. Els resultats comparatius mostren que el marc proposat pot competir amb l'estat de l'art de les alternatives

    Similar works