958 research outputs found

    Representatividad Muestral en la Incertidumbre Sim\'etrica Multivariada para la Selecci\'on de Atributos

    Full text link
    In this work, we analyze the behavior of the multivariate symmetric uncertainty (MSU) measure through the use of statistical simulation techniques under various mixes of informative and non-informative randomly generated features. Experiments show how the number of attributes, their cardinalities, and the sample size affect the MSU. In this thesis, through observation of results, it is proposed an heuristic condition that preserves good quality in the MSU under different combinations of these three factors, providing a new useful criterion to help drive the process of dimension reduction. -- En el presente trabajo hemos analizado el comportamiento de una versi\'on multivariada de la incertidumbre sim\'etrica a trav\'es de t\'ecnicas de simulaci\'on estad\'isticas sobre varias combinaciones de atributos informativos y no-informativos generados de forma aleatoria. Los experimentos muestran como el n\'umero de atributos, sus cardinalidades y el tama\~no muestral afectan al MSU como medida. En esta tesis, mediante la observaci\'on de resultados hemos propuesto una condici\'on que preserva una buena calidad en el MSU bajo diferentes combinaciones de los tres factores mencionados, lo cual provee un nuevo y valioso criterio para llevar a cabo el proceso de reducci\'on de dimensionalidad.Comment: 52 pages, in Spanish. Advisors: Miguel Garc\'ia-Torres, Santiago G\'omez-Guerrero, Christian E. Schaerer Serr

    Understanding a Version of Multivariate Symmetric Uncertainty to assist in Feature Selection

    Full text link
    In this paper, we analyze the behavior of the multivariate symmetric uncertainty (MSU) measure through the use of statistical simulation techniques under various mixes of informative and non-informative randomly generated features. Experiments show how the number of attributes, their cardinalities, and the sample size affect the MSU. We discovered a condition that preserves good quality in the MSU under different combinations of these three factors, providing a new useful criterion to help drive the process of dimension reduction

    Feature Selection: A perspective on inter-attribute cooperation

    Full text link
    High-dimensional datasets depict a challenge for learning tasks in data mining and machine learning. Feature selection is an effective technique in dealing with dimensionality reduction. It is often an essential data processing step prior to applying a learning algorithm. Over the decades, filter feature selection methods have evolved from simple univariate relevance ranking algorithms to more sophisticated relevance-redundancy trade-offs and to multivariate dependencies-based approaches in recent years. This tendency to capture multivariate dependence aims at obtaining unique information about the class from the intercooperation among features. This paper presents a comprehensive survey of the state-of-the-art work on filter feature selection methods assisted by feature intercooperation, and summarizes the contributions of different approaches found in the literature. Furthermore, current issues and challenges are introduced to identify promising future research and development.Comment: 17 pages, 2 figure

    Ensamblado ad hoc de clasificadores para la detección de cáncer de mama usando Scikit-learn

    Get PDF
    En el presente, el cáncer de mama es uno de los cánceres más frecuentes y es la segunda causa de muerte en mujeres en todo el mundo. Asimismo, cada vez es más difícil ignorar el constante e intenso aumento de la importancia de los enfoques de minería de datos en los diagnósticos médicos. En este sentido, central a toda la disciplina de la minería de datos, encontramos la clasificación como la tarea preponderante en el proceso de toma de decisiones para los médicos. A día de hoy, una gran cantidad de clasificadores se han propuesto en la literatura. Sin embargo, teniendo en cuenta la cantidad de personas afectadas por el cáncer, merece la pena seguir desarrollando técnicas que puedan contribuir en mejores formas de diagnóstico. En lo que a este estudio concierne, se ha considerado introducir un ensamblado de clasificadores, propuesto en razón al balance entre sus factores individuales de sesgo y varianza. Demostrando la correctitud de la metodología adoptada para la conjunción ad hoc de los clasificadores, los resultados empíricos de este estudio proporcionan evidencia de una mejor clasificación de los tumores como maligno o benigno, en cuanto a precisión se refiere.XVI Workshop Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Ensamblado ad hoc de clasificadores para la detección de cáncer de mama usando Scikit-learn

    Get PDF
    En el presente, el cáncer de mama es uno de los cánceres más frecuentes y es la segunda causa de muerte en mujeres en todo el mundo. Asimismo, cada vez es más difícil ignorar el constante e intenso aumento de la importancia de los enfoques de minería de datos en los diagnósticos médicos. En este sentido, central a toda la disciplina de la minería de datos, encontramos la clasificación como la tarea preponderante en el proceso de toma de decisiones para los médicos. A día de hoy, una gran cantidad de clasificadores se han propuesto en la literatura. Sin embargo, teniendo en cuenta la cantidad de personas afectadas por el cáncer, merece la pena seguir desarrollando técnicas que puedan contribuir en mejores formas de diagnóstico. En lo que a este estudio concierne, se ha considerado introducir un ensamblado de clasificadores, propuesto en razón al balance entre sus factores individuales de sesgo y varianza. Demostrando la correctitud de la metodología adoptada para la conjunción ad hoc de los clasificadores, los resultados empíricos de este estudio proporcionan evidencia de una mejor clasificación de los tumores como maligno o benigno, en cuanto a precisión se refiere.XVI Workshop Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Genericidad de funciones: el <i>quid</i> para la incorporación de dominios en un Sistema Funcional Inductivo basado en Haskell

    Get PDF
    Hoy en día, una inconmensurable cantidad de programas informáticos se encuentran en ejecución generando información propia de su comportamiento, estos tipos de historial son amplia y generalmente conocidos como Logs. Sin embargo, a pesar de los avances en la inferencia funcional inductiva para trabajar con los datos, hasta el momento se ha prestado escasa atención a la automatización del procesamiento analítico de estos tipos de registros de eventos. En este sentido, puesto que la alta expresividad de los Lenguajes de Programación Declarativos es una noción ampliamente aceptada, en este trabajo se aborda las implicancias prácticas de la Programación Funcional Inductiva aplicado en el dominio específico de los Logs para su inferencia asistida ex professo.XVI Workshop Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Genericidad de funciones: el <i>quid</i> para la incorporación de dominios en un Sistema Funcional Inductivo basado en Haskell

    Get PDF
    Hoy en día, una inconmensurable cantidad de programas informáticos se encuentran en ejecución generando información propia de su comportamiento, estos tipos de historial son amplia y generalmente conocidos como Logs. Sin embargo, a pesar de los avances en la inferencia funcional inductiva para trabajar con los datos, hasta el momento se ha prestado escasa atención a la automatización del procesamiento analítico de estos tipos de registros de eventos. En este sentido, puesto que la alta expresividad de los Lenguajes de Programación Declarativos es una noción ampliamente aceptada, en este trabajo se aborda las implicancias prácticas de la Programación Funcional Inductiva aplicado en el dominio específico de los Logs para su inferencia asistida ex professo.XVI Workshop Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Genericidad de funciones: el <i>quid</i> para la incorporación de dominios en un Sistema Funcional Inductivo basado en Haskell

    Get PDF
    Hoy en día, una inconmensurable cantidad de programas informáticos se encuentran en ejecución generando información propia de su comportamiento, estos tipos de historial son amplia y generalmente conocidos como Logs. Sin embargo, a pesar de los avances en la inferencia funcional inductiva para trabajar con los datos, hasta el momento se ha prestado escasa atención a la automatización del procesamiento analítico de estos tipos de registros de eventos. En este sentido, puesto que la alta expresividad de los Lenguajes de Programación Declarativos es una noción ampliamente aceptada, en este trabajo se aborda las implicancias prácticas de la Programación Funcional Inductiva aplicado en el dominio específico de los Logs para su inferencia asistida ex professo.XVI Workshop Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Descubriendo reglas de asociación en bases de datos del sector retail usando R

    Get PDF
    A día de hoy, la alta competitividad en los negocios del tipo retail les exige buscar nuevas estrategias para garantizar su supervivencia. A estos efectos, las organizaciones han comprendido que los datos residentes en sus bases de datos transaccionales pueden ser utilizados como materia prima para impulsar el crecimiento del negocio, si es que los mismos pueden explotarse con propiedad. Este trabajo de investigación tiene como objetivo principal aplicar técnicas de Minería de Datos para el descubrimiento de reglas de asociación, tomando como período de estudio datos transaccionales netamente comerciales, en un intervalo de 10 años de una entidad retail de electrodomésticos y muebles. Se describe la fase de selección y preparación de los datos así como también su costo en horas/hombre. En la fase de modelado se ha corrido los algoritmos Apriori y Eclat implementados en el paquete arules de la herramienta R donde tanto las asociaciones resultantes como el tiempo de ejecución fueron comparados entre ambos algoritmos. Los resultados demuestran patrones relevantes en el comportamiento de compra de los clientes como ser aquellos que relacionan artículos y precio de accesorios.XV Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI

    Descubriendo reglas de asociación en bases de datos del sector retail usando R

    Get PDF
    A día de hoy, la alta competitividad en los negocios del tipo retail les exige buscar nuevas estrategias para garantizar su supervivencia. A estos efectos, las organizaciones han comprendido que los datos residentes en sus bases de datos transaccionales pueden ser utilizados como materia prima para impulsar el crecimiento del negocio, si es que los mismos pueden explotarse con propiedad. Este trabajo de investigación tiene como objetivo principal aplicar técnicas de Minería de Datos para el descubrimiento de reglas de asociación, tomando como período de estudio datos transaccionales netamente comerciales, en un intervalo de 10 años de una entidad retail de electrodomésticos y muebles. Se describe la fase de selección y preparación de los datos así como también su costo en horas/hombre. En la fase de modelado se ha corrido los algoritmos Apriori y Eclat implementados en el paquete arules de la herramienta R donde tanto las asociaciones resultantes como el tiempo de ejecución fueron comparados entre ambos algoritmos. Los resultados demuestran patrones relevantes en el comportamiento de compra de los clientes como ser aquellos que relacionan artículos y precio de accesorios.XV Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI
    corecore