3 research outputs found

    Integrated Application of Enhanced Replacement Method and Ensemble Learning for the Prediction of BCRP/ABCG2 Substrates

    Get PDF
    Breast Cancer Resistance Protein (BCRP or ABCG2) is a polyspecific efflux-transporter which belongs to the ATP-binding Cassette superfamily. Up-regulation of BCRP is associated to multi-drug resistance in a number of conditions, e.g. cancer and epilepsy. Recent proteomic studies show that high-expression levels of BCRP are found in healthy human intestine and at the blood-brain barrier, limiting the absorption and brain distribution of its substrates. Here, we have jointly applied the Enhanced Replacement Method and ensemble learning approaches to obtain combinations of 2D linear classifiers capable of discriminating among substrates and non-substrates of the wild type human BCRP. The best model ensemble obtained outperforms previously reported 2D linear classifiers, showing the ability of the Enhanced Replacement Method and ensemble learning schemes to optimize the performance of individual models. This is the first report of the Enhanced Replacement Method to solve classification problems.Facultad de Ciencias Exacta

    A skewness-based clustering method

    Get PDF
    Partitive clustering methods represent one of the earlier and most famous sets of strategy in the field of clustering. The name comes from their main feature: all these methods start from an initial partition and modify it at every step of the process according to a known criterion, until a given convergence rule is satisfied. In other words, as pointed out by Äyrämö and Kärkkäinen (2006), they work essentially as iterative allocation algorithms. In this framework, we do not only focus on “canonical” approaches such as K-means and fuzzy C-means, but discuss some recent symmetrybased partitive clustering methods, mostly developed in the context of computer science and engineering. As it will be shown, these approaches seem to provide encouraging results, especially in the field of image recognition and some related applications, and for this reason, they represent a starting point for our work. In this respect, we are particularly interested in the case of overlapping clusters. As we will clarify, this case may represent a critical aspect for most clustering methods we have considered. In particular, we started our analysis by noting that, in a case of high-dimensional data with overlapping clusters, it may be difficult to choose the component-specific distributions, and no graphical device can help us. So, we decided to investigate non parametric approaches to clustering. In this framework, we focused on the case of clusters with elliptical shapes, and in Gaussian mixtures as a special case. Then, we realized that for elliptical shapes the symmetry could be a “natural” choice. So, we searched for such clustering approaches, and we found the symmetrybased methods cited above. But, surprisingly, none of them was intended to focus on elliptical clusters, since their aim is essentially at handling image recognition of different symmetric shapes. So, we decided to discuss this issue, and to test whether a suitable function of symmetry could improve clustering results in the case of elliptical overlapping clusters. Since we are interested in elliptical shapes, from a clustering point of view, another broad subject that we will discuss is the Gaussian mixture model. In this context, our interest is in the EM-based Mclust algorithm from the R library mclust, see Fraley and Raftery (1999). Thus, our work address both of these topics, partitive clustering methods (with a focus on the symmetry-based approach) and Gaussian model-based clustering. The main reason of such a choice, that is to address two partially different subjects, derives from the essential features of our proposal: a symmetry-based partitive method which is intended to deal with elliptical clusters (with Gaussian being a special case). In this sense, we provide an evaluation of our clustering performances by proposing a comparison with the Gaussian mixture model implemented in the Mclust library, see Fraley and Raftery (1999). This is surely a challenging task, since this method has home-court advantage in the case of Gaussian clusters. In this framework, as pointed out before, we are mainly interested in the case of overlapping clusters. In this sense, a starting point for our work was the assumption that Mclust (also in its “natural” framework, that is Gaussian mixtures) could have problems in centroid estimation when clusters are highly overlapping. Quite obviously, this drawback could be related to its dependency on the mutivariate Gaussian density. So, we searched for a non parametric skewness-based method, which could be appropriate for elliptical distribution (including Gaussian) in the case of overlapping clusters. This was exactly the framework of the proposed Sbam (Skewness-Based Allocation Method) algorithm

    Segmentación de usuarios en la oficina de farmacia mediante algoritmos bioinspirados

    Get PDF
    Programa de Doctorado en Estadística e Investigación OperativaLa situación de las oficinas de farmacia, desde el punto de vista del negocio, está pasando por uno de sus momentos más complejos. El entorno económico y las reformas llevadas a cabo están incidiendo en su cuenta de resultados y, de manera directa, en la dispensación de medicamentos financiados por el Sistema Nacional de Salud. Prueba de esta situación es la tendencia decreciente del gasto sanitario público en el período 2008-2012 (último periodo disponible como estadística oficial cuya publicación se denomina "Estadística de Gasto Sanitario Público" del Ministerio de Sanidad, Servicios Sociales e Igualdad). En este periodo, el gasto sanitario público ha decrecido en promedio a razón de un 1,05% anual, mientras que el gasto por habitante también ha decrecido a razón de un 1,64%. Las consecuencias sobre las oficinas de farmacia, entre otras, han sido: el empeoramiento de la situación financiera, la disminución de los márgenes comerciales y el importe del ticket medio. Para añadir algo más de intranquilidad al mercado farmacéutico, el propio modelo de farmacia español no ha estado exento de turbulencias en los últimos años. La primera década del siglo XXI ha supuesto para el sector farmacéutico de los países mediterráneos una época de intranquilidad pues su modelo de establecimiento farmacéutico ha sido cuestionado severamente por las autoridades de la Unión Europea. Por todo ello, sin dejar de lado su rol como actor promotor de la salud dentro del sistema sanitario, entendemos que su negocio debe ser próspero para que la prestación de servicios (dispensación, atención farmacéutica, formación, información, asesoramiento, etc.) se desarrollen de la forma más eficaz y eficiente posible. Analizada la situación actual, hemos observado que es inexistente la utilización de técnicas y algoritmos de segmentación de usuarios e incipiente la distinción entre clientes y pacientes en las oficinas de farmacia. Es por este motivo, que proponemos esta investigación con el objetivo principal de encontrar un modelo de caracterización de los usuarios (clientes y pacientes) de una oficina de farmacia en base a variables discriminantes y con la ayuda de un algoritmo de segmentación bioinspirado adecuado y contrastado. Identificados los segmentos homogéneos de sus clientes, se pueden desarrollar estrategias personalizadas para atenderlos. Para la caracterización de usuarios, se propone el uso de técnicas estadísticas de clustering basadas en algoritmos metaheurísticos, previa comparación con otros algoritmos, esperando que el resultado sea satisfactorio en la caracterización de los usuarios en bases de datos de grandes dimensiones. Desde el punto de vista de metodológico, se describe el algoritmo de segmentación propuesto y se realizan diferentes ejecuciones de él, con un software desarrollado ex profeso, en diferentes conjuntos de datos para probar sus prestaciones. Además se detalla la encuesta realizada a farmacéuticos de la provincia de Sevilla, como método e instrumento para apoyar la conveniencia de esta investigación. Como principales conclusiones, se obtiene que DECCS, el algoritmo bionspirado propuesto, mejora las prestaciones de los algoritmos clásicos seleccionados, tanto en los problemas utilizados de tamaño medio como en los de gran tamaño. Con respecto a su predecesor ACDE, lo supera en tres de los cuatro problemas de gran tamaño seleccionados. Con lo que se muestra un algoritmo solvente y eficaz para problemas de mayor tamaño. Esta conclusión se ve reforzada por el hecho de que en el caso de los problemas de tamaño medio, ambos tienen comportamientos similares. La aplicación de DECCS a una base de datos del año 2014 completo, correspondiente a una oficina de farmacia, ha resultado un éxito. El algoritmo ha caracterizado dos grupos claros de clientes, según el tipo de producto retirado en la farmacia: medicamento o producto de venta libre (incluyendo medicamentos sin receta "OTC").Universidad Pablo de Olavide. Departamento de Economía, Métodos Cuantitativos e Historia Económic
    corecore