3 research outputs found
Recommended from our members
A hybrid methodology for data clustering
This thesis introduces and evaluates a new hybrid method for the searching for groups in data - a process referred to as cluster analysis. The Agglomerative - Partitional Clustering methodology (APC) proposed in this work is a novel solution to the clustering problem intended for use with large, noisy data sets and capable of recovering clusters of arbitrary shape.
Large sample size, noise and nonhyperellipsoidal cluster shapes can create difficulties for many clustering algorithms. Many commonly used clustering techniques are too inefficient to handle large data sets found in many data analysis problems or are limited by the fact that they implicitly or explicitly define clusters as being hyperellipsoidal (i.e. “globular” in shape) and can therefore fail to recover other types of cluster structure. Moreover, the presence of noise can also make detection of cluster structures problematic, particularly for clustering techniques that are explicitly designed to handle nonhyperellipsoidal cluster structures.
APC is able to circumvent these difficulties by hybridising a number of diverse approaches to clustering. Large data sets are dealt with by hybridising fast pattern partitioning techniques with hierarchical and density search methods. Arbitrary cluster shapes are handled by a unique linked line segment representation of cluster shape. In short, rather than representing clusters with their centroids, the clusters are represented via a piecewise linear approximation of the cluster structure. This enables APC to represent any cluster shape that is piecewise linearly approximatable.
The purpose of this thesis, therefore, is to introduce APC and to evaluate the ability of APC to recover cluster structure under the conditions described above. First, it is argued that there is a dearth of clustering techniques that can process large, noisy data sets where there exists arbitrarily shaped clusters. Next, the APC approach to clustering is described in detail. Here it is discussed how APC is able to handle voluminous and noisy data without being constrained to any particular cluster shapes. Moreover, as APC represents a hybridisation of clustering strategies and techniques, different ways of implementing APC are also evaluated.
The remainder of this thesis is concerned with the evaluation of APC. First, APC is empirically compared to other clustering methods via Monte Carlo simulation on a number of complex data sets. A wide variety of experimental conditions examining cluster shape, dispersion, noise and dimensionality are covered. The use of APC as a data reduction method is also examined. This final experiment also highlights the utility of the linked line segment representation of cluster shape proposed in this thesis.
Finally, the concluding chapter summarises the results and limitations of this thesis and discusses some future directions this research could take
Segmentación de usuarios en la oficina de farmacia mediante algoritmos bioinspirados
Programa de Doctorado en Estadística e Investigación OperativaLa situación de las oficinas de farmacia, desde el punto de vista del negocio, está pasando por uno de sus momentos más complejos. El entorno económico y las reformas llevadas a cabo están incidiendo en su cuenta de resultados y, de manera directa, en la dispensación de medicamentos financiados por el Sistema Nacional de Salud. Prueba de esta situación es la tendencia decreciente del gasto sanitario público en el período 2008-2012 (último periodo disponible como estadística oficial cuya publicación se denomina "Estadística de Gasto Sanitario Público" del Ministerio de Sanidad, Servicios Sociales e Igualdad). En este periodo, el gasto sanitario público ha decrecido en promedio a razón de un 1,05% anual, mientras que el gasto por habitante también ha decrecido a razón de un 1,64%. Las consecuencias sobre las oficinas de farmacia, entre otras, han sido: el empeoramiento de la situación financiera, la disminución de los márgenes comerciales y el importe del ticket medio. Para añadir algo más de intranquilidad al mercado farmacéutico, el propio modelo de farmacia español no ha estado exento de turbulencias en los últimos años. La primera década del siglo XXI ha supuesto para el sector farmacéutico de los países mediterráneos una época de intranquilidad pues su modelo de establecimiento farmacéutico ha sido cuestionado severamente por las autoridades de la Unión Europea. Por todo ello, sin dejar de lado su rol como actor promotor de la salud dentro del sistema sanitario, entendemos que su negocio debe ser próspero para que la prestación de servicios (dispensación, atención farmacéutica, formación, información, asesoramiento, etc.) se desarrollen de la forma más eficaz y eficiente posible. Analizada la situación actual, hemos observado que es inexistente la utilización de técnicas y algoritmos de segmentación de usuarios e incipiente la distinción entre clientes y pacientes en las oficinas de farmacia. Es por este motivo, que proponemos esta investigación con el objetivo principal de encontrar un modelo de caracterización de los usuarios (clientes y pacientes) de una oficina de farmacia en base a variables discriminantes y con la ayuda de un algoritmo de segmentación bioinspirado adecuado y contrastado. Identificados los segmentos homogéneos de sus clientes, se pueden desarrollar estrategias personalizadas para atenderlos. Para la caracterización de usuarios, se propone el uso de técnicas estadísticas de clustering basadas en algoritmos metaheurísticos, previa comparación con otros algoritmos, esperando que el resultado sea satisfactorio en la caracterización de los usuarios en bases de datos de grandes dimensiones. Desde el punto de vista de metodológico, se describe el algoritmo de segmentación propuesto y se realizan diferentes ejecuciones de él, con un software desarrollado ex profeso, en diferentes conjuntos de datos para probar sus prestaciones. Además se detalla la encuesta realizada a farmacéuticos de la provincia de Sevilla, como método e instrumento para apoyar la conveniencia de esta investigación. Como principales conclusiones, se obtiene que DECCS, el algoritmo bionspirado propuesto, mejora las prestaciones de los algoritmos clásicos seleccionados, tanto en los problemas utilizados de tamaño medio como en los de gran tamaño. Con respecto a su predecesor ACDE, lo supera en tres de los cuatro problemas de gran tamaño seleccionados. Con lo que se muestra un algoritmo solvente y eficaz para problemas de mayor tamaño. Esta conclusión se ve reforzada por el hecho de que en el caso de los problemas de tamaño medio, ambos tienen comportamientos similares. La aplicación de DECCS a una base de datos del año 2014 completo, correspondiente a una oficina de farmacia, ha resultado un éxito. El algoritmo ha caracterizado dos grupos claros de clientes, según el tipo de producto retirado en la farmacia: medicamento o producto de venta libre (incluyendo medicamentos sin receta "OTC").Universidad Pablo de Olavide. Departamento de Economía, Métodos Cuantitativos e Historia Económic