5 research outputs found

    [[alternative]]Evolutionary-Based Clustering with Supervision

    Get PDF
    計畫編號:NSC94-2213-E032-023研究期間:200508~200607研究經費:420,000[[abstract]]工程應用上關於監督式學習與非監督學習這兩者在其出發點或執行策略上是有所差異的;以群聚分析為主要應用的監督式學習法則是在已有預設的資訊或知識的情況下,利用演算法去發掘問題的核心所在,而非監督式學習法則卻是在不預設立場的情況下,讓系統從大量的資料中去發現其隱含的有用信息。以影像分割為例,它常被定位在典型非監督式法則的應用範疇,影像中的像素通常視為色彩空間中的獨立物件;當影像資料所處的時域或頻域空間中之資料點具有良好的分隔特性時,此時非監督式的群聚分析演算法在物件分類上便可以有很好的表現;不過若是其資料群聚間發生重疊現象時,非監督式的切割法則很難得到正確的邊界;在這種情形下,若是可以採用監督式的分類方法(supervised classification)將會有效得多,但是監督式的分類方法所面臨最大的困難卻是我們需要大量經過人工方式加標(labeled)的資料才能進行訓練。本計畫中我們將試圖發展以演化式群聚分析演算法為基礎的半監督式學習法則(Semi-supervised learning),它的作法是在傳統非監督式法則的目標函數中併入了了少量的加標訓練資料之成本(cost)評估,以期能夠同時補強二種演算法的一些特定缺點。[[sponsorship]]行政院國家科學委員

    An exploration of methodologies to improve semi-supervised hierarchical clustering with knowledge-based constraints

    Get PDF
    Clustering algorithms with constraints (also known as semi-supervised clustering algorithms) have been introduced to the field of machine learning as a significant variant to the conventional unsupervised clustering learning algorithms. They have been demonstrated to achieve better performance due to integrating prior knowledge during the clustering process, that enables uncovering relevant useful information from the data being clustered. However, the research conducted within the context of developing semi-supervised hierarchical clustering techniques are still an open and active investigation area. Majority of current semi-supervised clustering algorithms are developed as partitional clustering (PC) methods and only few research efforts have been made on developing semi-supervised hierarchical clustering methods. The aim of this research is to enhance hierarchical clustering (HC) algorithms based on prior knowledge, by adopting novel methodologies. [Continues.

    Propuesta para una metodología de sectorización de redes de abastecimiento de agua potable

    Full text link
    [EN] Drinking water is an indispensable resource for all processes involved in life. The problems of water supply networks (WSN) can be summarized in four broad areas: leakage and non-revenue water; physical integrity of the network; water quality and reliability, and quality of the databases associated to water distribution systems. In particular, leakage may become of the order of 50% of water injected in a WSN. Today, networks without any water losses would be considered utopian, given the technical and economic implications that this would imply. However, there have been important advances in the understanding and development of equipment and techniques that allow better comprehension and management of leakages. Among these techniques, it is important to highlight the segmentation, which is considered a strategic option which involves the subdivision of small sub networks by closing valves and installing flow meters. One of the major benefits of its implementation is the increased ease at which any abnormality is detected within the subsector due to the dimensional reduction. In most cases, sectorization processes are implemented with great lack of scientific rigor. On the contrary, sectorization is usually based on trial-and-error procedures. In smaller networks, this type of approach is usually straightforward. The problem is the proper definition of sectors in larger networks, where, given the large amount of information associated with the WSN, the implementation of a process of this nature, without the support of tools, would not be feasible. The main objective of the thesis is to establish a computational procedure for obtaining a layout of sectorization of a WSN. In this layout, the network is split into trunk and distribution network. The process not only uses traditional hydraulic or geographical features of RDAP as criteria, but also takes into consideration the leaks into the network. The process involves the next steps: (1). Define within the WSN the trunk and the lines that form the distribution network. This step is completed based on the diameter of the pipes, setting a minimum diameter range to distinguish between trunk and distribution network; (2). Estimate the number of sectors that should have the distribution network in question, by means of a computer technique of cluster analysis; (3). Define the number of microsectors calculated in the previous step, using spectral clustering; (4). Define the entrance (of water) to the sectors based on energy criteria; (5). Validation of the sectorization obtained (through mathematical modeling). Segregation of the distribution network and the trunk helps to conserve the flexibility of the network in the event that, in the future, the sectoring scheme changes, and also to save costs by installing valves and flow meters of large diameter. This work demonstrates the applicability of Machine Learning to tackle the proposed task. By using hierarchical clustering a number of sectors with the highest degree of homogeneity regarding their characteristics are found. Then spectral clustering is able to improve the results of hierarchical clustering, finding a partition while maintaining consistency of the characteristics of each of the sectors, and minimizing the number of valves to be used to make the partition. The use of indicators of energy dissipation through the network enables to find water entrances to each sector so as to minimize the energy dissipated by the network, and ensures the highest possible pressure at the consumers’ nodes. Following this proposal, It was managed to get an example network sectioned (100 km network divided into three sectors) that maintains the pressure within the ranges established as appropriated, and decreases the level of leakage just by its implementation[ES] El agua potable es un recurso indispensable para todo proceso relacionado con la vida. Los problemas de las Redes de Abastecimiento de Agua Potable (RDAP) pueden resumirse en cuatro aspectos generales: fugas y agua no contabilizada; integridad física de la red; calidad de agua a distribuir; fiabilidad y calidad de la base de datos de los sistemas de distribución de agua. En particular, las fugas pueden llegar a ser del orden del 50% del agua que es inyectada a una RDAP. Hoy por hoy, redes sin ningún tipo de pérdida se considerarían una utopía, tanto por las implicaciones técnicas como económicas que esto representaría; no obstante, ha habido un gran avance en el conocimiento y desarrollo de equipos y técnicas que permiten hacer un seguimiento más exhaustivo de las fugas en ellas. Dentro de estas técnicas se destaca la sectorización, que es considerada como una opción estratégica que implica la subdivisión de las redes en pequeñas subredes mediante el cierre de válvulas e instalación de caudalímetros. Como uno de los grandes beneficios de su implementación se destaca el aumento de la facilidad con la que se detecta cualquier anormalidad dentro de la subred debido a la reducción de su tamaño. En la mayor parte de los casos en los que se ejecuta un proyecto de sectorización, no se suele seguir el proceso con un rigor científico-técnico y por el contrario, suele basarse en aproximaciones de prueba y error. En redes de menor tamaño, este tipo de aproximación, no necesariamente tiene que representar un gran problema. El problema es la definición apropiada de sectores en redes de mayor tamaño, en donde, dada la gran cantidad de información asociada a las mismas, sería inviable la ejecución de un proceso de esta naturaleza sin el apoyo de herramientas informáticas. El objetivo principal de la tesis es establecer un procedimiento informático para la obtención de un plano de red sectorizada, que divida una RDAP en una red de alta y una red de distribución y que, además, no sólo emplee como criterios las características hidráulicas tradicionales o geográficos de las RDAP, sino que también tenga en cuenta las fugas en la red. Para esta tarea, se sigue un proceso que implica: (1). Definir dentro de la RDAP de estudio las líneas que constituyen la red primaria y las líneas que constituyen la red de distribución. Este paso se efectuará en función del diámetro de las conducciones, estableciendo un rango de diámetro mínimo para distinguir entre red de alta y red de distribución; (2). Estimar el número de sectores que debe tener la red de distribución en cuestión, mediante la aplicación de una técnica informática de análisis de clústeres; (3). Establecer la distribución del número de microsectores calculados en el paso anterior, mediante clústering espectral; (4). Definir las entradas a los sectores con base en criterios energéticos; (5). Validar el esquema de sectorización resultante mediante modelización matemática. Con la segregación de la red de distribución y la red de alta, se conserva la flexibilidad de la red en el caso de que en el futuro se requiera variar el esquema de sectorización seleccionado y también se ahorran costes por la instalación de válvulas y caudalímetros de gran diámetro. En este trabajo se demuestra la aplicabilidad de Aprendizaje Automático Computacional (ML, machine learning) para abordar la tarea propuesta. Mediante clústering jerárquico, se logró estimar un número de sectores en los que se conserve el mejor grado de homogeneidad posible de las características de los sectores, lo que luego facilita que la red presente un buen rendimiento energético. Mediante el proceso de clústering espectral se logran mejorar los resultados de clústering jerárquico, encontrando una partición que además de mantener la homogeneidad de las características de cada uno de los sectores, minimice el número de válvulas que se deben emplear para hacer la partición. El empleo de indicadores de disipación de energía a través de la red, ha permitido encontrar las entradas a cada sector de manera tal que se minimice la energía disipada por la red y se garantice la mayor presión posible en los nodos de consumo. Con esta propuesta, se logró obtener un plano de red sectorizada (100 km de red, división en tres sectores) que mantiene la presión dentro de los rangos establecidos como apropiados y que a su vez conduce a una disminución del nivel de fugas tan sólo por implementarla.Campbell Gonzalez, E. (2013). Propuesta para una metodología de sectorización de redes de abastecimiento de agua potable. http://hdl.handle.net/10251/39139Archivo delegad

    Sectorización de redes de abastecimiento de agua potable basada en detección de comunidades en redes sociales y optimización heurística

    Full text link
    The partition of Water Supply Networks (WSNs) into sectors can be considered as a management strategy that entails its subdivision into homogeneous subgroups. This subdivision aims to enhance the management in each sub-area (sector) carried out by permanently monitoring the inlet flows of each sector This thesis presents a series of innovative sectorization methodologies where the sectors are previously defined by means of social networks community detection algorithms. In a second step, the arrangement boundary valves/sector entrance is optimized based upon optimization heuristic techniques. Such techniques include the benefits of sectorization in terms of both, leakage reduction, as a result of reducing pressure, and increasing the capacity to detect new leakage events. To tackle the later, the Monte Carlo technique is used to simulate the occurrence of new leakage events. WSNs subdivision strategies, must take into account their network topology. In networks dependent on a main conduction network, also called trunk network, any sectorization strategy should avoid closure of its pipes in order to preserve the reliability of the system. The herein proposed trunk network identification method, is based on the concept of Shortest Path from the graph theory, in combination with an analysis of the flows (and their directions) circulating through the network in the pick-demand scenario. As a result, the pipes are graded, and the range of pipes belonging to the trunk network can be selected. Once the trunk network is identified, it is isolated from the distribution network and sectors are defined on the later, based on three social network based community detection algorithms, namely: Hierarchical Clustering, Multilevel Detection Algorithm or Louvaine Method and Random Walk community detection. After defining the area corresponding to each sector, the arrangement entrance / boundary valves must be established. To this end, heuristic-based optimization algorithms (Genetic Algorithms, Particle Swarm Optimization and Agent Swarm Optimization) are implemented. The first procedure not only takes into account the benefit of sectorization in terms of reduction of flows associated with background leakage as a result of reducing pressure, but also considers other effects of great relevance. This leads to a more realistic cost-benefit analysis than the one that could be carried out if only the reduction of background leakage flows was considered. In the second method, multilevel optimization is implemented to optimize the arrangement of boundary valves / sector entrance, in the first level, and to determine the set point of pressure reducing valves located at the entrance of each sector, in the second level. In the third optimization method, only the boundary valves/sector entrance arrangement is optimized based on an economic analysis that does not take into account the effect on the occurrence of new leakages. For the application of the proposed methodologies, it is mandatory to count on an appropriately calibrated hydraulic model. Thus, a WSN calibration method which considers emitter coefficients at the nodes was developed. For exemplification purposes, the proposed methodologies are implemented on a section of the WSN of Managua city, capital of Nicaragua. As a result of the implementation, a net profit of 104,764 $ (American dollars)/year is reported.La sectorización de las Redes de Abastecimiento de Agua Potable (RDAPs) se puede considerar como una estrategia de gestión que implica su subdivisión en subgrupos homogéneos a fin poder gestionar de mejor manera cada sub-área (sector) mediante el monitoreo permanente de los caudales que ingresan a cada sector. En esta tesis se plantea una serie de metodologías de sectorización innovadoras en que primero se definen los sectores basados en algoritmos de detección de comunidades en grafos de redes sociales. En un segundo paso, se optimiza el conjunto de entradas y válvulas de cierre (CEVC) de cada sector utilizando técnicas heurísticas de optimización. En dicha optimización se incluyen los beneficios de la sectorización en términos de reducción de fugas producto de la reducción de presión y de la capacidad aumentada para detectar nuevos eventos de fugas. Para el abordaje del segundo aspecto se hace uso de la técnica de Monte Carlo para representar eventos de fugas en cada sector basados en una distribución de probabilidades dada. Las estrategias empleadas para subdividir RDAPs deben tener en cuenta la topología de las mismas. En redes dependientes de una red de conducción principal, cualquier estrategia de sectorización que se plantee deberá evitar cierres en la misma, a fin de preservar la fiabilidad del sistema. Es por esta razón que dentro de las metodologías que se plantean en este trabajo, se lleva a cabo un proceso de identificación y segregación de la red de conducción principal. El método de identificación de la red troncal propuesto en este trabajo se basa en el concepto de Caminos más Cortos, propio de la teoría de grafos, en combinación con un análisis de los caudales (y direcciones de los mismos) que circulan por la red en el escenario de mayor demanda. Como resultado, se obtiene un ranking de tuberías, a partir del cual se puede seleccionar el alcance de la red de conducción principal. Una vez identificada la red troncal, la misma se aísla de la red distribución y, sobre esta última, se definen los sectores utilizando tres algoritmos de detección de comunidades en redes sociales: Clústering Jerárquico, Algoritmo de Detección Multinivel y Detección de Comunidades a través de Caminos Aleatorios. Tras definir el área que corresponde a cada sector, se debe establecer el conjunto de válvulas cerradas y el punto de abastecimiento del sector. Para tal fin, se implementan procedimientos de optimización basados en los algoritmos de optimización heurística: Algoritmos Genéticos (Genetic Algorithms), Optimización de Enjambres de Partículas (Particle Swarm Optimization) y Optimización de Enjambres de Agentes (Agent Swarm Optimization). En el primer procedimiento, no sólo se toma en cuenta el beneficio de la sectorización en términos de reducción de caudales asociados a fugas de fondo, como consecuencia de reducir la presión, sino que también se tienen en cuenta otros efectos de gran relevancia. Esto permite que el análisis coste/beneficio de la sectorización sea más realista que el que se podría realizar si sólo se tuviera en cuenta la reducción de caudales de fugas de fondo. En el segundo método se emplea optimización multinivel para, además de optimizar el conjunto de válvulas cerradas/entrada de sectores, determinar el punto de ajuste de válvulas reductoras de presión en la entrada de los sectores. En el tercer método de optimización sólo se optimiza el CEVC mediante un análisis económico que no tiene en cuenta el efecto sobre la aparición de nuevas fugas. Para la aplicación de las metodologías propuestas es importante contar con un modelo hidráulico correctamente calibrado. Para ello, se desarrolló un método de calibración de RDAPs que tiene en cuenta los coeficientes de emisor en los nodos. Las metodologías propuestas se implementan sobre una sección de la RDAP de la ciudad de Managua, Nicaragua. Como resultado de la implemeLa sectorització de les Xarxes d'Abastament d'Aigua Potable (XAAPs) es pot considerar com una estratègia de gestió que implica la seva subdivisió en subgrups homogenis. Aquesta subdivisió té com a finalitat poder gestionar de millor manera en cada subàrea (sector) aspectes com ara: fuites, reparacions, aspectes de qualitat, entre d'altres, mitjançant el monitoratge permanent dels cabals que ingressen a cada sector. En aquesta tesi es planteja una sèrie de metodologies de sectorització innovadores en que primer es defineixen els sectors basats en algoritmes de detecció de comunitats en grafs de xarxes socials. En un segon pas, s'optimitza el conjunt d'entrades i vàlvules de tancament (CEVT) de cada sector utilitzant tècniques heurístiques d'optimització. En aquesta optimització s'inclouen els beneficis de la sectorització en termes de reducció de fuites producte de la reducció de pressió i de la capacitat augmentada per detectar nous esdeveniments de fuites. Per l'abordatge del segon aspecte es fa ús de la tècnica de Monte Carlo per representar esdeveniments de fuites en cada sector basats en una distribució de probabilitats donada. Les estratègies emprades per subdividir XAAPs han de tenir en compte la topologia de les mateixes. En xarxa depenent d'una xarxa de conducció principal o xarxa troncal (d'aquest punt en endavant els termes són intercanviables), qualsevol estratègia de sectorització que es plantegi d'evitar tancaments en la mateixa, a fi de preservar la fiabilitat del sistema. El mètode d'identificació de la xarxa troncal proposat en aquest treball es basa en el concepte de camins més curts, propi de la teoria de grafs, en combinació amb una anàlisi dels cabals (i direccions dels mateixos) que circulen per la xarxa en l'escenari de major demanda. Com a resultat, s'obté un rànquing de canonades, a partir del qual es pot seleccionar l'abast de la xarxa de conducció principal. Una vegada identificada la xarxa troncal, la mateixa s'aïlla de la xarxa de distribució i, a aquesta última, es defineixen els sectors utilitzant tres algoritmes de detecció de comunitats en xarxes socials: Clustering jeràrquic, Algorisme de Detecció Multinivell o Mètode Louvain i Detecció de Comunitats a través de Camins Aleatoris. Després de definir l'àrea que correspon a cada sector, s'ha d'establir el conjunt de vàlvules tancades i el punt d'abastament del sector. Per a tal fi, s'implementen procediments d'optimització basats en els algoritmes d'optimització heurística: Algorismes Genètics (Genetic Algorithms), Optimització de Eixams de Partícules (Particle Swarm Optimization) i Optimització de Eixams d'Agents (Agent Swarm Optimization). En el primer procediment, no només es té en compte el benefici de la sectorització en termes de reducció de cabals associats a fuites de fons, com a conseqüència de reduir la pressió, sinó que també es tenen en compte altres efectes de gran rellevància. Això permet que l'anàlisi cost / benefici de la sectorització sigui més realista que el que es podria fer si només es tingués en compte la reducció de cabals de fuites de fons. En el segon mètode s'empra optimització multinivell per, a més d'optimitzar el conjunt de vàlvules tancades / entrada de sectors, determinar el punt d'ajust de vàlvules reductores de pressió a l'entrada dels sectors. En el tercer mètode d'optimització només s'optimitza el CEVT mitjançant una anàlisi econòmica que no té en compte l'efecte sobre l'aparició de noves fuites. Per a l'aplicació de les metodologies proposades és important comptar amb un model hidràulic correctament calibrat. Per a això, es va desenvolupar un mètode de calibratge de XAAPs que té en compte els coeficients d'emissor en els nodes. Per a fins d'exemplificació, les metodologies proposades s'implementen sobre una secció de la XAAP de la ciutat de Managua, Nicaragua. Com a resultat de la implementació es reportaCampbell Gonzalez, E. (2017). Sectorización de redes de abastecimiento de agua potable basada en detección de comunidades en redes sociales y optimización heurística [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/86206TESISPremios Extraordinarios de tesis doctorale

    Agrupamento hierárquico semissupervisionado ativo baseado em confiança e sua aplicação para extração de hierarquias de tópicos a partir de coleções de documentos

    No full text
    Topic hierarchies are efficient ways of organizing document collections. These structures help users to manage the knowledge contained in textual data. These hierarchies are usually obtained through unsupervised hierarchical clustering algorithms. By not considering the context of the user in the formation of the hierarchical groups, unsupervised topic hierarchies may not attend the user\'s expectations in some cases. One possible solution for this problem is to employ semi-supervised clustering algorithms. These algorithms incorporate the user\'s knowledge through the usage of constraints to the clustering process. However, in the context of semi-supervised hierarchical clustering, the works in the literature do not efficient explore the selection of cases (instances or cluster) to add constraints, neither the interaction of the user with the clustering process. In this sense, in this work we introduce two semi-supervised hierarchical clustering algorithms: HCAC (Hierarchical Confidence-based Active Clustering) and HCAC-LC (Hierarchical Confidence-based Active Clustering with Limited Constraints). These algorithms employ an active learning approach based in the confidence of cluster merges. When a low confidence merge is detected, the user is invited to decide, from a pool of candidate pairs of clusters, the best cluster merge in that point. In this work, we employ HCAC and HCAC-LC in the extraction of topic hierarchies through the SMITH framework, which is also proposed in this thesis. This framework provides a series of well defined activities that allow the user\'s interaction in the generation of topic hierarchies. The active learning approach used in the HCAC-based algorithms, the kind of queries employed in these algorithms, as well as the SMITH framework for the generation of semi-supervised topic hierarchies are innovations to the state of the art proposed in this thesis. Our experimental results indicate that HCAC and HCAC-LC outperform other semi-supervised hierarchical clustering algorithms in diverse scenarios. The results also indicate that semi-supervised topic hierarchies obtained through the SMITH framework are more intuitive and easier to navigate than unsupervised topic hierarchiesHierarquias de tópicos são formas eficientes de organização de coleções de documentos, auxiliando usuários a gerir o conhecimento materializado nessas publicações textuais. Tais hierarquias são usualmente construídas por meio de algoritmos de agrupamento hierárquico não supervisionado. Entretanto, por não considerarem o contexto do usuário na formação dos grupos, hierarquias de tópicos não supervisionadas nem sempre conseguem atender as suas expectativas. Uma solução para este problema e o emprego de algoritmos de agrupamento semissupervisionado, os quais incorporam o conhecimento de domínio do usuário por meio de restrições. Entretanto, para o contexto de agrupamento hierárquico semissupervisionado, não são eficientemente explorados na literatura métodos de seleção de casos (instâncias ou grupos) para receber restrições, bem como não há formas eficientes de interação do usuário com o processo de agrupamento hierárquico. Dessa maneira, neste trabalho, dois algoritmos de agrupamento hierárquico semissupervisionado são propostos: HCAC (Hierarchical Confidence-based Active Clustering) e HCAC-LC (Hierarchical Confidence-based Active Clustering with Limited Constraints). Estes algoritmos empregam uma abordagem de aprendizado ativo baseado na confiança de uma junção de clusters. Quando uma junção de baixa confiança e detectada, o usuário e convidado a decidir, em um conjunto de pares de grupos candidatos, a melhor junção naquele ponto. Estes algoritmos são aqui utilizados na extração de hierarquias de tópicos por meio do framework SMITH, também proposto nesse trabalho. Este framework fornece uma série de atividades bem definidas que possibilitam a interação do usuário para a obtenção de hierarquias de tópicos. A abordagem de aprendizado ativo utilizado nos algoritmos HCAC e HCAC-LC, o tipo de restrição utilizada nestes algoritmos, bem como o framework SMITH para obtenção de hierarquias de tópicos semissupervisionadas são inovações ao estado da arte propostos neste trabalho. Os resultados obtidos indicam que os algoritmos HCAC e HCAC-LC superam o desempenho de outros algoritmos hierárquicos semissupervisionados em diversos cenários. Os resultados também indicam que hierarquias de tópico semissupervisionadas obtidas por meio do framework SMITH são mais intuitivas e fáceis de navegar do que aquelas não supervisionada
    corecore