6 research outputs found

    One-class classifiers based on entropic spanning graphs

    Get PDF
    One-class classifiers offer valuable tools to assess the presence of outliers in data. In this paper, we propose a design methodology for one-class classifiers based on entropic spanning graphs. Our approach takes into account the possibility to process also non-numeric data by means of an embedding procedure. The spanning graph is learned on the embedded input data and the outcoming partition of vertices defines the classifier. The final partition is derived by exploiting a criterion based on mutual information minimization. Here, we compute the mutual information by using a convenient formulation provided in terms of the α\alpha-Jensen difference. Once training is completed, in order to associate a confidence level with the classifier decision, a graph-based fuzzy model is constructed. The fuzzification process is based only on topological information of the vertices of the entropic spanning graph. As such, the proposed one-class classifier is suitable also for data characterized by complex geometric structures. We provide experiments on well-known benchmarks containing both feature vectors and labeled graphs. In addition, we apply the method to the protein solubility recognition problem by considering several representations for the input samples. Experimental results demonstrate the effectiveness and versatility of the proposed method with respect to other state-of-the-art approaches.Comment: Extended and revised version of the paper "One-Class Classification Through Mutual Information Minimization" presented at the 2016 IEEE IJCNN, Vancouver, Canad

    Inference over Wireless IoT Links with Importance-Filtered Updates

    Full text link
    We consider a communication cell comprised of Internet-of-Things (IoT) nodes transmitting to a common Access Point (AP). The nodes in the cell are assumed to generate data samples periodically, which are to be transmitted to the AP. The AP hosts a machine learning model, such as a neural network, which is trained on the received data samples to make accurate inferences. We address the following tradeoff: The more often the IoT nodes transmit, the higher the accuracy of the inference made by the AP, but also the higher the energy expenditure at the IoT nodes. We propose a data filtering scheme employed by the IoT nodes, which we refer to as distributed importance filtering in order to filter out redundant data samples already at the IoT nodes. The IoT nodes do not have large on-device machine learning models and the data filtering scheme operates under periodic instructions from the model placed at the AP. The proposed scheme is evaluated using neural networks on a benchmark machine vision dataset, as well as in two practical scenarios: leakage detection in water distribution networks and air-pollution detection in urban areas. The results show that the proposed scheme offers significant benefits in terms of network longevity as it preserves the devices' resources, whilst maintaining high inference accuracy. Our approach reduces the the computational complexity for training the model and obviates the need for data pre-processing, which makes it highly applicable in practical IoT scenarios

    Robust leak localization in water distribution networks using machine learning techniques

    Get PDF
    Aplicat embargament des de la data de lectura fins el 20 de desembre de 2019This PhD thesis presents a methodology to detect, estimate and localize water leaks (with the main focus in the localization problem) in water distribution networks using hydraulic models and machine learning techniques. The actual state of the art is introduced, the theoretical basis of the machine learning techniques applied are explained and the hydraulic model is also detailed. The whole methodology is presented and tested into different water distribution networks and district metered areas based on simulated and real case studies and compared with published methods. The focus of the contributions is to bring more robust methods against the uncertainties that effects the problem of leak detection, by dealing with them using the self-similarity to create features monitored by the change detection technique intersection-of-confidence-interval, and the leak localization where the problem is tackled using machine learning techniques. By using those techniques, it is expected to learn the leak behavior considering their uncertainty to be used in the diagnosis stage after the training phase. One method for the leak detection problem is presented that is able to estimate the leak size and the time that the leak has been produced. This method captures the normal, leak-free, behavior and contrast it with the new measurements in order to evaluate the state of the network. If the behavior is not normal check if it is due to a leak. To have a more robust leak detection method, a specific validation is designed to operate specifically with leaks and in the temporal region where the leak is most apparent. A methodology to extent the current model-based approach to localize water leaks by means of classifiers is proposed where the non-parametric k-nearest neighbors classifier and the parametric multi-class Bayesian classifier are proposed. A new data-driven approach to localize leaks using a multivariate regression technique without the use of hydraulic models is also introduced. This method presents a clear benefit over the model-based technique by removing the need of the hydraulic model despite of the topological information is still required. Also, the information of the expected leaks is not required since information of the expected hydraulic behavior with leak is exploited to find the place where the leak is more suitable. This method has a good performance in practice, but is very sensitive to the number of sensor in the network and their sensor placement. The proposed sensor placement techniques reduce the computational load required to take into account the amount of data needed to model the uncertainty compared with other optimization approaches while are designed to work with the leak localization problem. More precisely, the proposed hybrid feature selection technique for sensor placement is able to work with any method that can be evaluated with confusion matrix and still being specialized for the leak localization task. This last method is good for a few sensors, but lacks of precision when the number of sensors to place is large. To overcome this problem an incremental sensor placement is proposed which is better for a larger number of sensors to place but worse when the number is small.Aquesta tesi presenta una nova metodologia per a localització de fuites en xarxes de distribució d'aigua potable. Primer s'ha revisat l'estat del art actual i les bases teòriques tant de les tècniques de machine learning utilitzades al llarg de la tesi com els mètodes existents de localització de fuites. La metodologia presentada s'ha provat en diferents xarxes d'aigua simulades i reals, comparant el resultats amb altres mètodes publicats. L'objectiu principal de la contribució aportada és el de desenvolupar mètodes més robustos enfront les incerteses que afecten a la localització de fuites. En el cas de la detecció i estimació de la magnitud de la fuita, s'utilitza la tècnica self-similarity per crear els indicadors es monitoritzen amb la tècnica de detecció de canvis ("intersection-of-confidence-intervals"). En el cas de la localització de les fuites, s'han fet servir les tècniques de classificadors i interpoladors provinents del machine learning. A l'utilitzar aquestes tècniques s'espera captar el comportament de la fuita i de la incertesa per aprendre i tenir-ho en compte en la fase de la localització de la fuita. El mètode de la detecció de fallades proposat és capaç d'estimar la magnitud de la fuita i l'instant en que s'ha produït. Aquest mètode captura el comportament normal, sense fuita, i el contrasta amb les noves mesures per avaluar l'estat de la xarxa. En el cas que el comportament no sigui el normal, es procedeix a comprovar si això és degut a una fuita. Per tenir una mètode de detecció més robust, es fa servir una capa de validació especialment dissenyada per treballar específicament amb fuites i en la regió temporal en que la fuita és més evident. Per tal de millorar l'actual metodologia de localització de fuites mitjançant models hidràulics s'ha proposat l'ús de classificadors. Per una banda es proposa el classificador no paramètric k-nearest neighbors i per l'altre banda el classificador Bayesià paramètric per múltiples classes. Finalment, s'ha desenvolupat un nou mètode de localització de fuites basat en models de dades mitjançant la regressió de múltiples paràmetres sense l'ús del model hidràulic de la xarxa. Finalment, s'ha tractat el problema de la col·locació de sensors. El rendiment de la localització de fuites està relacionada amb la col·locació de sensors i és particular per a cada mètode de localització. Amb l'objectiu de maximitzar el rendiment dels mètodes de localització de fuites presentats anteriorment, es presenten i avaluen tècniques de col·locació de sensors específicament dissenyats ja que el problema de combinatòria no es pot manejar intentant cada possible combinació de sensors a part de les xarxes més petites amb pocs sensors per instal·lar. Aquestes tècniques de col·locació de sensors exploten el potencial de les tècniques de selecció de variables per tal de realitzar la tasca desitjada.Esta tesis doctoral presenta una nueva metodología para detectar, estimar el tamaño y localizar fugas de agua (donde el foco principal está puesto en el problema de la localización de fugas) en redes de distribución de agua potable. La tesis presenta una revisión del estado actual y las bases de las técnicas de machine learning que se aplican, así como una explicación del modelo hidráulico de las redes de agua. El conjunto de la metodología se presenta y prueba en diferentes redes de distribución de agua y sectores de consumo con casos de estudio simulados y reales, y se compara con otros métodos ya publicados. La contribución principal es la de desarrollar métodos más robustos frente a la incertidumbre de los datos. En la detección de fugas, la incertidumbre se trata con la técnica del self-similarity para la generación de indicadores que luego son monitoreados per la técnica de detección de cambios conocida como intersection-of-confidece-interval. En la localización de fugas el problema de la incertidumbre se trata con técnicas de machine learning. Al utilizar estas técnicas se espera aprender el comportamiento de la fuga y su incertidumbre asociada para tenerlo en cuenta en la fase de diagnóstico. El método presentado para la detección de fugas tiene la habilidad de estimar la magnitud y el instante en que la fuga se ha producido. Este método captura el comportamiento normal, sin fugas, del sistema y lo contrasta con las nuevas medidas para evaluar el estado actual de la red. En el caso de que el comportamiento no sea el normal, se comprueba si es debido a la presencia de una fuga en el sistema. Para obtener un método de detección más robusto, se considera una capa de validación especialmente diseñada para trabajar específicamente con fugas y durante el periodo temporal donde la fuga es más evidente. Esta técnica se compara con otras ya publicadas proporcionando una detección más fiable, especialmente en el caso de fugas pequeñas, al mismo tiempo que proporciona más información que puede ser usada en la fase de la localización de la fuga permitiendo mejorarla. El principal problema es que el método es más lento que los otros métodos analizados. Con el fin de mejorar la actual metodología de localización de fugas mediante modelos hidráulicos, se propone la utilización de clasificadores. Concretamente, se propone el clasificador no paramétrico k-nearest neighbors y el clasificador Bayesiano paramétrico para múltiples clases. La propuesta de localización de fugas mediante modelos hidráulicos y clasificadores permite gestionar la incertidumbre de los datos mejor para obtener un diagnóstico de la localización de la fuga más preciso. El principal inconveniente recae en el coste computacional, aunque no se realiza en tiempo real, de los datos necesarios por el clasificador para aprender correctamente la dispersión de los datos. Además, el método es muy dependiente de la calidad del modelo hidráulico de la red. En el campo de la localización de fugas, se a propuesto un nuevo método de localización de fugas basado en modelos de datos mediante la regresión de múltiples parámetros sin el uso de modelo hidráulico. Este método presenta un claro beneficio respecto a las técnicas basadas en modelos hidráulicos ya que prescinde de su uso, aunque la información topológica de la red es aún necesaria. Además, la información del comportamiento de la red para cada fuga no es necesario, ya que el conocimiento del efecto hidráulico de una fuga en un determinado punto de la red es utilizado para la localización. Este método ha dado muy buenos resultados en la práctica, aunque es muy sensible al número de sensores y a su colocación en la red. Finalmente, se trata el problema de la colocación de sensores. El desempeño de la localización de fugas está ligado a la colocación de los sensores y es particular para cada método. Con el objetivo de maximizar el desempeño de los métodos de localización de fugas presentados, técnicas de colocación de sensores específicamente diseñados para ellos se han presentado y evaluado. Dado que el problema de combinatoria que presenta no puede ser tratado analizando todas las posibles combinaciones de sensores excepto en las redes más pequeñas con unos pocos sensores para instalar. Estas técnicas de colocación de sensores explotan el potencial de las técnicas de selección de variables para realizar la tarea deseada. Las técnicas de colocación de sensores propuestas reducen la carga computacional, requerida para tener en cuenta todos los datos necesarios para modelar bien la incertidumbre, comparado con otras propuestas de optimización al mismo tiempo que están diseñadas para trabajar en la tarea de la localización de fugas. Más concretamente, la propuesta basada en la técnica híbrida de selección de variables para la colocación de sensores es capaz de trabajar con cualquier técnica de localización de fugas que se pueda evaluar con la matriz de confusión y ser a la vez óptimo. Este método es muy bueno para la colocación de sensores, pero el rendimiento disminuye a medida que el número de sensores a colocar crece. Para evitar este problema, se propone método de colocación de sensores de forma incremental que presenta un mejor rendimiento para un número alto de sensores a colocar, aunque no es tan eficaz con pocos sensores a colocar.Postprint (published version

    Robust leak localization in water distribution networks using machine learning techniques

    Get PDF
    This PhD thesis presents a methodology to detect, estimate and localize water leaks (with the main focus in the localization problem) in water distribution networks using hydraulic models and machine learning techniques. The actual state of the art is introduced, the theoretical basis of the machine learning techniques applied are explained and the hydraulic model is also detailed. The whole methodology is presented and tested into different water distribution networks and district metered areas based on simulated and real case studies and compared with published methods. The focus of the contributions is to bring more robust methods against the uncertainties that effects the problem of leak detection, by dealing with them using the self-similarity to create features monitored by the change detection technique intersection-of-confidence-interval, and the leak localization where the problem is tackled using machine learning techniques. By using those techniques, it is expected to learn the leak behavior considering their uncertainty to be used in the diagnosis stage after the training phase. One method for the leak detection problem is presented that is able to estimate the leak size and the time that the leak has been produced. This method captures the normal, leak-free, behavior and contrast it with the new measurements in order to evaluate the state of the network. If the behavior is not normal check if it is due to a leak. To have a more robust leak detection method, a specific validation is designed to operate specifically with leaks and in the temporal region where the leak is most apparent. A methodology to extent the current model-based approach to localize water leaks by means of classifiers is proposed where the non-parametric k-nearest neighbors classifier and the parametric multi-class Bayesian classifier are proposed. A new data-driven approach to localize leaks using a multivariate regression technique without the use of hydraulic models is also introduced. This method presents a clear benefit over the model-based technique by removing the need of the hydraulic model despite of the topological information is still required. Also, the information of the expected leaks is not required since information of the expected hydraulic behavior with leak is exploited to find the place where the leak is more suitable. This method has a good performance in practice, but is very sensitive to the number of sensor in the network and their sensor placement. The proposed sensor placement techniques reduce the computational load required to take into account the amount of data needed to model the uncertainty compared with other optimization approaches while are designed to work with the leak localization problem. More precisely, the proposed hybrid feature selection technique for sensor placement is able to work with any method that can be evaluated with confusion matrix and still being specialized for the leak localization task. This last method is good for a few sensors, but lacks of precision when the number of sensors to place is large. To overcome this problem an incremental sensor placement is proposed which is better for a larger number of sensors to place but worse when the number is small.Aquesta tesi presenta una nova metodologia per a localització de fuites en xarxes de distribució d'aigua potable. Primer s'ha revisat l'estat del art actual i les bases teòriques tant de les tècniques de machine learning utilitzades al llarg de la tesi com els mètodes existents de localització de fuites. La metodologia presentada s'ha provat en diferents xarxes d'aigua simulades i reals, comparant el resultats amb altres mètodes publicats. L'objectiu principal de la contribució aportada és el de desenvolupar mètodes més robustos enfront les incerteses que afecten a la localització de fuites. En el cas de la detecció i estimació de la magnitud de la fuita, s'utilitza la tècnica self-similarity per crear els indicadors es monitoritzen amb la tècnica de detecció de canvis ("intersection-of-confidence-intervals"). En el cas de la localització de les fuites, s'han fet servir les tècniques de classificadors i interpoladors provinents del machine learning. A l'utilitzar aquestes tècniques s'espera captar el comportament de la fuita i de la incertesa per aprendre i tenir-ho en compte en la fase de la localització de la fuita. El mètode de la detecció de fallades proposat és capaç d'estimar la magnitud de la fuita i l'instant en que s'ha produït. Aquest mètode captura el comportament normal, sense fuita, i el contrasta amb les noves mesures per avaluar l'estat de la xarxa. En el cas que el comportament no sigui el normal, es procedeix a comprovar si això és degut a una fuita. Per tenir una mètode de detecció més robust, es fa servir una capa de validació especialment dissenyada per treballar específicament amb fuites i en la regió temporal en que la fuita és més evident. Per tal de millorar l'actual metodologia de localització de fuites mitjançant models hidràulics s'ha proposat l'ús de classificadors. Per una banda es proposa el classificador no paramètric k-nearest neighbors i per l'altre banda el classificador Bayesià paramètric per múltiples classes. Finalment, s'ha desenvolupat un nou mètode de localització de fuites basat en models de dades mitjançant la regressió de múltiples paràmetres sense l'ús del model hidràulic de la xarxa. Finalment, s'ha tractat el problema de la col·locació de sensors. El rendiment de la localització de fuites està relacionada amb la col·locació de sensors i és particular per a cada mètode de localització. Amb l'objectiu de maximitzar el rendiment dels mètodes de localització de fuites presentats anteriorment, es presenten i avaluen tècniques de col·locació de sensors específicament dissenyats ja que el problema de combinatòria no es pot manejar intentant cada possible combinació de sensors a part de les xarxes més petites amb pocs sensors per instal·lar. Aquestes tècniques de col·locació de sensors exploten el potencial de les tècniques de selecció de variables per tal de realitzar la tasca desitjada.Esta tesis doctoral presenta una nueva metodología para detectar, estimar el tamaño y localizar fugas de agua (donde el foco principal está puesto en el problema de la localización de fugas) en redes de distribución de agua potable. La tesis presenta una revisión del estado actual y las bases de las técnicas de machine learning que se aplican, así como una explicación del modelo hidráulico de las redes de agua. El conjunto de la metodología se presenta y prueba en diferentes redes de distribución de agua y sectores de consumo con casos de estudio simulados y reales, y se compara con otros métodos ya publicados. La contribución principal es la de desarrollar métodos más robustos frente a la incertidumbre de los datos. En la detección de fugas, la incertidumbre se trata con la técnica del self-similarity para la generación de indicadores que luego son monitoreados per la técnica de detección de cambios conocida como intersection-of-confidece-interval. En la localización de fugas el problema de la incertidumbre se trata con técnicas de machine learning. Al utilizar estas técnicas se espera aprender el comportamiento de la fuga y su incertidumbre asociada para tenerlo en cuenta en la fase de diagnóstico. El método presentado para la detección de fugas tiene la habilidad de estimar la magnitud y el instante en que la fuga se ha producido. Este método captura el comportamiento normal, sin fugas, del sistema y lo contrasta con las nuevas medidas para evaluar el estado actual de la red. En el caso de que el comportamiento no sea el normal, se comprueba si es debido a la presencia de una fuga en el sistema. Para obtener un método de detección más robusto, se considera una capa de validación especialmente diseñada para trabajar específicamente con fugas y durante el periodo temporal donde la fuga es más evidente. Esta técnica se compara con otras ya publicadas proporcionando una detección más fiable, especialmente en el caso de fugas pequeñas, al mismo tiempo que proporciona más información que puede ser usada en la fase de la localización de la fuga permitiendo mejorarla. El principal problema es que el método es más lento que los otros métodos analizados. Con el fin de mejorar la actual metodología de localización de fugas mediante modelos hidráulicos, se propone la utilización de clasificadores. Concretamente, se propone el clasificador no paramétrico k-nearest neighbors y el clasificador Bayesiano paramétrico para múltiples clases. La propuesta de localización de fugas mediante modelos hidráulicos y clasificadores permite gestionar la incertidumbre de los datos mejor para obtener un diagnóstico de la localización de la fuga más preciso. El principal inconveniente recae en el coste computacional, aunque no se realiza en tiempo real, de los datos necesarios por el clasificador para aprender correctamente la dispersión de los datos. Además, el método es muy dependiente de la calidad del modelo hidráulico de la red. En el campo de la localización de fugas, se a propuesto un nuevo método de localización de fugas basado en modelos de datos mediante la regresión de múltiples parámetros sin el uso de modelo hidráulico. Este método presenta un claro beneficio respecto a las técnicas basadas en modelos hidráulicos ya que prescinde de su uso, aunque la información topológica de la red es aún necesaria. Además, la información del comportamiento de la red para cada fuga no es necesario, ya que el conocimiento del efecto hidráulico de una fuga en un determinado punto de la red es utilizado para la localización. Este método ha dado muy buenos resultados en la práctica, aunque es muy sensible al número de sensores y a su colocación en la red. Finalmente, se trata el problema de la colocación de sensores. El desempeño de la localización de fugas está ligado a la colocación de los sensores y es particular para cada método. Con el objetivo de maximizar el desempeño de los métodos de localización de fugas presentados, técnicas de colocación de sensores específicamente diseñados para ellos se han presentado y evaluado. Dado que el problema de combinatoria que presenta no puede ser tratado analizando todas las posibles combinaciones de sensores excepto en las redes más pequeñas con unos pocos sensores para instalar. Estas técnicas de colocación de sensores explotan el potencial de las técnicas de selección de variables para realizar la tarea deseada. Las técnicas de colocación de sensores propuestas reducen la carga computacional, requerida para tener en cuenta todos los datos necesarios para modelar bien la incertidumbre, comparado con otras propuestas de optimización al mismo tiempo que están diseñadas para trabajar en la tarea de la localización de fugas. Más concretamente, la propuesta basada en la técnica híbrida de selección de variables para la colocación de sensores es capaz de trabajar con cualquier técnica de localización de fugas que se pueda evaluar con la matriz de confusión y ser a la vez óptimo. Este método es muy bueno para la colocación de sensores, pero el rendimiento disminuye a medida que el número de sensores a colocar crece. Para evitar este problema, se propone método de colocación de sensores de forma incremental que presenta un mejor rendimiento para un número alto de sensores a colocar, aunque no es tan eficaz con pocos sensores a colocar

    Smart Urban Water Networks

    Get PDF
    This book presents the paper form of the Special Issue (SI) on Smart Urban Water Networks. The number and topics of the papers in the SI confirm the growing interest of operators and researchers for the new paradigm of smart networks, as part of the more general smart city. The SI showed that digital information and communication technology (ICT), with the implementation of smart meters and other digital devices, can significantly improve the modelling and the management of urban water networks, contributing to a radical transformation of the traditional paradigm of water utilities. The paper collection in this SI includes different crucial topics such as the reliability, resilience, and performance of water networks, innovative demand management, and the novel challenge of real-time control and operation, along with their implications for cyber-security. The SI collected fourteen papers that provide a wide perspective of solutions, trends, and challenges in the contest of smart urban water networks. Some solutions have already been implemented in pilot sites (i.e., for water network partitioning, cyber-security, and water demand disaggregation and forecasting), while further investigations are required for other methods, e.g., the data-driven approaches for real time control. In all cases, a new deal between academia, industry, and governments must be embraced to start the new era of smart urban water systems

    Exploiting self-similarity for change detection

    No full text
    corecore