thesis

Previsão em tempo real da qualidade dos efluentes de uma ETAR

Abstract

Dissertação de mestrado em Engenharia InformáticaUma análise do desenvolvimento da sociedade, especialmente nas últimas décadas, permite verificar que é cada vez maior o número de informações geradas em todos os tipos de organizações. Esta quantidade de informação resulta da procura incessante pelo conhecimento. O surgimento das técnicas de Data Mining abriram novos horizontes nessa procura pelo conhecimento e permitem tornar uma organização mais competitiva e assim prosperar. As técnicas de Data Mining permitem inúmeras atividades, desde a obtenção desse conhecimento, intrínseco e dificilmente obtido apenas com a observação dos dados, como também na monitorização e previsão de diversas situações nos processos envolvidos nas organizações. No contexto das ETAR e no aperfeiçoamento do seu processo de tratamento, a utilização de técnicas de Data Mining revela-se uma atividade com bastante interesse, com diversos estudos encontrados. Atualmente uma das técnicas de Data Mining que mais tem chamado a atenção dos especialistas da área, são as técnicas de Support Vector Machines, pela sua generalização e pelos resultados obtidos. No contexto das ETAR são diariamente registados novos valores provenientes das diversas leituras realizadas por sensores de medição dos parâmetros físico-químicos, biológicos e microbiológicos das águas residuais. Estes sensores encontram-se situados ao longo das várias etapas do processo de tratamento. Um dos parâmetros analisados e alvo de previsão neste projeto baseia-se na Carência Bioquímica de Oxigénio, bastante importante para o processo de remoção de Sólidos Suspensos em ambientes de tratamento aeróbio e controlo do pH. Os constituintes dos efluentes que dão entrada diariamente nas ETAR possuem uma grande variabilidade em concentração e género. O surgimento diário de novos dados com uma grande variabilidade traz novas tendências e padrões que relacionam os diversos parâmetros das águas residuais. Uma desvantagem das técnicas de SVM é o tempo de aprendizagem dos modelos de previsão quando o conjunto de dados possui um volume extremamente grande, e nomeadamente, quando se torna necessário atualizar um modelo para a assimilação de novas caraterísticas dos dados. Para resolver esse problema, vários estudos têm-se focado numa atualização incremental dos modelos de previsão o que permite evitar o reprocessamento da aprendizagem de um novo modelo. Esta técnica permite reutilizar os conhecimentos adquiridos em modelos criados anteriormente. Neste projeto, procura-se demonstrar que os modelos de previsão criados podem trazer diversas melhorias para todo o funcionamento de uma ETAR, e principalmente no seu processo de tratamento, na sua monitorização e avaliação, importantes para a conservação do meio ambiente e da saúde pública. As ferramentas utilizadas para as várias tarefas de Data Mining foram o RapidMiner, o LIBLINEAR, e o TinySVM. Para tal, e seguindo a metodologia adotada, o CRISP-DM, a análise e a preparação dos dados foram fundamentais para a obtenção de resultados previsionais com alto índice de assertividade. Foram ainda utilizados métodos de avaliação para avaliar e comparar os modelos de previsão produzidos.An analysis of the development of society, especially in recent decades, shows that an increasing number of information is generated in all types of organizations. This amount of information is the result of the constant search for knowledge. The emergence of Data Mining techniques have opened new horizons in this quest for knowledge and the best method of making a more competitive organization and thrive. The Data Mining techniques allows numerous activities, from obtaining such knowledge, intrinsic and hardly obtained only with the observation of data, such as monitoring and forecasting various situations in the processes involved in organizations. In the context of the WWTP and of improvement of the treatment process, the use of Data Mining techniques proves to be an activity with great interest. Currently, one of Data Mining techniques that has most attracted the attention of specialists in the area are the Support Vector Machines techniques, by its capacity of generalization and by the obtained results in works done in the domain. In a typical environment of a WWTP are daily recorded new values from readings made by measuring sensors of the physical, chemical, biological, and microbiological parameters of the wastewater. These sensors are located throughout the various stages of the water treatment process. One of the analyzed parameters and target of prediction tasks of this project is based on the biochemical oxygen demand, fairly important to the process of removing suspended solids in the aerobic treatment and control of pH. The constituents of effluents that arrive daily in a WWTP have a large variability in concentration and gender. The daily emergence of new data with large variability brings new trends and patterns that relate the various parameters of wastewater. In this project, were sought to show that the forecast models created can bring many improvements to the overall operation of a wastewater treatment plant and especially for the treatment process and monitoring and evaluation important for the conservation of the environment and public health. The tools used for the various tasks of Data Mining that are performed were the RapidMiner, LIBLINEAR, and TinySVM. To that end, and following the methodology adopted, the CRISP-DM, the analysis and data preparation processes were essential for obtaining results of forecast with high assertiveness. In this project, were also used assessment methods to evaluate and compare the predictive produced models

    Similar works