    Towards Effective Detection of Botnet Attacks using BoT-IoT Dataset

    In the world of cybersecurity, intrusion detection systems (IDS) have leveraged the power of artificial intelligence for the efficient detection of attacks. This is done by applying supervised machine learning (ML) techniques on labeled datasets. A growing body of literature has been devoted to the use of BoT-IoT dataset for IDS based ML frameworks. A few number of related works have recognized the need for a balanced dataset and applied techniques to alleviate the issue of imbalance. However, a significant amount of related research works failed to treat the imbalance in the BoT-IoT dataset. A lack of unanimity was observed in the literature towards the definition of taxonomy for balancing techniques. The study presented here seeks to explore the degree to which the imbalance of the dataset has been treated and to determine the taxonomy of techniques used. In this thesis, a comparison analysis is performed by using a small subset of an entire dataset to determine the threshold sample limit at which the model achieves the highest accuracy. In addition to this analysis, a study was conducted to determine the extent to which each feature of the dataset has an impact on the threshold performance. The study is implemented on the BoT-IoT dataset using three supervised ML classifiers: K-nearest Neighbor, Random Forest, and Logistic Regression. The four principal findings of this thesis are: existing taxonomies are not understood and imbalance of the dataset is not treated; high performance across all metrics is achieved on a highly imbalanced dataset; model is able to achieve the threshold performance using a small subset of samples; certain features had varying impact on the threshold value using different techniques

    Realistic adversarial machine learning to improve network intrusion detection

    Modern organizations can significantly benefit from the use of Artificial Intelligence (AI), and more specifically Machine Learning (ML), to tackle the growing number and increasing sophistication of cyber-attacks targeting their business processes. However, there are several technological and ethical challenges that undermine the trustworthiness of AI. One of the main challenges is the lack of robustness, which is an essential property to ensure that ML is used in a secure way. Improving robustness is no easy task because ML is inherently susceptible to adversarial examples: data samples with subtle perturbations that cause unexpected behaviors in ML models. ML engineers and security practitioners still lack the knowledge and tools to prevent such disruptions, so adversarial examples pose a major threat to ML and to the intelligent Network Intrusion Detection (NID) systems that rely on it. This thesis presents a methodology for a trustworthy adversarial robustness analysis of multiple ML models, and an intelligent method for the generation of realistic adversarial examples in complex tabular data domains like the NID domain: Adaptative Perturbation Pattern Method (A2PM). It is demonstrated that a successful adversarial attack is not guaranteed to be a successful cyber-attack, and that adversarial data perturbations can only be realistic if they are simultaneously valid and coherent, complying with the domain constraints of a real communication network and the class-specific constraints of a certain cyber-attack class. A2PM can be used for adversarial attacks, to iteratively cause misclassifications, and adversarial training, to perform data augmentation with slightly perturbed data samples. Two case studies were conducted to evaluate its suitability for the NID domain. The first verified that the generated perturbations preserved both validity and coherence in Enterprise and Internet-of Things (IoT) network scenarios, achieving realism. The second verified that adversarial training with simple perturbations enables the models to retain a good generalization to regular IoT network traffic flows, in addition to being more robust to adversarial examples. The key takeaway of this thesis is: ML models can be incredibly valuable to improve a cybersecurity system, but their own vulnerabilities must not be disregarded. It is essential to continue the research efforts to improve the security and trustworthiness of ML and of the intelligent systems that rely on it.Organizações modernas podem beneficiar significativamente do uso de Inteligência Artificial (AI), e mais especificamente Aprendizagem Automática (ML), para enfrentar a crescente quantidade e sofisticação de ciberataques direcionados aos seus processos de negócio. No entanto, há vários desafios tecnológicos e éticos que comprometem a confiabilidade da AI. Um dos maiores desafios é a falta de robustez, que é uma propriedade essencial para garantir que se usa ML de forma segura. Melhorar a robustez não é uma tarefa fácil porque ML é inerentemente suscetível a exemplos adversos: amostras de dados com perturbações subtis que causam comportamentos inesperados em modelos ML. Engenheiros de ML e profissionais de segurança ainda não têm o conhecimento nem asferramentas necessárias para prevenir tais disrupções, por isso os exemplos adversos representam uma grande ameaça a ML e aos sistemas de Deteção de Intrusões de Rede (NID) que dependem de ML. Esta tese apresenta uma metodologia para uma análise da robustez de múltiplos modelos ML, e um método inteligente para a geração de exemplos adversos realistas em domínios de dados tabulares complexos como o domínio NID: Método de Perturbação com Padrões Adaptativos (A2PM). É demonstrado que um ataque adverso bem-sucedido não é garantidamente um ciberataque bem-sucedido, e que as perturbações adversas só são realistas se forem simultaneamente válidas e coerentes, cumprindo as restrições de domínio de uma rede de computadores real e as restrições específicas de uma certa classe de ciberataque. A2PM pode ser usado para ataques adversos, para iterativamente causar erros de classificação, e para treino adverso, para realizar aumento de dados com amostras ligeiramente perturbadas. Foram efetuados dois casos de estudo para avaliar a sua adequação ao domínio NID. O primeiro verificou que as perturbações preservaram tanto a validade como a coerência em cenários de redes Empresariais e Internet-das-Coisas (IoT), alcançando o realismo. O segundo verificou que o treino adverso com perturbações simples permitiu aos modelos reter uma boa generalização a fluxos de tráfego de rede IoT, para além de serem mais robustos contra exemplos adversos. A principal conclusão desta tese é: os modelos ML podem ser incrivelmente valiosos para melhorar um sistema de cibersegurança, mas as suas próprias vulnerabilidades não devem ser negligenciadas. É essencial continuar os esforços de investigação para melhorar a segurança e a confiabilidade de ML e dos sistemas inteligentes que dependem de ML

    Solução ciber-física para a gestão de edifícios suportada por dispositivos inteligentes e modelos de ambientes inteligentes

    A utilização de dispositivos ligados à internet e modelos de ambientes inteligentes em sistemas de gestão de edifícios tem vindo a ganhar notoriedade nos últimos anos, sendo cada vez mais comum a sua aplicação em edifícios. Estes conceitos, de internet das coisas e ambientes inteligentes, fornecem um meio para automatizar e otimizar as operações de gestão de edifícios, levando a uma maior eficiência no uso dos recursos, diminuição de custos e aumento do conforto dos utilizadores. Contudo, muitas das soluções existentes carecem de interoperabilidade e modelos inteligentes que considerem as necessidades e requisitos únicos de edifícios individuais e as preferências e necessidades dinâmicas dos utilizadores. Como principal objetivo, esta dissertação propõe a conceção, implementação, teste e validação de uma solução robusta que integra modelos de ambientes inteligentes e mecanismos de acesso controlado a dados. A solução proposta inclui a utilização de sensores e dispositivos ligados à internet para a recolha e analise de dados em tempo real, que serão posteriormente usados para a criação de modelos de previsão de comportamento do edifício e dos seus utilizadores. Para a identificação de padrões e contextos, foram concebidos algoritmos de aprendizagem automática e técnicas de análise de dados. O acesso aos dados, da solução proposta, contempla um mecanismo de acesso seguro e eficiente, seguindo as diretrizes do Regulamento Geral sobre a Proteção de Dados (RGPD), nacional e europeu. Para suportar o uso da solução proposta, foi concebida e implementada uma interface gráfica que permite aos gestores e utilizadores do edifício monitorizarem e controlarem as operações em tempo real, proporcionando-lhes a capacidade de responder rapidamente às condições atuais, tomando decisões informadas. Esta interface gráfica, baseada em web, permite ainda consultar os dados históricos e interagir com os modelos de suporte que foram desenvolvidos. A solução proposta foi avaliada através de casos de estudo executados em ambiente realista. Os resultados destes estudos foram utilizados para avaliar a eficácia da solução proposta na melhoria do desempenho dos edifícios. Os estudos concluem que a utilização de dispositivos inteligentes e modelos de ambientes inteligentes na gestão de edifícios é uma abordagem promissora que pode culminar em melhorias significativas no desempenho e operação dos edifícios inteligentes. Esta dissertação contribui para o domínio dos edifícios inteligentes, fornecendo uma solução abrangente que integra dispositivos ligados à internet e modelos de ambientes inteligentes para melhorar o desempenho dos edifícios e o conforto dos utilizadores.The use of internet connected devices and ambient intelligence models in building management systems has been gaining notoriety in recent years, and its application in buildings is becoming more and more common. These concepts, of the internet of things and ambient intelligence, provide a means to automate and optimise building management operations, leading to greater efficiency in the use of resources, reduced costs and increased user comfort. However, many existing solutions lack interoperability and intelligent models that consider the unique needs and requirements of individual buildings and the dynamic preferences and needs of users. As the main objective, this dissertation proposes the design, implementation, testing and validation of a robust solution that integrates ambient intelligence models and controlled data access mechanisms. The proposed solution includes the use of sensors and devices connected to the internet for real-time data collection and analysis, which will be later used for the creation of forecasting models for the behaviour of the building and its users. For the identification of patterns and contexts, machine learning algorithms and data analysis techniques were designed. The data access, of the proposed solution, contemplates a safe and efficient access mechanism, following the guidelines of the national and European General Data Protection Regulation (GDPR). To support the use of the proposed solution, a graphic interface was designed and implemented to allow building managers and users to monitor and control operations in real time, providing them with the ability to quickly respond to current conditions, making informed decisions. This web-based graphical interface also allows consulting historical data and interacting with the support models that were developed. The proposed solution was evaluated through case studies executed in a realistic environment. The results of these studies were used to evaluate the effectiveness of the proposed solution in improving building performance. The studies conclude that the use of smart devices and ambient intelligence models in building management is a promising approach that can culminate in significant improvements in the performance and operation of smart buildings. This dissertation contributes to the domain of intelligent buildings by providing a comprehensive solution that integrates internet-connected devices and ambient intelligence models to improve building performance and user comfort