440 research outputs found

    An energy-based model for neuro-symbolic reasoning on knowledge graphs

    Full text link
    Machine learning on graph-structured data has recently become a major topic in industry and research, finding many exciting applications such as recommender systems and automated theorem proving. We propose an energy-based graph embedding algorithm to characterize industrial automation systems, integrating knowledge from different domains like industrial automation, communications and cybersecurity. By combining knowledge from multiple domains, the learned model is capable of making context-aware predictions regarding novel system events and can be used to evaluate the severity of anomalies that might be indicative of, e.g., cybersecurity breaches. The presented model is mappable to a biologically-inspired neural architecture, serving as a first bridge between graph embedding methods and neuromorphic computing - uncovering a promising edge application for this upcoming technology.Comment: Accepted for publication at the 20th IEEE International Conference on Machine Learning and Applications (ICMLA 2021

    A cybersecure P300-based brain-to-computer interface against noise-based and fake P300 cyberattacks

    Get PDF
    In a progressively interconnected world where the internet of things (IoT), ubiquitous computing, and artificial intelligence are leading to groundbreaking technology, cybersecurity remains an underdeveloped aspect. This is particularly alarming for brain-to-computer interfaces (BCIs), where hackers can threaten the user’s physical and psychological safety. In fact, standard algorithms currently employed in BCI systems are inadequate to deal with cyberattacks. In this paper, we propose a solution to improve the cybersecurity of BCI systems. As a case study, we focus on P300-based BCI systems using support vector machine (SVM) algorithms and EEG data. First, we verified that SVM algorithms are incapable of identifying hacking by simulating a set of cyberattacks using fake P300 signals and noise-based attacks. This was achieved by comparing the performance of several models when validated using real and hacked P300 datasets. Then, we implemented our solution to improve the cybersecurity of the system. The proposed solution is based on an EEG channel mixing approach to identify anomalies in the transmission channel due to hacking. Our study demonstrates that the proposed architecture can successfully identify 99.996% of simulated cyberattacks, implementing a dedicated counteraction that preserves most of BCI functions

    Decomposition methods for machine learning with small, incomplete or noisy datasets

    Get PDF
    In many machine learning applications, measurements are sometimes incomplete or noisy resulting in missing features. In other cases, and for different reasons, the datasets are originally small, and therefore, more data samples are required to derive useful supervised or unsupervised classification methods. Correct handling of incomplete, noisy or small datasets in machine learning is a fundamental and classic challenge. In this article, we provide a unified review of recently proposed methods based on signal decomposition for missing features imputation (data completion), classification of noisy samples and artificial generation of new data samples (data augmentation). We illustrate the application of these signal decomposition methods in diverse selected practical machine learning examples including: brain computer interface, epileptic intracranial electroencephalogram signals classification, face recognition/verification and water networks data analysis. We show that a signal decomposition approach can provide valuable tools to improve machine learning performance with low quality datasets.Fil: Caiafa, César Federico. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas. Instituto Argentino de Radioastronomía. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata. Instituto Argentino de Radioastronomía; ArgentinaFil: Sole Casals, Jordi. Center for Advanced Intelligence; JapónFil: Marti Puig, Pere. University of Catalonia; EspañaFil: Sun, Zhe. RIKEN; JapónFil: Tanaka,Toshihisa. Tokyo University of Agriculture and Technology; Japó

    Clasificación de imágenes médicas utilizando técnicas de Deep Learning

    Get PDF
    ABSTRACT: In this project, Deep Learning, a sub-field of Machine Learning and Artificial Intelligence, is applied to the analysis and classification of medical images. To achieve this goal, an architecture based on convolutional neural network is used. This type of network learns which are the main features from the training image dataset allowing to solve the classification problem. First of all, a summary of the state of the art both for Deep Learning and medical imaging is presented followed by the model description and the discussion of the results. A last chapter on possible improvements and future work is also included. For this project, the network has been trained using Xception model, after studying the performance of the network with other models, obtaining an accuracy of 91.7%.RESUMEN: En este proyecto, se estudia la aplicación de Deep Learning, un sub-campo del Machine Learning y de la Inteligencia Artificial, en el análisis y la clasificación de imágenes médicas. Para alcanzar este objetivo, se emplea una arquitectura basada en la redes neuronales convolucionales. Este tipo de red aprende cuáles son las características principales de las imágenes del set de entrenamiento permitiendo resolver el problema de clasificación. Inicialmente, se presenta un resumen sobre el estado del arte tanto del Deep Learning como de la imagen médica, seguido de la descripción del modelo y la discusión de los resultados. También, se incluye un capítulo final acerca de las posibles mejoras y el futuro trabajo en este campo. Para este proyecto, se ha entrenado la red usando el modelo Xception, después de haber estudiado el rendimiento de la red con otros modelos, obteniendo una precisión de 91.7%.Grado en Físic

    Interpretable and Robust AI in EEG Systems: A Survey

    Full text link
    The close coupling of artificial intelligence (AI) and electroencephalography (EEG) has substantially advanced human-computer interaction (HCI) technologies in the AI era. Different from traditional EEG systems, the interpretability and robustness of AI-based EEG systems are becoming particularly crucial. The interpretability clarifies the inner working mechanisms of AI models and thus can gain the trust of users. The robustness reflects the AI's reliability against attacks and perturbations, which is essential for sensitive and fragile EEG signals. Thus the interpretability and robustness of AI in EEG systems have attracted increasing attention, and their research has achieved great progress recently. However, there is still no survey covering recent advances in this field. In this paper, we present the first comprehensive survey and summarize the interpretable and robust AI techniques for EEG systems. Specifically, we first propose a taxonomy of interpretability by characterizing it into three types: backpropagation, perturbation, and inherently interpretable methods. Then we classify the robustness mechanisms into four classes: noise and artifacts, human variability, data acquisition instability, and adversarial attacks. Finally, we identify several critical and unresolved challenges for interpretable and robust AI in EEG systems and further discuss their future directions

    Journey of Artificial Intelligence Frontier: A Comprehensive Overview

    Get PDF
    The field of Artificial Intelligence AI is a transformational force with limitless promise in the age of fast technological growth This paper sets out on a thorough tour through the frontiers of AI providing a detailed understanding of its complex environment Starting with a historical context followed by the development of AI seeing its beginnings and growth On this journey fundamental ideas are explored looking at things like Machine Learning Neural Networks and Natural Language Processing Taking center stage are ethical issues and societal repercussions emphasising the significance of responsible AI application This voyage comes to a close by looking ahead to AI s potential for human-AI collaboration ground-breaking discoveries and the difficult obstacles that lie ahead This provides with a well-informed view on AI s past present and the unexplored regions it promises to explore by thoroughly navigating this terrai

    Decomposition Methods for Machine Learning with Small, Incomplete or Noisy Datasets

    Get PDF
    In many machine learning applications, measurements are sometimes incomplete or noisy resulting in missing features. In other cases, and for different reasons, the datasets are originally small, and therefore, more data samples are required to derive useful supervised or unsupervised classification methods. Correct handling of incomplete, noisy or small datasets in machine learning is a fundamental and classic challenge. In this article, we provide a unified review of recently proposed methods based on signal decomposition for missing features imputation (data completion), classification of noisy samples and artificial generation of new data samples (data augmentation). We illustrate the application of these signal decomposition methods in diverse selected practical machine learning examples including: brain computer interface, epileptic intracranial electroencephalogram signals classification, face recognition/verification and water networks data analysis. We show that a signal decomposition approach can provide valuable tools to improve machine learning performance with low quality datasets.Instituto Argentino de Radioastronomí

    AntiPhishStack: LSTM-based Stacked Generalization Model for Optimized Phishing URL Detection

    Full text link
    The escalating reliance on revolutionary online web services has introduced heightened security risks, with persistent challenges posed by phishing despite extensive security measures. Traditional phishing systems, reliant on machine learning and manual features, struggle with evolving tactics. Recent advances in deep learning offer promising avenues for tackling novel phishing challenges and malicious URLs. This paper introduces a two-phase stack generalized model named AntiPhishStack, designed to detect phishing sites. The model leverages the learning of URLs and character-level TF-IDF features symmetrically, enhancing its ability to combat emerging phishing threats. In Phase I, features are trained on a base machine learning classifier, employing K-fold cross-validation for robust mean prediction. Phase II employs a two-layered stacked-based LSTM network with five adaptive optimizers for dynamic compilation, ensuring premier prediction on these features. Additionally, the symmetrical predictions from both phases are optimized and integrated to train a meta-XGBoost classifier, contributing to a final robust prediction. The significance of this work lies in advancing phishing detection with AntiPhishStack, operating without prior phishing-specific feature knowledge. Experimental validation on two benchmark datasets, comprising benign and phishing or malicious URLs, demonstrates the model's exceptional performance, achieving a notable 96.04% accuracy compared to existing studies. This research adds value to the ongoing discourse on symmetry and asymmetry in information security and provides a forward-thinking solution for enhancing network security in the face of evolving cyber threats

    Cyberthreat discovery in open source intelligence using deep learning techniques

    Get PDF
    Tese de mestrado, Informática, Universidade de Lisboa, Faculdade de Ciências, 2017Face à necessidade crescente de se processar grandes quantidades de dados relativos a ameaças de segurança, fomos cativados pelo desafio da descoberta de ameaças cibernéticas em fontes abertas através do uso de técnicas de aprendizagem automática. Em termos de dados, isto significa que trabalhámos com informação recolhida de fontes abertas como o Twitter. O que distingue o nosso trabalho encontra-se no modo como escolhemos abordar este desafio. A nossa hipótese é a de que processar tais quantidades de dados através de métodos de aprendizagem automática representa uma vantagem significativa em termos de eficiência e adequação, pelo que recorremos a redes neuronais. Escolhemos esta abordagem uma vez que as abordagens de aprendizagem automática têm vindo a ganhar destaque merecido uma vez que asseguram uma maneira robusta de resolver um número de tarefas extremamente complexas no contexto de problemas de big data. Esta dissertação introduz conceitos e noções gerais em que o nosso trabalho se baseia, apresenta o trabalho relacionado consultado por forma a ser eventualmente útil em trabalhos futuros, apresenta também o trabalho que realizámos, os resultados obtidos, e elenca sugestões sobre linhas de progresso promissoras e trabalho futuro. Antes de discutir resultados, é necessário começar por introduzir conceitos centrais, o primeiro dos quais sendo o de aprendizagem automática. Aprendizagem automática (machine learning) pode ser definida como a área ou abordagem da inteligência artificial de forma a que o sistema tenha a aptidão de aprender e melhorar com a experiência. Isto significa que não é necessária programação explícita para resolver o problema de partida pois o sistema de aprendizagem procura por regularidades nos dados e adquire a capacidade de tomar melhores decisões com base nos dados de exemplo que recebe. Aprofundando esta abordagem, uma rede neuronal é um paradigma de processamento inspirado no modo como processos biológicos nervosos, como os que ocorrem no cérebro humano, processam informação. A chave deste paradigma é a conexão entre os elementos básicos do sistema. Este é composto por um grande número de elementos de processamento, os neurónios, organizados em rede que entregam as suas saídas uns aos outros para resolverem problemas específicos, cabendo notar que uma rede neuronal é tipicamente condicionada no seu desenho pelo problema que se pretende que resolva, ou seja, é configurada para uma única aplicação (e.g. reconhecimento de padrões, classificação de dados, etcetera). De entre as técnicas de aprendizagem automática, a aprendizagem profunda (deep learning) tem adquirido grande relevância e vários projectos têm procurado explorar as suas vantagens. Trata-se de uma subárea da aprendizagem automática, e em particular das redes neuronais, sendo que o que distingue esta abordagem consiste no facto de os dados de entrada passarem por várias camadas funcionais de neurónios, usualmente não lineares, até serem totalmente processados. No nosso projecto, a rede neuronal foi aplicada na resolução do problema que consiste na classificação de tweets em itens que se referem a uma ameaça de segurança, ou itens não relevantes a esse respeito. Com essa finalidade, foi implementada uma rede neuronal convolucional, que comparativamente necessita de pouca intervenção humana para ser posta a funcionar. A vantagem de se aliviar a necessidade de tal intervenção também se prende com o tipo da rede, que pode ser supervisionada ou não supervisionada. Em aprendizagem supervisionada, um conjunto de dados de treino injectado na rede é composto por pares de entrada/saída, sendo que a entrada é tipicamente composta por um vector e a saída é o resultado pretendido para a entrada respetiva. A rede é treinada sobre todo o conjunto de dados para depois ser aplicada a novas situações ou dados de entrada desconhecidos. É assim necessário que o algoritmo de processamento generalize a partir dos dados de treino. No caso da aprendizagem não supervisada, os dados injectados na rede são apenas de entrada, o que obriga a rede a inferir funções que descrevem a possível estrutura subjacente aos dados, pois a sua classificação explícita não é fornecida à rede. Como os dados não estão associados à sua classificação, não é trivial avaliar a adequação do resultado obtido pela rede neste caso. Outro conceito importante é o de redes profundas (deep) vs. rasas (shallow). As redes neuronais são organizadas por camadas. Estas camadas são compostas por nós inter-conectados que contêm funções de activação, compreendendo a camada de entrada, as camadas escondidas, que pode englobar várias camadas para processamento de dados, e a camada de saída. O termo redes rasas é usado para descrever as redes que contêm apenas uma ou duas camadas escondidas, que são funcionalmente idênticas. No caso de redes profundas, estas tendem a ter mais camadas escondidas, com grupos de camadas com funcionalidades distintas. A terminologia mais comummente aceite é a de que para uma rede ser considerada profunda tem de conter pelo menos três camadas que são escondidas e funcionalmente distintas. As redes convolucionais são redes profundas compostas por várias camadas com funções não lineares aplicadas em cada nó. Em redes normais, cada neurónio de entrada está conectado a um neurónio de saída na camada seguinte. As redes neuronais convolucionais, por sua vez, optam antes por aplicar convoluções sobre a camada de entrada para computar a saída, em que cada região de entrada está conectada a um neurónio de saída, consistindo numa rede de conexões locais. Outro aspecto relevante das redes convolucionais é o de que durante a fase de treino, a rede aprende os valores dos seus filtros automaticamente baseando-se na tarefa a ser aprendida e executada. A última camada destas redes é então um classificador que usa as características (features) de alto nível inferidas pela rede. Como acabámos de assinalar, uma rede profunda tem várias camadas escondidas e esse é o modelo da rede que adoptámos no nosso trabalho. A primeira camada da nossa rede transforma palavras, e como consequência tweets, emvectores. Depois desta camada, passa-se às camadas de convolução, que iteram sobre os vectores de palavras embutidos (word embeddings) realizando convoluções sobre múltiplos filtros com janelas de dimensões diferentes. No nosso caso, optámos por ter três filtros, sendo que cada um itera sobre uma quantidade de palavras diferente para cada convolução. De seguida, para evitar que a rede se torne demasiado específica aos dados de treino (overfitting), temos uma camada de abandono (dropout) que obriga 50% dos neurónios a desligarem-se por forma a que os neurónios não se co-adaptem em demasia e por conseguinte sejam capazes de aprender características utéis individuais e independentes. Por último, uma camada de softmax é usada para classificar os dados de saída como positivos (tweet que menciona ameaças de segurança), ou negativos (caso contrário). Mesmo com uma rede convolucional, é preciso acertar vários parâmetros para que a rede seja eficiente e produza bons resultados. Após ter uma base de parâmetros com que a rede produz bons resultados, tratámos de avaliar com recurso a validação cruzada (cross validation) os parâmetros óptimos para a rede, variando apenas aqueles que verificámos que produziam a maior diferença nos resultados. Um dos parâmetros que foi feito variar foi o tamanho de um batch. Na análise dos nossos resultados, verificamos que tamanhos menores de batch levam a resultados piores. Atribuímos estes resultados piores ao facto de a rede treinar demasiado sobre o mesmo conjunto de dados, pois um batch menor implica um número maior de passos (steps) sobre um mesmo conjunto de dados. Outra procura de melhorar o desempenho da rede consistiu em tomar tweets que são positivos para uma dada infraestrutura e adicioná-los ao conjunto de dados para outra infraestrutura como tweets negativos (e.g. um tweet positivo para a Oracle é adicionado como um tweet negativo para o Chrome). Emgeral, o conjunto de dados de base obteve melhores resultados do que quando era assim modificado, sendo que atribuímos esta diferença ao facto de os dados de treino ficarem demasiado desequilibrados entre tweets positivos e negativos. De notar no entanto, que o conjunto de dados assim modificado teve, em geral, menos variância de resultados entre batches, devido provavelmente ao conjunto de dados de treino ser mais extenso. Não obstante a diferença de parâmetros, em geral a nossa rede apresentou bons resultados. Face aos resultados francamente positivos obtidos achamos que a instalação da nossa solução num centro de segurança operacional é viável e ajudará a detectar informação relevante acerca de várias ameaças possíveis que é veiculada de forma massiva através de tweets.Responding to an increasing need to process large amounts of data regarding security threats, in the present dissertation we are addressing the topic of cyberthreat discovery in Open Source Intelligence (OSINT) using deep learning techniques. In terms of data sources, this means that we will be working with information gathered in web media outlets such as Twitter. What differentiates our work is the way we approach the subject. Our standpoint is that to process such large amounts of data through deep learning architectures and algorithms represents a significant advantage in terms of efficiency and accuracy, which is why we will make use of neural networks. We adopt this approach given that deep learning mechanisms have recently gained much attention as they present an effective way to solve an increasing number of extremely complex tasks on very demanding big data problems. To train our neural networks, we need a dataset that is representative and as large as possible. Once that is gathered we proceed by formulating adequate deep learning architectures and algorithmic solutions. Our ultimate goal is to automatically classify tweets as referring, or not, to cyberthreats in order to assess whether our hypothesis gets confirmed. This dissertation is also meant to introduce general concepts and notions on the basis of which our work is deployed and to provide an overview of related work in such a way that this may be useful for future work. It also aims at providing an account of the work undertaken and of the obtained results, and last but not least to suggest what we see as promising paths for future work and improvements
    corecore