56 research outputs found

    Fault Tolerance and the Five-Second Rule

    Get PDF
    We propose a new approach to fault tolerance that we call bounded-time recovery (BTR). BTR is intended for systems that need strong timeliness guarantees during normal operation but can tolerate short outages in an emergency, e.g., when they are under attack. We argue that BTR could be a good fit for many cyber-physical systems. We also sketch a technical approach to providing BTR, and we discuss some challenges that still remain

    The Bedrock of Byzantine Fault Tolerance: A Unified Platform for BFT Protocol Design and Implementation

    Full text link
    Byzantine Fault-Tolerant (BFT) protocols have recently been extensively used by decentralized data management systems with non-trustworthy infrastructures, e.g., permissioned blockchains. BFT protocols cover a broad spectrum of design dimensions from infrastructure settings such as the communication topology, to more technical features such as commitment strategy and even fundamental social choice properties like order-fairness. The proliferation of different BFT protocols has rendered it difficult to navigate the BFT landscape, let alone determine the protocol that best meets application needs. This paper presents Bedrock, a unified platform for BFT protocols design, analysis, implementation, and experiments. Bedrock proposes a design space consisting of a set of design choices capturing the trade-offs between different design space dimensions and providing fundamentally new insights into the strengths and weaknesses of BFT protocols. Bedrock enables users to analyze and experiment with BFT protocols within the space of plausible choices, evolve current protocols to design new ones, and even uncover previously unknown protocols. Our experimental results demonstrate the capability of Bedrock to uniformly evaluate BFT protocols in new ways that were not possible before due to the diverse assumptions made by these protocols. The results validate Bedrock's ability to analyze and derive BFT protocols

    Resilient Cloud-based Replication with Low Latency

    Full text link
    Existing approaches to tolerate Byzantine faults in geo-replicated environments require systems to execute complex agreement protocols over wide-area links and consequently are often associated with high response times. In this paper we address this problem with Spider, a resilient replication architecture for geo-distributed systems that leverages the availability characteristics of today's public-cloud infrastructures to minimize complexity and reduce latency. Spider models a system as a collection of loosely coupled replica groups whose members are hosted in different cloud-provided fault domains (i.e., availability zones) of the same geographic region. This structural organization makes it possible to achieve low response times by placing replica groups in close proximity to clients while still enabling the replicas of a group to interact over short-distance links. To handle the inter-group communication necessary for strong consistency Spider uses a reliable group-to-group message channel with first-in-first-out semantics and built-in flow control that significantly simplifies system design.Comment: 25 pages, extended version of Middleware 2020 pape

    Diverse Intrusion-tolerant Systems

    Get PDF
    Over the past 20 years, there have been indisputable advances on the development of Byzantine Fault-Tolerant (BFT) replicated systems. These systems keep operational safety as long as at most f out of n replicas fail simultaneously. Therefore, in order to maintain correctness it is assumed that replicas do not suffer from common mode failures, or in other words that replicas fail independently. In an adversarial setting, this requires that replicas do not include similar vulnerabilities, or otherwise a single exploit could be employed to compromise a significant part of the system. The thesis investigates how this assumption can be substantiated in practice by exploring diversity when managing the configurations of replicas. The thesis begins with an analysis of a large dataset of vulnerability information to get evidence that diversity can contribute to failure independence. In particular, we used the data from a vulnerability database to devise strategies for building groups of n replicas with different Operating Systems (OS). Our results demonstrate that it is possible to create dependable configurations of OSes, which do not share vulnerabilities over reasonable periods of time (i.e., a few years). Then, the thesis proposes a new design for a firewall-like service that protects and regulates the access to critical systems, and that could benefit from our diversity management approach. The solution provides fault and intrusion tolerance by implementing an architecture based on two filtering layers, enabling efficient removal of invalid messages at early stages in order to decrease the costs associated with BFT replication in the later stages. The thesis also presents a novel solution for managing diverse replicas. It collects and processes data from several data sources to continuously compute a risk metric. Once the risk increases, the solution replaces a potentially vulnerable replica by another one, trying to maximize the failure independence of the replicated service. Then, the replaced replica is put on quarantine and updated with the available patches, to be prepared for later re-use. We devised various experiments that show the dependability gains and performance impact of our prototype, including key benchmarks and three BFT applications (a key-value store, our firewall-like service, and a blockchain).Unidade de investigação LASIGE (UID/CEC/00408/2019) e o projeto PTDC/EEI-SCR/1741/2041 (Abyss

    Cyber Flag: A Realistic Cyberspace Training Construct

    Get PDF
    As is well understood, the rapidly unfolding challenges of cyberspace is a fundamental warfare paradigm shift revolutionizing the way future wars will be fought and won. A significant test for the Air Force (indeed any organization with a credible presence in cyberspace) will be providing a realistic training environment that fully meets this challenge. Why create another Flag level exercise? Realistic training (that which is effective, comprehensive and coordinated) is crucial to success in time of war. Red Flag provides dominant training within the air domain and now with the evolution of cyberspace, a comprehensive training environment is necessary to meet this growing and broadening threat. This Thesis builds on the Red Flag tactical training exercise in order to define a future environment that combines the air, space and cyberspace domains with specific emphasis on cyberspace capabilities and threats. Red Flag has and continues to be a great tactical training exercise; Cyber Flag would use the best practices of Red Flag (and other realistic training venues) to define a future training environment for the cyberspace domain. There is no better training than the hands-on realism associated with participation in an exercise such as Red Flag. Secretary Michael W. Wynne has a vision for dominant operations in cyberspace comparable to the Air Force\u27s global, strategic omnipresence in air and space. This bold vision requires a combination of joint coordination, skilled forces and a realistic training environment to bring them all together; Cyber Flag is the suggested vehicle for accomplishing this

    A knowledge-based, secure and dependable self-healing architecture for the smart grid

    Get PDF
    Tese de mestrado, Segurança Informática, Universidade de Lisboa, Faculdade de Ciências, 2016As redes de distribuição de eletricidade são infraestruturas críticas que, em casos de incapacitação ou destruição, provocariam um efeito debilitante na economia e na segurança pública. Estas redes são cada vez mais suportadas por sistemas complexos e redes de comunicações, ganhando desta forma alguma inteligência e autonomia. A informação que estes sistemas geram e as decisões e ações que tomam são limitadas pela informação que têm. Em casos nos quais não tenham, por desenho, toda a informação relevante para o seu contexto de atuação, podem enganar os operadores e tomar ações prejudiciais. A dependência dos sistemas e comunicações levanta também preocupações sobre o desempenho, privacidade, segurança e confiabilidade, que se estendem além de possíveis faltas na rede elétrica. Neste sentido, existem soluções dedicadas ao tratamento automático de faltas na rede elétrica, existindo também soluções dedicadas ao tratamento de faltas nos sistemas e comunicações, fazendo-o separadamente. No entanto, como demonstrado pelos incidentes na Ucrânia, no final de 2015, faltas e falhas em diferentes camadas da rede inteligente podem estar relacionadas. Adicionalmente, embora exista alguma preocupação com a segurança e a confiabilidade das soluções de tratamento automático de faltas na rede elétrica no âmbito de alguns projetos europeus, os projetos piloto focam-se maioritariamente nos aspetos funcionais destas soluções, o que poderá comprometer a segurança de futuras instalações. Em resposta aos problemas acima descritos, nesta tese utiliza-se uma abordagem com base em conhecimento e segurança para desenhar e propor um sistema de tratamento automático de faltas na rede inteligente, que explora as ligações atrás mencionadas. Inicialmente, são definidos requisitos de alto nível para as componentes funcional, segurança e confiabilidade, desempenho, operação e manutenção. Estes requisitos são desagregados em requisitos de baixo nível para os quais ´e proposta uma arquitetura de sistema com módulos funcionais e não funcionais. No caso específico dos requisitos de segurança e confiabilidade, foi realizado um levantamento das ameaças e vulnerabilidades `a componente aplicacional do sistema, com o objetivo de identificar os controlos necessários e propor um conjunto de componentes que, sendo eles próprios conformes, garantem conformidade com os controlos identificados. A análise inicia-se com a identificação dos ativos relevantes, a que se segue a identificação das ameaças e vulnerabilidades correspondentes, com maior foco nas ameaças para a aplicação e na ameaça que esta, se e quando comprometida, pode constituir para a rede inteligente. Dos controlos identificados, são apenas incluídos no desenho aqueles que têm de ser implementados através de componentes aplicacionais ou para os quais a aplicação tem de dar algum tipo de suporte. Os controlos externos não são cobertos por esta investigação. Ainda sobre o desenho funcional, ´e feito um modelo da rede inteligente, incluindo os sistemas e componentes das suas várias camadas, com o objetivo de identificar as configurações que cada um suporta e as ligações entre eles. São também modelados, com o objetivo de identificar ligações e dependências: o processo de operação da rede elétrica, um processo genérico representativo dos processos e serviços dependentes do estado operacional da rede elétrica e o processo de tratamento automático. Estes modelos são utilizados na fase de implementação. A arquitetura resultante é a de um sistema multi-agente com agentes geograficamente distribuídos e replicados, designados por entidades especialistas em tratamento de faltas. Cada entidade é responsável por um domínio de tratamento limitado, correspondendo a um conjunto de sistemas, componentes e serviços da rede inteligente que fazem parte do seu âmbito de supervisão. Raciocina sobre conhecimento assente em factos e regras. Supervisiona o seu domínio, diagnosticando faltas, criando planos de recuperação e reconfigurando a rede inteligente com base nesses planos. Coopera com outras entidades. Aprende com os resultados e consequências da sua atuação. Integra componentes de segurança e confiabilidade para prevenir e tolerar faltas e intrusões nos seus próprios componentes. O sistema é implementado parcialmente para prova do conceito. A implementação inclui a definição de um domínio de tratamento, da ontologia correspondente, do modelo de conhecimento com factos e regras, dos objetivos de tratamento e de um conjunto de queries aplicáveis ao modelo. O domínio de tratamento inclui componentes da rede elétrica, equipamentos de rede, computadores e um sistema de controlo de acessos físicos, cobrindo desta forma diferentes camadas da rede inteligente. Para validação da implementação, os objetivos e queries são submetidos a um motor de inferência, no qual o modelo de conhecimento é previamente carregado, simulando o comportamento de uma réplica nos diferentes estados do processo de tratamento. O processo é repetido para quatro cenários de faltas e falhas de complexidade crescente, incluindo um cenário de falta de conhecimento em que o resultado da inferência, demonstrando a necessidade de manter as bases de conhecimento atualizadas. A implementação dos restantes módulos e integração do módulo de conhecimento é deixada para trabalho futuro, o que limita a validação da segurança da solução. Por definição, os controlos incluídos na arquitetura proposta respondem aos requisitos do sistema, dado que o desenho da solução utiliza módulos de segurança e confiabilidade identificados através de uma análise de ameaças e vulnerabilidades. No entanto, a verificação de que estes controlos são corretamente implementados e a validação da robustez dessa implementação está dependente da implementação dos módulos e, por esta razão, é deixada também para trabalho futuro. Validamos também a robustez do desenho proposto em termos de liveness e safety. Neste sentido, apresentamos uma definição para cada uma destas propriedades no contexto da solução proposta, apresentamos um conjunto de cenários em que as mesmas são comprometidas e justificamos o porquê de esses cenários não serem possíveis. No caso da liveness, o sistema deve executar continuamente desde a sua instalação até ao fim do seu ciclo de vida, entre eventuais interrupções programadas. Para a sua validação focamo-nos nas interações entre os vários módulos, com os sistemas e componentes da rede inteligente e entre entidades. No caso da safety, as ações do sistema devem basear-se apenas em informação atualizada, recolhida dos sistemas e componentes da rede inteligente. Neste caso, o foco é no conteúdo do modelo de conhecimento, na coordenação entre réplicas e a execução de comandos nos sistemas e componentes da rede inteligente. Por último, discutimos um conjunto de tópicos de desenho e implementação que, sendo críticos para a segurança e robustez do sistema proposto, dependem do contexto específico da cada rede inteligente e fornecemos recomendações e orientações para os mesmos. Assumindo a existência de outros sistemas instalados na rede inteligente com atuação possivelmente concorrente com a aqui considerada, é necessário definir qual é o âmbito de cada um esse haverá ou não interação entre o sistema aqui proposto e esses sistemas. O sistema aqui proposto poderá utilizar os sensores, atuadores e redes de comunicações já existentes, dependendo de garantias funcionais, desempenho, capacidade e segurança dados pelos mesmos, para adquirir a informação necessária e controlar os sistemas e componentes da rede inteligente, sendo necessário identificar as necessidades de implementação associadas. A alternativa ´e construir completa ou parcialmente uma infraestrutura dedicada. Este sistema poderá ser criado de raiz ou a partir de outros sistemas já existentes e que contenham módulos com funcionalidades semelhantes às identificadas no desenho da solução. É necessário instalar, operar e manter o sistema com o conhecimento necessário à tomada de decisão. Se tal não for feito, o sistema poderá tomar decisões prejudiciais. A distribuição do sistema, em termos de número de domínios, e a sua replicação, em termos de número de réplicas, tendo previsivelmente um impacto elevado nos custos da solução, deverão ter em conta análises de risco e de custo-benefício. Uma distribuição com granularidade apropriada e um número suficiente de réplicas com distribuição adequada permitem que o sistema funcione corretamente também em casos de partição de comunicações e/ou conectividade. As decisões tomadas, relacionadas com estes tópicos, têm impacto direto no desempenho, segurança e confiabilidade da solução. Para trabalho futuro, a nível de desenho, é proposto: a evolução de alguns módulos já incluídos no desenho da solução e o desenvolvimento de novos módulos, a modelação de mais sistemas, componentes e serviços e a atualização e extensão da análise de ameaças e vulnerabilidades. A nível de implementação, é proposto: a formalização e manutenção¸ de uma ontologia de suporte à descrição dos sistemas, componentes e serviços, a atualização dos factos, com base na ontologia, e a melhoria das regras, aproximando-as incrementalmente da realidade, o desenvolvimento do código de software associado a cada módulo e a extensão das recomendações e orientações apresentadas na discussão para incluírem exemplos práticos.The increasing complexity of the smart grid raises concerns with performance, privacy, security and dependability that go further beyond electrical network faults. In this regard, electrical network self-healing and commercially available security solutions are capable of handling a set of electrical network, systems and communications faults automatically, but separately. However, as shown by the Ukrainian incidents, in 2015, there can be cause-effect connections between faults and failures in different smart grid layers. Additionally, although a set of European projects is addressing the security and dependability of self-healing use cases, the pilot projects focus mainly on functional issues, possibly compromising the security of future roll-outs. We use a knowledge-based and security-by-design approach to design and propose a secure and dependable Self-Healing System (SHS) with awareness of the aforementioned connections. It is a Multi Agent System (MAS) with replicated Self-Healing Expert Entity (SHEE) agents. Each SHEE is responsible for the self-healing process in a limited domain, corresponding to a set of systems, components and processes assigned to its scope of supervision. It reasons with knowledge based on facts and rules. It monitors the domain, diagnoses eventual faults, creates recovery plans and reconfigures the smart grid based on these plans. It cooperates with other SHEEs. It learns from the results and consequences of its actions. It comprises a set of security and dependability features to prevent and tolerate faults and intrusions, resulting from a threat and vulnerability assessment. We perform a partial implementation of our system, consisting in the definition of a self-healing domain, the corresponding ontology, the knowledge model with facts and reasoning rules and a set of goals and queries. We successfully validate the SHS concept as a solution to the described problems. The goals and queries are submitted to a standalone inference engine, which is previously loaded with the knowledge model, simulating the behavior of a SHEE replica through the different states of the self-healing process. The process is repeated for four different complexity increasing fault and failure scenarios. We discuss and provide guidance for a set of design and implementation issues that, being critical to the security and robustness of the SHS, depend on each smart grid specific context

    Revisiting the Feasibility of Public Key Cryptography in Light of IIoT Communications

    Get PDF
    Digital certificates are regarded as the most secure and scalable way of implementing authentication services in the Internet today. They are used by most popular security protocols, including Transport Layer Security (TLS) and Datagram Transport Layer Security (DTLS). The lifecycle management of digital certificates relies on centralized Certification Authority (CA)-based Public Key Infrastructures (PKIs). However, the implementation of PKIs and certificate lifecycle management procedures in Industrial Internet of Things (IIoT) environments presents some challenges, mainly due to the high resource consumption that they imply and the lack of trust in the centralized CAs. This paper identifies and describes the main challenges to implement certificate-based public key cryptography in IIoT environments and it surveys the alternative approaches proposed so far in the literature to address these challenges. Most proposals rely on the introduction of a Trusted Third Party to aid the IIoT devices in tasks that exceed their capacity. The proposed alternatives are complementary and their application depends on the specific challenge to solve, the application scenario, and the capacities of the involved IIoT devices. This paper revisits all these alternatives in light of industrial communication models, identifying their strengths and weaknesses, and providing an in-depth comparative analysis.This work was financially supported by the European commission through ECSEL-JU 2018 program under the COMP4DRONES project (grant agreement N∘ 826610), with national financing from France, Spain, Italy, Netherlands, Austria, Czech, Belgium and Latvia. It was also partially supported by the Ayudas Cervera para Centros Tecnológicos grant of the Spanish Centre for the Development of Industrial Technology (CDTI) under the project EGIDA (CER-20191012), and in part by the Department of Economic Development and Competitiveness of the Basque Government through the project TRUSTIND—Creating Trust in the Industrial Digital Transformation (KK-2020/00054)
    corecore