Monitorização aplicacional - Sputnik, Checklist e Gateway Asterisk

Abstract

Tese de mestrado em Engenharia Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2012Todos os Sistemas de Informação encontram-se susceptíveis a falhas, sejam elas humanas, de infra-estrutura ou aplicacionais e, portanto, necessitam de constante monitorização para não haver quebras de serviço que afectem o negócio. Esta necessidade de monitorizar e de actuar o mais rapidamente possível sobre sistemas críticos e o facto de trabalhar numa área em que a função principal é monitorizar os sistemas aplicacionais e infra-estruturais da PT, abriu-me portas para encontrar novas soluções que ajudem as equipas de operação. O Sputnik é uma plataforma de representação gráfica e intuitiva de monitorizações infra-estruturais e aplicacionais, permitindo representar circuitos, tabelas, gráficos ou por exemplo, verificando a disponibilidade de um servidor ou o acumular de registos numa tabela. Com esta plataforma os problemas são detectados/visualizados em real-time e resolvidos ou escalados de forma rápida e eficiente. A Checklist é uma plataforma centralizada onde o conhecimento e a informação estão organizados/estruturados em CIs (Configuration Items) e relações. Pretende ser a base de consulta para qualquer tipo de informação relevante, incluindo relações entre os vários CIs existentes, para a DE/OA. A Gateway Asterisk é uma plataforma piloto (proof-of-concept) destinada a despoletar chamadas telefónicas automáticas substituindo a necessidade de acção humana, agilizando assim o processo de escalamento. No contexto do meu PEI as chamadas são destinadas a alertar as equipas responsáveis em caso de falha dos CIs. Neste PEI pretendi não só melhorar/desenvolver as plataformas de alarmística sobre os sistemas da PTSI mas também melhorar os meus conhecimentos técnicos, de gestão e dar um contributo efectivo sobre os processos de monitorização e alarmística minimizando a acção humana e auxiliando-a sempre que necessário.All information systems are prone to failures, whether they’re human, infrastructural or applicational, therefore requiring constant monitoring in order to prevent service unavailability affecting business. Sputnik is a platform for graphical and intuitive representation of infrastructural and applicational monitoring, allowing to represent circuits, tables, graphs or for example checking the availability of a server or the accumulation of records in a table. This platform allows real-time problem detection/visualization and supports it’s resolution/escalation in a efficient way. The Checklist is a centralized platform where knowledge and information are organized/ structured in CI’s (Configuration Items) and relationships between them. Intended as a framework for searching any type of relevant information, including relationships between the existing CIs. Asterisk Gateway is a pilot platform (proof-of-concept), designed to trigger automatic phone calls replacing the need for human action, thus speeding the process of scaling. In the context of this PEI, calls are triggered when a CI falis, alerting the respective support team. In this PEI I intended not only, to improve/develop alarmistic platforms over the PTSI systems but also to improve my technical knowledge, management and effective input on the process of monitoring and alarms, minimizing human action and helping them when necessary

    Similar works