For the last years, constant news about information and data leaks are raising
public discussion of the safety of the systems that we all nowadays depend
on. Communications are increasingly more private; hence next-generation security
systems rely on pattern recognition techniques to detect and infer the
safety without the need for scrapping its content. This dissertation proposes
methodologies to infer entity patterns and their nature according to their network
traffic: if they are running according to their previously known safe pattern
or if its behavior is uncommon, an indication of a possible breach. There
is a strong indication that behavioral pattern recognition will continue to lead
the research of security solutions, not only for the network traffic but also for
other measurable activities. Other examples are identity access management
or programs running on a computer. This dissertation proposes modeling network
OSI layers 3 to 5 metadata in features that are later processed by machine
learning algorithms to classify the network activity. The classification
itself is divided into two groups: the first level is recognizing active entities
operating within a network domain and the second if each entity is acting according
to each known pattern. The presented methods of inferring if something
is acting according to known patterns are transversal to other domains.
Although aggregation of metadata and modeling differ, the described process
of solving the problem of inferring patterns is generic and can be applied to
user use cases rather than to the network, or combined with more complex
scenarios. The last chapter includes a proof of concept with a few evaluation
metrics using synthetic data, to evaluate if the classification algorithms
can successfully distinguish different patterns. The tests showed promising
results, ranging from 99% for entity classification and 77% to 98% (depending
on the entity nature) for abnormality detection.Nos últimos anos notícias sobre roubos e perdas de informação e de dados
têm sido constante, levantando discussão sobre a segurança dos sistemas
dos quais hoje dependemos. As comunicações são também cada vez mais
privadas, pelo que os sistemas de segurança de última geração têm desenvolvido
técnicas de reconhecimento de padrões para detetar e inferir a segurança
sem a necessidade de processar conteúdos. Esta dissertação propõe
metodologias para inferir os padrões de entidades considerando o seu tráfego
de rede: se está enquadrado no comportamento de tráfego previamente conhecido,
ou se a atividade gerada é incomum e, por isso, ser indicação de
um possível problema. Há uma forte indicação de que o reconhecimento de
padrões de comportamento continuará a liderar a investigação no domínio de
soluções de segurança, não só para o tráfego de rede, mas também para outras
atividades mensuráveis. Outros exemplos englobam a gestão de acesso
de identidade ou programas em execução em um computador. As metodologias
propõem a modelação de metadados da camada de rede OSI 3 a 5
em contagens que são posteriormente processadas por algoritmos de aprendizagem
automática para classificar a atividade da rede. Esta classificação
baseia-se em dois níveis: no primeiro o reconhecimento entidades ativas dentro
de um domínio de rede e o segundo, se cada entidade corresponde ao
padrão conhecido. As metodologias apresentadas para inferir se algo está de
acordo com padrões conhecidos são transversais a outros domínios. Embora
a agregação de metadados e modelação seja diferente, o processo descrito
para inferir padrões é genérico o suficiente para ser aplicado a outros casos
de uso, de rede ou não, ou ainda combinado em cenários mais complexos. O
último capítulo inclui uma prova de conceito com dados sintéticos e algumas
métricas de avaliação, para perceber se os algoritmos de classificação podem
distinguir com sucesso padrões diferentes. Os testes mostraram resultados
promissores, variando de 99% para classificação de entidades e 77% para
98% (dependendo da natureza da entidade) para deteção de anormalidades.Mestrado em Engenharia de Computadores e Telemátic