10 research outputs found
Timely Classification of Encrypted or ProtocolObfuscated Internet Traffic Using Statistical Methods
Internet traffic classification aims to identify the type of application or protocol that generated
a particular packet or stream of packets on the network. Through traffic classification,
Internet Service Providers (ISPs), governments, and network administrators can
access basic functions and several solutions, including network management, advanced
network monitoring, network auditing, and anomaly detection. Traffic classification is
essential as it ensures the Quality of Service (QoS) of the network, as well as allowing
efficient resource planning.
With the increase of encrypted or obfuscated protocol traffic on the Internet and multilayer
data encapsulation, some classical classification methods have lost interest from the
scientific community. The limitations of traditional classification methods based on port
numbers and payload inspection to classify encrypted or obfuscated Internet traffic have
led to significant research efforts focused on Machine Learning (ML) based classification
approaches using statistical features from the transport layer. In an attempt to increase
classification performance, Machine Learning strategies have gained interest from the scientific
community and have shown promise in the future of traffic classification, specially
to recognize encrypted traffic.
However, ML approach also has its own limitations, as some of these methods have a
high computational resource consumption, which limits their application when classifying
large traffic or realtime
flows. Limitations of ML application have led to the investigation
of alternative approaches, including featurebased
procedures and statistical methods. In
this sense, statistical analysis methods, such as distances and divergences, have been used
to classify traffic in large flows and in realtime.
The main objective of statistical distance is to differentiate flows and find a pattern in
traffic characteristics through statistical properties, which enable classification. Divergences
are functional expressions often related to information theory, which measure the
degree of discrepancy between any two distributions.
This thesis focuses on proposing a new methodological approach to classify encrypted
or obfuscated Internet traffic based on statistical methods that enable the evaluation of
network traffic classification performance, including the use of computational resources
in terms of CPU and memory. A set of traffic classifiers based on KullbackLeibler
and
JensenShannon
divergences, and Euclidean, Hellinger, Bhattacharyya, and Wootters distances
were proposed. The following are the four main contributions to the advancement
of scientific knowledge reported in this thesis.
First, an extensive literature review on the classification of encrypted and obfuscated Internet traffic was conducted. The results suggest that portbased
and payloadbased
methods are becoming obsolete due to the increasing use of traffic encryption and multilayer
data encapsulation. MLbased
methods are also becoming limited due to their computational
complexity. As an alternative, Support Vector Machine (SVM), which is also
an ML method, and the KolmogorovSmirnov
and Chisquared
tests can be used as reference
for statistical classification. In parallel, the possibility of using statistical methods
for Internet traffic classification has emerged in the literature, with the potential of good
results in classification without the need of large computational resources. The potential
statistical methods are Euclidean Distance, Hellinger Distance, Bhattacharyya Distance,
Wootters Distance, as well as KullbackLeibler
(KL) and JensenShannon
divergences.
Second, we present a proposal and implementation of a classifier based on SVM for P2P
multimedia traffic, comparing the results with KolmogorovSmirnov
(KS) and Chisquare
tests. The results suggest that SVM classification with Linear kernel leads to a better classification
performance than KS and Chisquare
tests, depending on the value assigned to
the Self C parameter. The SVM method with Linear kernel and suitable values for the Self
C parameter may be a good choice to identify encrypted P2P multimedia traffic on the
Internet.
Third, we present a proposal and implementation of two classifiers based on KL Divergence
and Euclidean Distance, which are compared to SVM with Linear kernel, configured
with the standard Self C parameter, showing a reduced ability to classify flows based
solely on packet sizes compared to KL and Euclidean Distance methods. KL and Euclidean
methods were able to classify all tested applications, particularly streaming and P2P,
where for almost all cases they efficiently identified them with high accuracy, with reduced
consumption of computational resources. Based on the obtained results, it can be
concluded that KL and Euclidean Distance methods are an alternative to SVM, as these
statistical approaches can operate in realtime
and do not require retraining every time a
new type of traffic emerges.
Fourth, we present a proposal and implementation of a set of classifiers for encrypted
Internet traffic, based on JensenShannon
Divergence and Hellinger, Bhattacharyya, and
Wootters Distances, with their respective results compared to those obtained with methods
based on Euclidean Distance, KL, KS, and ChiSquare.
Additionally, we present a comparative
qualitative analysis of the tested methods based on Kappa values and Receiver
Operating Characteristic (ROC) curves. The results suggest average accuracy values above
90% for all statistical methods, classified as ”almost perfect reliability” in terms of Kappa
values, with the exception of KS. This result indicates that these methods are viable options
to classify encrypted Internet traffic, especially Hellinger Distance, which showed
the best Kappa values compared to other classifiers. We conclude that the considered
statistical methods can be accurate and costeffective
in terms of computational resource
consumption to classify network traffic. Our approach was based on the classification of Internet network traffic, focusing on statistical
distances and divergences. We have shown that it is possible to classify and obtain
good results with statistical methods, balancing classification performance and the
use of computational resources in terms of CPU and memory. The validation of the proposal
supports the argument of this thesis, which proposes the implementation of statistical
methods as a viable alternative to Internet traffic classification compared to methods
based on port numbers, payload inspection, and ML.A classificação de tráfego Internet visa identificar o tipo de aplicação ou protocolo que
gerou um determinado pacote ou fluxo de pacotes na rede. Através da classificação de
tráfego, Fornecedores de Serviços de Internet (ISP), governos e administradores de rede
podem ter acesso às funções básicas e várias soluções, incluindo gestão da rede, monitoramento
avançado de rede, auditoria de rede e deteção de anomalias. Classificar o tráfego é
essencial, pois assegura a Qualidade de Serviço (QoS) da rede, além de permitir planear
com eficiência o uso de recursos.
Com o aumento de tráfego cifrado ou protocolo ofuscado na Internet e do encapsulamento
de dados multicamadas, alguns métodos clássicos da classificação perderam interesse de
investigação da comunidade científica. As limitações dos métodos tradicionais da classificação
com base no número da porta e na inspeção de carga útil payload para classificar
o tráfego de Internet cifrado ou ofuscado levaram a esforços significativos de investigação
com foco em abordagens da classificação baseadas em técnicas de Aprendizagem
Automática (ML) usando recursos estatísticos da camada de transporte. Na tentativa
de aumentar o desempenho da classificação, as estratégias de Aprendizagem Automática
ganharam o interesse da comunidade científica e se mostraram promissoras no futuro da
classificação de tráfego, principalmente no reconhecimento de tráfego cifrado.
No entanto, a abordagem em ML também têm as suas próprias limitações,
pois alguns
desses métodos possuem um elevado consumo de recursos computacionais, o que limita
a sua aplicação para classificação de grandes fluxos de tráfego ou em tempo real. As limitações
no âmbito da aplicação de ML levaram à investigação de abordagens alternativas,
incluindo procedimentos baseados em características e métodos estatísticos. Neste sentido,
os métodos de análise estatística, tais como distâncias e divergências, têm sido utilizados
para classificar tráfego em grandes fluxos e em tempo real.
A distância estatística possui como objetivo principal diferenciar os fluxos e permite encontrar
um padrão nas características de tráfego através de propriedades estatísticas, que
possibilitam a classificação. As divergências são expressões funcionais frequentemente
relacionadas com a teoria da informação, que mede o grau de discrepância entre duas
distribuições quaisquer.
Esta tese focase
na proposta de uma nova abordagem metodológica para classificação de
tráfego cifrado ou ofuscado da Internet com base em métodos estatísticos que possibilite
avaliar o desempenho da classificação de tráfego de rede, incluindo a utilização de recursos
computacionais, em termos de CPU e memória. Foi proposto um conjunto de classificadores
de tráfego baseados nas Divergências de KullbackLeibler
e JensenShannon
e Distâncias Euclidiana, Hellinger, Bhattacharyya e Wootters. A seguir resumemse
os tese.
Primeiro, realizámos uma ampla revisão de literatura sobre classificação de tráfego cifrado
e ofuscado de Internet. Os resultados sugerem que os métodos baseados em porta e
baseados em carga útil estão se tornando obsoletos em função do crescimento da utilização
de cifragem de tráfego e encapsulamento de dados multicamada. O tipo de métodos
baseados em ML também está se tornando limitado em função da complexidade computacional.
Como alternativa, podese
utilizar a Máquina de Vetor de Suporte (SVM),
que também é um método de ML, e os testes de KolmogorovSmirnov
e Quiquadrado
como referência de comparação da classificação estatística. Em paralelo, surgiu na literatura
a possibilidade de utilização de métodos estatísticos para classificação de tráfego
de Internet, com potencial de bons resultados na classificação sem aporte de grandes recursos
computacionais. Os métodos estatísticos potenciais são as Distâncias Euclidiana,
Hellinger, Bhattacharyya e Wootters, além das Divergências de Kullback–Leibler (KL) e
JensenShannon.
Segundo, apresentamos uma proposta e implementação de um classificador baseado na
Máquina de Vetor de Suporte (SVM) para o tráfego multimédia P2P (PeertoPeer),
comparando
os resultados com os testes de KolmogorovSmirnov
(KS) e Quiquadrado.
Os
resultados sugerem que a classificação da SVM com kernel Linear conduz a um melhor
desempenho da classificação do que os testes KS e Quiquadrado,
dependente do valor
atribuído ao parâmetro Self C. O método SVM com kernel Linear e com valores adequados
para o parâmetro Self C pode ser uma boa escolha para identificar o tráfego Par a Par
(P2P) multimédia cifrado na Internet.
Terceiro, apresentamos uma proposta e implementação de dois classificadores baseados
na Divergência de KullbackLeibler (KL) e na Distância Euclidiana, sendo comparados
com a SVM com kernel Linear, configurado para o parâmestro Self C padrão, apresenta
reduzida
capacidade de classificar fluxos com base apenas nos tamanhos dos pacotes
em relação aos métodos KL e Distância Euclidiana. Os métodos KL e Euclidiano foram
capazes de classificar todas as aplicações testadas, destacandose
streaming e P2P, onde
para quase todos os casos foi eficiente identificálas
com alta precisão, com reduzido consumo
de recursos computacionais.Com base nos resultados obtidos, podese
concluir que
os métodos KL e Distância Euclidiana são uma alternativa à SVM, porque essas abordagens
estatísticas podem operar em tempo real e não precisam de retreinamento cada vez
que surge um novo tipo de tráfego.
Quarto, apresentamos uma proposta e implementação de um conjunto de classificadores
para o tráfego de Internet cifrado, baseados na Divergência de JensenShannon
e nas Distâncias
de Hellinger, Bhattacharyya e Wootters, sendo os respetivos resultados comparados
com os resultados obtidos com os métodos baseados na Distância Euclidiana, KL, KS e Quiquadrado.
Além disso, apresentamos uma análise qualitativa comparativa dos
métodos testados com base nos valores de Kappa e Curvas Característica de Operação do
Receptor (ROC). Os resultados sugerem valores médios de precisão acima de 90% para todos
os métodos estatísticos, classificados como “confiabilidade quase perfeita” em valores
de Kappa, com exceçãode KS. Esse resultado indica que esses métodos são opções viáveis
para a classificação de tráfego cifrado da Internet, em especial a Distância de Hellinger,
que apresentou os melhores resultados do valor de Kappa em comparaçãocom os demais
classificadores. Concluise
que os métodos estatísticos considerados podem ser precisos e
económicos em termos de consumo de recursos computacionais para classificar o tráfego
da rede.
A nossa abordagem baseouse
na classificação de tráfego de rede Internet, focando em
distâncias e divergências estatísticas. Nós mostramos que é possível classificar e obter
bons resultados com métodos estatísticos, equilibrando desempenho de classificação e
uso de recursos computacionais em termos de CPU e memória. A validação da proposta
sustenta o argumento desta tese, que propõe a implementação de métodos estatísticos
como alternativa viável à classificação de tráfego da Internet em relação aos métodos com
base no número da porta, na inspeção de carga útil e de ML.Thesis prepared at Instituto de Telecomunicações Delegação
da Covilhã and at the Department
of Computer Science of the University of Beira Interior, and submitted to the
University of Beira Interior for discussion in public session to obtain the Ph.D. Degree in
Computer Science and Engineering.
This work has been funded by Portuguese FCT/MCTES through national funds and, when
applicable, cofunded
by EU funds under the project UIDB/50008/2020, and by operation
Centro010145FEDER000019
C4
Centro
de Competências em Cloud Computing,
cofunded
by the European Regional Development Fund (ERDF/FEDER) through
the Programa Operacional Regional do Centro (Centro 2020). This work has also been
funded by CAPES (Brazilian Federal Agency for Support and Evaluation of Graduate Education)
within the Ministry of Education of Brazil under a scholarship supported by the
International Cooperation Program CAPES/COFECUB Project
9090134/
2013 at the
University of Beira Interior
Classification rapide de trafic internet chiffré ou obscurci par utilisation de méthodes statistiques
Internet traffic classification aims to identify the type of application or protocol that generated a particular packet or stream of packets on the network. Through traffic classification, Internet Service Providers (ISPs), governments, and network administrators can access basic functions and several solutions, including network management, advanced network monitoring, network auditing, and anomaly detection. Traffic classification is essential as it ensures the Quality of Service (QoS) of the network, as well as allowing efficient resource planning. With the increase of encrypted or obfuscated protocol traffic on the Internet and multilayer data encapsulation, some classical classification methods have lost interest from the scientific community. The limitations of traditional classification methods based on port numbers and payload inspection to classify encrypted or obfuscated Internet traffic have led to significant research efforts focused on Machine Learning (ML) based classification approaches using statistical features from the transport layer. In an attempt to increase classification performance, Machine Learning strategies have gained interest from the scientific community and have shown promise in the future of traffic classification, specially to recognize encrypted traffic. However, ML approach also has its own limitations, as some of these methods have a high computational resource consumption, which limits their application when classifying large traffic or realtime flows. Limitations of ML application have led to the investigation of alternative approaches, including featurebased procedures and statistical methods. In this sense, statistical analysis methods, such as distances and divergences, have been used to classify traffic in large flows and in realtime. The main objective of statistical distance is to differentiate flows and find a pattern in traffic characteristics through statistical properties, which enable classification. Divergences are functional expressions often related to information theory, which measure the degree of discrepancy between any two distributions. This thesis focuses on proposing a new methodological approach to classify encrypted or obfuscated Internet traffic based on statistical methods that enable the evaluation of network traffic classification performance, including the use of computational resources in terms of CPU and memory. A set of traffic classifiers based on KullbackLeibler and JensenShannon divergences, and Euclidean, Hellinger, Bhattacharyya, and Wootters distances were proposed. The following are the four main contributions to the advancement of scientific knowledge reported in this thesis. First, an extensive literature review on the classification of encrypted and obfuscated Internet traffic was conducted. The results suggest that port-based and payload-based methods are becoming obsolete due to the increasing use of traffic encryption and multilayer data encapsulation. MLbased methods are also becoming limited due to their computational complexity. As an alternative, Support Vector Machine (SVM), which is also an ML method, and the KolmogorovSmirnov and Chisquared tests can be used as reference for statistical classification. In parallel, the possibility of using statistical methods for Internet traffic classification has emerged in the literature, with the potential of good results in classification without the need of large computational resources. The potential statistical methods are Euclidean Distance, Hellinger Distance, Bhattacharyya Distance, Wootters Distance, as well as KullbackLeibler (KL) and JensenShannon divergences. Second, we present a proposal and implementation of a classifier based on SVM for P2P multimedia traffic, comparing the results with KolmogorovSmirnov (KS) and Chisquaretests. The results suggest that SVM classification with Linear kernel leads to a better classification performance than KS and Chisquare tests, depending on the value assigned to the Self C parameter. The SVM method with Linear kernel and suitable values for the Self C parameter may be a good choice to identify encrypted P2P multimedia traffic on the Internet. Third, we present a proposal and implementation of two classifiers based on KL Divergence and Euclidean Distance, which are compared to SVM with Linear kernel, configured with the standard Self C parameter, showing a reduced ability to classify flows based solely on packet sizes compared to KL and Euclidean Distance methods. KL and Euclidean methods were able to classify all tested applications, particularly streaming and P2P, where for almost all cases they efficiently identified them with high accuracy, with reduced consumption of computational resources. Based on the obtained results, it can be concluded that KL and Euclidean Distance methods are an alternative to SVM, as thesestatistical approaches can operate in realtime and do not require retraining every time a new type of traffic emerges. Fourth, we present a proposal and implementation of a set of classifiers for encrypted Internet traffic, based on JensenShannon Divergence and Hellinger, Bhattacharyya, and Wootters Distances, with their respective results compared to those obtained with methods based on Euclidean Distance, KL, KS, and ChiSquare. Additionally, we present a comparative qualitative analysis of the tested methods based on Kappa values and Receiver Operating Characteristic (ROC) curves. The results suggest average accuracy values above 90% for all statistical methods, classified as ”almost perfect reliability” in terms of Kappa values, with the exception of KS. This result indicates that these methods are viable options to classify encrypted Internet traffic, especially Hellinger Distance, which showed the best Kappa values compared to other classifiers. We conclude that the considered statistical methods can be accurate and costeffective in terms of computational resource consumption to classify network traffic. Our approach was based on the classification of Internet network traffic, focusing on statistical distances and divergences. We have shown that it is possible to classify and obtain good results with statistical methods, balancing classification performance and the use of computational resources in terms of CPU and memory. The validation of the proposal supports the argument of this thesis, which proposes the implementation of statistical methods as a viable alternative to Internet traffic classification compared to methods based on port numbers, payload inspection, and ML.La classification du trafic Internet vise à identifier le type d'application ou de protocole qui a généré un paquet ou un flux de paquets particulier sur le réseau. Grâce à la classification du trafic, les fournisseurs d'accès Internet (FAI), les gouvernements et les administrateurs réseau peuvent accéder aux fonctions de base et à plusieurs solutions, notamment la gestion du réseau, la surveillance avancée du réseau, l'audit du réseau et la détection des anomalies. La classification du trafic est essentielle car elle garantit la qualité de service (QoS) du réseau, tout en permettant une planification efficace des ressources. Avec l’augmentation du trafic protocolaire crypté ou obscurci sur Internet et l’encapsulation de données multicouches, certaines méthodes de classification classiques ont perdu de leur intérêt auprès de la communauté scientifique. Les limites des méthodes de classification traditionnelles basées sur les numéros de port et l'inspection des charges utiles pour classer le trafic Internet crypté ou obscurci ont conduit à d'importants efforts de recherche axés sur les approches de classification basées sur l'apprentissage automatique (ML) utilisant des fonctionnalités statistiques de la couche de transport. Dans le but d'augmenter les performances de classification, les stratégies d'apprentissage automatique ont suscité l'intérêt de la communauté scientifique et se sont révélées prometteuses pour l'avenir de la classification du trafic, notamment pour reconnaître le trafic crypté. Cependant, l’approche ML a également ses propres limites, car certaines de ces méthodes consomment beaucoup de ressources de calcul, ce qui limite leur application lors de la classification d’un trafic important ou de flux en temps réel. Les limites de l’application du ML ont conduit à rechercher des approches alternatives, notamment des procédures basées sur des fonctionnalités et des méthodes statistiques. En ce sens, des méthodes d'analyse statistique, telles que les distances et les divergences, ont été utilisées pour classer le trafic en grands flux et en temps réel. L'objectif principal de la distance statistique est de différencier les flux et de trouver un modèle dans les caractéristiques du trafic grâce à des propriétés statistiques qui permettent une classification. Les divergences sont des expressions fonctionnelles souvent liées à la théorie de l'information, qui mesurent le degré de divergence entre deux distributions quelconques. Cette thèse se concentre sur la proposition d'une nouvelle approche méthodologique pour classer le trafic Internet crypté ou obscurci, basée sur des méthodes statistiques permettant d'évaluer les performances de classification du trafic réseau, y compris l'utilisation de ressources informatiques en termes de CPU et de mémoire. Un ensemble de classificateurs de trafic basés sur les divergences de KullbackLeibler et JensenShannon et les distances euclidiennes, Hellinger, Bhattacharyya et Wootters ont été proposés. Voici les quatre principales contributions à l’avancement des connaissances scientifiques rapportées dans cette thèse. Premièrement, une revue approfondie de la littérature sur la classification du trafic Internet crypté et obscurci a été réalisée. Les résultats suggèrent que les méthodes basées sur les ports et les charges utiles deviennent obsolètes en raison de l'utilisation croissante du cryptage du trafic et de l'encapsulation des données multicouches. Les méthodes basées sur le ML deviennent également limitées en raison de leur complexité informatique. Comme alternative, Support Vector Machine (SVM), qui est également une méthode ML, et les tests Kolmogorov-Smirnov et Chisquared peuvent être utilisés comme référence pour la classification statistique. En parallèle, la possibilité d'utiliser des méthodes statistiques pour la classification du trafic Internet est apparue dans la littérature, avec le potentiel d'obtenir de bons résultats en classification sans nécessiter de grandes ressources informatiques. Les méthodes statistiques potentielles sont la distance euclidienne, la distance de Hellinger, la distance de Bhattacharyya, la distance de Wootters, ainsi que les divergences de KullbackLeibler (KL) et de JensenShannon. Deuxièmement, nous présentons une proposition et la mise en œuvre d'un classificateur basé sur SVM pour le trafic multimédia P2P, en comparant les résultats avec KolmogorovSmirnov (KS) et Chisquare.essais. Les résultats suggèrent que la classification SVM avec noyau linéaire conduit à de meilleures performances de classification que les tests KS et Chicarré, en fonction de la valeur attribuée au paramètre Self C. La méthode SVM avec un noyau linéaire et des valeurs appropriées pour le paramètre Self C peut être un bon choix pour identifier le trafic multimédia P2P crypté sur Internet. Troisièmement, nous présentons une proposition et la mise en œuvre de deux classificateurs basés sur KL Divergence et Euclidian Distance, qui sont comparés à SVM avec un noyau linéaire, configuré avec le paramètre standard Self C, montrant une capacité réduite à classer les flux uniquement en fonction de la taille des paquets par rapport aux méthodes KL et Euclidian Distance. Les méthodes KL et euclidiennes ont pu classer toutes les applications testées, en particulier le streaming et le P2P, où, dans presque tous les cas, elles les ont identifiées efficacement avec une grande précision, avec une consommation réduite de ressources informatiques. Sur la base des résultats obtenus, on peut conclure que les méthodes KL et Euclidienne sont une alternative au SVM, car ces approches statistiques peuvent fonctionner en temps réel et ne nécessitent pas de ré-entrainement à chaque fois.A classificação de tráfego Internet visa identificar o tipo de aplicação ou protocolo quegerou um determinado pacote ou fluxo de pacotes na rede. Através da classificação detráfego, Fornecedores de Serviços de Internet (ISP), governos e administradores de redepodem ter acesso às funções básicas e várias soluções, incluindo gestão da rede, monitoramento avançado de rede, auditoria de rede e deteção de anomalias. Classificar o tráfego éessencial, pois assegura a Qualidade de Serviço (QoS) da rede, além de permitir planearcom eficiência o uso de recursos.Com o aumento de tráfego cifrado ou protocolo ofuscado na Internet e do encapsulamentode dados multicamadas, alguns métodos clássicos da classificação perderam interesse deinvestigação da comunidade científica. As limitações dos métodos tradicionais da classificação com base no número da porta e na inspeção de carga útil payload para classificar o tráfego de Internet cifrado ou ofuscado levaram a esforços significativos de investigação com foco em abordagens da classificação baseadas em técnicas de Aprendizagem Automática (ML) usando recursos estatísticos da camada de transporte. Na tentativade aumentar o desempenho da classificação, as estratégias de Aprendizagem Automáticaganharam o interesse da comunidade científica e se mostraram promissoras no futuro daclassificação de tráfego, principalmente no reconhecimento de tráfego cifrado.No entanto, a abordagem em ML também têm as suas próprias limi tações, pois algunsdesses métodos possuem um elevado consumo de recursos computacionais, o que limitaa sua aplicação para classificação de grandes fluxos de tráfego ou em tempo real. As limitações no âmbito da aplicação de ML levaram à investigação de abordagens alternativas,incluindo procedimentos baseados em características e métodos estatísticos. Neste sentido, os métodos de análise estatística, tais como distâncias e divergências, têm sido utilizados para classificar tráfego em grandes fluxos e em tempo real.A distância estatística possui como objetivo principal diferenciar os fluxos e permite encontrar um padrão nas características de tráfego através de propriedades estatísticas, quepossibilitam a classificação. As divergências são expressões funcionais frequentementerelacionadas com a teoria da informação, que mede o grau de discrepância entre duasdistribuições quaisquer.Esta tese focase na proposta de uma nova abordagem metodológica para classificação detráfego cifrado ou ofuscado da Internet com base em métodos estatísticos que possibiliteavaliar o desempenho da classificação de tráfego de rede, incluindo a utilização de recursos computacionais, em termos de CPU e memória. Foi proposto um conjunto de classificadores de tráfego baseados nas Divergências de KullbackLeibler e JensenShannone Distâncias Euclidiana, Hellinger, Bhattacharyya e Wootters. A seguir resumemse osquatro principais contributos para o avanço do conhecimento científico reportados nestatese.Primeiro, realizámos uma ampla revisão de literatura sobre classificação de tráfego cifrado e ofuscado de Internet. Os resultados sugerem que os métodos baseados em porta ebaseados em carga útil estão se tornando obsoletos em função do crescimento da utilização de cifragem de tráfego e encapsulamento de dados multicamada. O tipo de métodosbaseados em ML também está se tornando limitado em função da complexidade computacional. Como alternativa, podese utilizar a Máquina de Vetor de Suporte (SVM),que também é um método de ML, e os testes de KolmogorovSmirnov e Quiquadradocomo referência de comparação da classificação estatística. Em paralelo, surgiu na literatura a possibilidade de utilização de métodos estatísticos para classificação de tráfegode Internet, com potencial de bons resultados na classificação sem aporte de grandes recursos computacionais. Os métodos estatísticos potenciais são as Distâncias Euclidiana,Hellinger, Bhattacharyya e Wootters, além das Divergências de Kullback–Leibler (KL) eJensenShannon.Segundo, apresentamos uma proposta e implementação de um classificador baseado naMáquina de Vetor de Suporte (SVM) para o tráfego multimédia P2P (PeertoPeer), comparando os resultados com os testes de KolmogorovSmirnov (KS) e Quiquadrado. Osresultados sugerem que a classificação da SVM com kernel Linear conduz a um melhordesempenho da classificação do que os testes KS e Quiquadrado, dependente do valoratribuído ao parâmetro Self C. O método SVM com kernel Linear e com valores adequados para o parâmetro Self C pode ser uma boa escolha para identificar o tráfego Par a Par(P2P) multimédia cifrado na Internet.Terceiro, apresentamos uma proposta e implementação de dois classificadores baseadosna Divergência de KullbackLeibler (KL) e na Distância Euclidiana, sendo comparadoscom a SVM com kernel Linear, configurado para o parâmestro Self C padrão, apresentareduzi da capacidade de classificar fluxos com base apenas nos tamanhos dos pacotesem relação aos métodos KL e Distância Euclidiana. Os métodos KL e Euclidiano foramcapazes de classificar todas as aplicações testadas, destacandose streaming e P2P, ondepara quase todos os casos foi eficiente identificálas com alta precisão, com reduzido consumo de recursos computacionais.Com base nos resultados obtidos, podese concluir queos métodos KL e Distância Euclidiana são uma alternativa à SVM, porque essas abordagens estatísticas podem operar em tempo real e não precisam de retreinamento cada vezque surge um novo tipo de tráfego.Quarto, apresentamos uma proposta e implementação de um conjunto de classificadorespara o tráfego de Internet cifrado, baseados na Divergência de JensenShannon e nas Distâncias de Hellinger, Bhattacharyya e Wootters, sendo os respetivos resultados comparados com os resultados obtidos com os métodos baseados na Distância Euclidiana, KL,KS e Quiquadrado. Além disso, apresentamos uma análise qualitativa comparativa dosmétodos testados com base nos valores de Kappa e Curvas Característica de Operação doReceptor (ROC). Os resultados sugerem valores médios de precisão acima de 90% para todos os métodos estatísticos, classificados como “confiabilidade quase perfeita” em valoresde Kappa, com exceçãode KS. Esse resultado indica que esses métodos são opções viáveispara a classificação de tráfego cifrado da Internet, em especial a Distância de Hellinger,que apresentou os melhores resultados do valor de Kappa em comparaçãocom os demaisclassificadores. Concluise que os métodos estatísticos considerados podem ser precisos eeconómicos em termos de consumo de recursos computacionais para classificar o tráfegoda rede.A nossa abordagem baseouse na classificação de tráfego de rede Internet, focando emdistâncias e divergências estatísticas. Nós mostramos que é possível classificar e obterbons resultados com métodos estatísticos, equilibrando desempenho de classificação euso de recursos computacionais em termos de CPU e memória. A validação da propostasustenta o argumento desta tese, que propõe a implementação de métodos estatísticoscomo alternativa viável à classificação de tráfego da Internet em relação aos métodos combase no número da porta, na inspeção de carga útil e de ML
Avaliação da qualidade de vídeo escalável em redes sem fio de 3ª geração
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia,
Departamento de Engenharia Elétrica, 2012.Nos últimos anos a transmissão e a entrega de vídeo tem se caracterizado como uma das
mais importantes aplicações das redes de comunicação, e garantir uma boa qualidade do
vídeo recebido pelo usuário final tem sido um grande desafio para a maioria das operadoras. Para esse fim, a utilização de escalabilidade de vídeo tem se apresentado como uma importante opção para streaming tanto em redes cabeadas quanto as baseadas em tecnologias wireless
Esta dissertação apresenta uma análise comparativa entre a qualidade do vídeo
codificado nos padrões H.264/SVC (Scalable Video Coding) e MPEG-4 (Moving Picture Experts Group) parte 2, transmitidos em redes de 3ª geração. Considera-se, para o uso do padrão H.264/SVC, a utilização de esquema adaptativo, que usa lógica fuzzy
(Nebulosa) e feedbacks do receptor, permitindo realizar o ajuste do bitrate associado ao padrão H.264/SVC.
São realizadas comparações, com base em métricas objetivas de avaliação de
qualidade de vídeo, destinadas a estimar a qualidade das sequências de vídeo recebidas
pelo usuário, permitindo inferir sobre a adequação da extensão SVC e do esquema adaptativo usado. Além do esquema adaptativo utilizado para transmissão do streaming, a dissertação apresenta também um conjunto de ferramentas para codificação e decodificação de streaming, bem como ferramentas para aferição da qualidade do vídeo. ______________________________________________________________________________ ABSTRACTIn recent years, video transmission and delivery has been characterized as one of the most important applications of communication networks and ensure a good quality of video received by the end user has been a major challenge for most operators. To this end, the use of video scalability has emerged as an important option for streaming in both based on the wired and wireless technologies
This dissertation presents a comparative analysis of the quality of encoded video standards H.264/SVC (Scalable Video Coding) and MPEG-4 (Moving Picture Experts Group) Part 2, transmitted on 3rd generation networks. It is considered, for the use of standard H.264/SVC, the use of an adaptive scheme, which uses fuzzy logic and feedbacks from the receiver, permitting adjustment of the standard bitrate
associated H.264/SVC. Comparisons are based on objective metrics to evaluate video quality, to estimate the quality of video sequences received by the user, allowing inferences about the adequacy of the SVC extension and adaptive scheme used.
In addition to the adaptive scheme used for transmission of streaming, the
dissertation also presents a set of tools for encoding and decoding of streaming, as well as tools to assess the quality of the video
Impact of Self C Parameter on SVM-based Classification of Encrypted Multimedia Peer-to-Peer Traffic
International audienceHome users are increasingly acquiring, at lower prices, electronic devices such as video cameras, portable audio players, smartphones, and video game devices, which are all interconnected through the Internet. This increase in digital equipment ownership induces a massive production and sharing of multimedia content between these users. The supervised learning machine method Support Vector Machine (SVM) is vastly used in classification. It is capable of recognizing patterns of samples of predefined classes and supports multi-class classification. The purpose of this article is to explore the classification of multimedia P2P traffic using SVMs. To obtain relevant results, it is necessary to properly adjust the so-called Self C parameter. Our results show that SVM with linear kernel leads to the best classification results of P2P video with an F-Measure of 99% for C parameter ranging from 10 to 70 and to the best classification results of P2P file-sharing with an F-Measure of 98% for C parameter ranging from 30 to 70. We also compare these results with the ones obtained with Kolmogorov-Smirnov (KS) tests and Chi-square tests. It is shown that SVM with linear kernel leads to a better classification performance than KS and chi-square tests, which reached an F-Measure of 67% and 70% for P2P filesharing and P2P video, respectively, for KS test, and reached an F-Measure of 85% for both P2P file-sharing and P2P video for chi-square test. Therefore, SVM with linear kernel and suitable values for the Self C parameter can be a good choice for identifying encrypted multimedia P2P traffic on the Internet
Streaming de vídeo escalável em rede celular de 3ª geração
Este artigo apresenta um estudo da avaliação objetiva da qualidade do vídeo codificado no padrão H.264/SVC (Scalable Video Coding), transmitido por meio de redes de comunicação móvel de 3ª Geração (3G). O padrão H.264 permite o ajuste do bit rate de acordo com as condições da rede e pode ser utilizado em diferentes cenários, onde múltiplos fluxos de bits são enviados a partir de uma mesma fonte, com diferenciação na taxa de quadros e de bits por segundo. Com a ajuda de um esquema auto-adaptativo que considera feedbacks dos receptores, o conteúdo codificado na origem é então transmitido de acordo com as condições de rede e capacidade do terminal, permitindo
avaliar o desempenho do esquema adaptativo para streaming de vídeo escalável por meio de redes 3G
Propostas de soluções para seleção de redes em ambientes sem fio heterogêneos
A coexistência de redes de acesso heterogêneas na próxima geração de redes sem fio, traz consigo uma
diversidade de parâmetros de rede, que influenciará diretamente nos quesitos da aplicação do usuário móvel, quando
este se deslocar da rede em que se encontra para outra de tecnologia diferente (wi-fi para 3G, por exemplo). Para
selecionar e classificar de forma adequada as redes de acesso, deve-se priorizar a seleção de rede. Para resolver este
problema, técnicas e estratégias para melhorar a seleção de rede são encontradas na literatura, como lógica fuzzy,
algoritmos genéticos e métodos MADM (Multiple Attribute Decision Making). Com os estudos das técnicas acima
citadas para resolver o problema de escolher a melhor rede de acesso, entre as disponíveis no ambiente, foram criadas
três propostas: a primeira, se baseando na combinação da técnica de lógica fuzzy com dois métodos de tomada de
decisão, AHP (Analytic Hierarchy Process) e GRA (Grey Relation Analysis), a segunda, se baseando somente na
técnica de lógica fuzzy e por fim, a terceira, se baseando somente na técnica GRA. Estas propostas foram comparadas
entre si e os resultados obtidos demonstram que a primeira e a terceira propostas apresentadas, são mais eficientes em
classificar e selecionar a melhor rede de acesso se comparadas com a segunda
Classification of Encrypted Internet Traffic Using Kullback Leibler Divergence and Euclidean Distance
International audienceThe limitations of traditional classification methods based on port number and payload inspection to classify encrypted or obfus-cated Internet traffic, often with randomized port numbers, have lead to significant research efforts focusing on classification approaches based on Machine Learning techniques using Transport Layer statistical features. However, these approaches also have their own limitations, leading to the study of a set of other alternative approaches, including statistics-based approaches. Statistical approaches can be an alternative to machine learning, because in real-time traffic classification with new types of data, the entire traffic classifier has to be retrained in order to adapt to the new change by combining the old training data with the new training data. This article investigates the classification of encrypted traffic using statistical methods applied to network traffic classification. We propose two statistical classifiers for encrypted Internet traffic based on Kullback Leibler divergence and Euclidean distance, which are computed using the flow and packet size obtained from some of the protocols used by applications. In our experiments, we evaluate the two classifiers based on statistical methods and compare them with a classifier based on Support Vector Machine (SVM). During our study, we were able to classify the traffic by using few features without compromising the performance of the classifier. The experimental results illustrate the effectiveness of our models used for traffic classification
Classification of Encrypted Internet Traffic Using Kullback Leibler Divergence and Euclidean Distance
International audienceThe limitations of traditional classification methods based on port number and payload inspection to classify encrypted or obfus-cated Internet traffic, often with randomized port numbers, have lead to significant research efforts focusing on classification approaches based on Machine Learning techniques using Transport Layer statistical features. However, these approaches also have their own limitations, leading to the study of a set of other alternative approaches, including statistics-based approaches. Statistical approaches can be an alternative to machine learning, because in real-time traffic classification with new types of data, the entire traffic classifier has to be retrained in order to adapt to the new change by combining the old training data with the new training data. This article investigates the classification of encrypted traffic using statistical methods applied to network traffic classification. We propose two statistical classifiers for encrypted Internet traffic based on Kullback Leibler divergence and Euclidean distance, which are computed using the flow and packet size obtained from some of the protocols used by applications. In our experiments, we evaluate the two classifiers based on statistical methods and compare them with a classifier based on Support Vector Machine (SVM). During our study, we were able to classify the traffic by using few features without compromising the performance of the classifier. The experimental results illustrate the effectiveness of our models used for traffic classification
A Complete Review on the Application of Statistical Methods for Evaluating Internet Traffic Usage
International audienceInternet traffic classification aims to identify the kind of Internet traffic. With the rise of traffic encryption and multi-layer data encapsulation, some classic classification methods have lost their strength. In an attempt to increase classification performance, Machine Learning (ML) strategies have gained the scientific community interest and have shown themselves promising in the future of traffic classification, mainly in the recognition of encrypted traffic. However, some of these methods have a high computational resource consumption, which make them unfeasible for classification of large traffic flows or in real-time. Methods using statistical analysis have been used to classify real-time traffic or large traffic flows, where the main objective is to find statistical differences among flows or find a pattern in traffic characteristics through statistical properties that allow traffic classification. The purpose of this work is to address statistical methods to classify Internet traffic that were little or unexplored in the literature. This work is not generally focused on discussing statistical methodology. It focuses on discussing statistical tools applied to Internet traffic classification Thus, we provide an overview on statistical distances and divergences previously used or with potential to be used in the classification of Internet traffic. Then, we review previous works about Internet traffic classification using statistical methods, namely Euclidean, Bhattacharyya, and Hellinger distances, Jensen-Shannon and Kullback-Leibler (KL) divergences, Support Vector Machines (SVM), Correlation Information (Pearson Correlation), Kolmogorov-Smirnov and Chi-Square tests, and Entropy. We also discuss some open issues and future research directions on Internet traffic classification using statistical methods