11 research outputs found
Quality of service analysis of internet links with minimal information
Tesis doctoral inédita. Universidad Autónoma de Madrid, Escuela Politécnica Superior, julio de 201
Tracking the Temporal-Evolution of Supernova Bubbles in Numerical Simulations
The study of low-dimensional, noisy manifolds embedded in a higher dimensional space has been extremely useful in many applications, from the chemical analysis of multi-phase flows to simulations of galactic mergers. Building a probabilistic model of the manifolds has helped in describing their essential properties and how they vary in space. However, when the manifold is evolving through time, a joint spatio-temporal modelling is needed, in order to fully comprehend its nature. We propose a first-order Markovian process that propagates the spatial probabilistic model of a manifold at fixed time, to its adjacent temporal stages. The proposed methodology is demonstrated using a particle simulation of an interacting dwarf galaxy to describe the evolution of a cavity generated by a Supernov
Timely Classification of Encrypted or ProtocolObfuscated Internet Traffic Using Statistical Methods
Internet traffic classification aims to identify the type of application or protocol that generated
a particular packet or stream of packets on the network. Through traffic classification,
Internet Service Providers (ISPs), governments, and network administrators can
access basic functions and several solutions, including network management, advanced
network monitoring, network auditing, and anomaly detection. Traffic classification is
essential as it ensures the Quality of Service (QoS) of the network, as well as allowing
efficient resource planning.
With the increase of encrypted or obfuscated protocol traffic on the Internet and multilayer
data encapsulation, some classical classification methods have lost interest from the
scientific community. The limitations of traditional classification methods based on port
numbers and payload inspection to classify encrypted or obfuscated Internet traffic have
led to significant research efforts focused on Machine Learning (ML) based classification
approaches using statistical features from the transport layer. In an attempt to increase
classification performance, Machine Learning strategies have gained interest from the scientific
community and have shown promise in the future of traffic classification, specially
to recognize encrypted traffic.
However, ML approach also has its own limitations, as some of these methods have a
high computational resource consumption, which limits their application when classifying
large traffic or realtime
flows. Limitations of ML application have led to the investigation
of alternative approaches, including featurebased
procedures and statistical methods. In
this sense, statistical analysis methods, such as distances and divergences, have been used
to classify traffic in large flows and in realtime.
The main objective of statistical distance is to differentiate flows and find a pattern in
traffic characteristics through statistical properties, which enable classification. Divergences
are functional expressions often related to information theory, which measure the
degree of discrepancy between any two distributions.
This thesis focuses on proposing a new methodological approach to classify encrypted
or obfuscated Internet traffic based on statistical methods that enable the evaluation of
network traffic classification performance, including the use of computational resources
in terms of CPU and memory. A set of traffic classifiers based on KullbackLeibler
and
JensenShannon
divergences, and Euclidean, Hellinger, Bhattacharyya, and Wootters distances
were proposed. The following are the four main contributions to the advancement
of scientific knowledge reported in this thesis.
First, an extensive literature review on the classification of encrypted and obfuscated Internet traffic was conducted. The results suggest that portbased
and payloadbased
methods are becoming obsolete due to the increasing use of traffic encryption and multilayer
data encapsulation. MLbased
methods are also becoming limited due to their computational
complexity. As an alternative, Support Vector Machine (SVM), which is also
an ML method, and the KolmogorovSmirnov
and Chisquared
tests can be used as reference
for statistical classification. In parallel, the possibility of using statistical methods
for Internet traffic classification has emerged in the literature, with the potential of good
results in classification without the need of large computational resources. The potential
statistical methods are Euclidean Distance, Hellinger Distance, Bhattacharyya Distance,
Wootters Distance, as well as KullbackLeibler
(KL) and JensenShannon
divergences.
Second, we present a proposal and implementation of a classifier based on SVM for P2P
multimedia traffic, comparing the results with KolmogorovSmirnov
(KS) and Chisquare
tests. The results suggest that SVM classification with Linear kernel leads to a better classification
performance than KS and Chisquare
tests, depending on the value assigned to
the Self C parameter. The SVM method with Linear kernel and suitable values for the Self
C parameter may be a good choice to identify encrypted P2P multimedia traffic on the
Internet.
Third, we present a proposal and implementation of two classifiers based on KL Divergence
and Euclidean Distance, which are compared to SVM with Linear kernel, configured
with the standard Self C parameter, showing a reduced ability to classify flows based
solely on packet sizes compared to KL and Euclidean Distance methods. KL and Euclidean
methods were able to classify all tested applications, particularly streaming and P2P,
where for almost all cases they efficiently identified them with high accuracy, with reduced
consumption of computational resources. Based on the obtained results, it can be
concluded that KL and Euclidean Distance methods are an alternative to SVM, as these
statistical approaches can operate in realtime
and do not require retraining every time a
new type of traffic emerges.
Fourth, we present a proposal and implementation of a set of classifiers for encrypted
Internet traffic, based on JensenShannon
Divergence and Hellinger, Bhattacharyya, and
Wootters Distances, with their respective results compared to those obtained with methods
based on Euclidean Distance, KL, KS, and ChiSquare.
Additionally, we present a comparative
qualitative analysis of the tested methods based on Kappa values and Receiver
Operating Characteristic (ROC) curves. The results suggest average accuracy values above
90% for all statistical methods, classified as ”almost perfect reliability” in terms of Kappa
values, with the exception of KS. This result indicates that these methods are viable options
to classify encrypted Internet traffic, especially Hellinger Distance, which showed
the best Kappa values compared to other classifiers. We conclude that the considered
statistical methods can be accurate and costeffective
in terms of computational resource
consumption to classify network traffic. Our approach was based on the classification of Internet network traffic, focusing on statistical
distances and divergences. We have shown that it is possible to classify and obtain
good results with statistical methods, balancing classification performance and the
use of computational resources in terms of CPU and memory. The validation of the proposal
supports the argument of this thesis, which proposes the implementation of statistical
methods as a viable alternative to Internet traffic classification compared to methods
based on port numbers, payload inspection, and ML.A classificação de tráfego Internet visa identificar o tipo de aplicação ou protocolo que
gerou um determinado pacote ou fluxo de pacotes na rede. Através da classificação de
tráfego, Fornecedores de Serviços de Internet (ISP), governos e administradores de rede
podem ter acesso às funções básicas e várias soluções, incluindo gestão da rede, monitoramento
avançado de rede, auditoria de rede e deteção de anomalias. Classificar o tráfego é
essencial, pois assegura a Qualidade de Serviço (QoS) da rede, além de permitir planear
com eficiência o uso de recursos.
Com o aumento de tráfego cifrado ou protocolo ofuscado na Internet e do encapsulamento
de dados multicamadas, alguns métodos clássicos da classificação perderam interesse de
investigação da comunidade científica. As limitações dos métodos tradicionais da classificação
com base no número da porta e na inspeção de carga útil payload para classificar
o tráfego de Internet cifrado ou ofuscado levaram a esforços significativos de investigação
com foco em abordagens da classificação baseadas em técnicas de Aprendizagem
Automática (ML) usando recursos estatísticos da camada de transporte. Na tentativa
de aumentar o desempenho da classificação, as estratégias de Aprendizagem Automática
ganharam o interesse da comunidade científica e se mostraram promissoras no futuro da
classificação de tráfego, principalmente no reconhecimento de tráfego cifrado.
No entanto, a abordagem em ML também têm as suas próprias limitações,
pois alguns
desses métodos possuem um elevado consumo de recursos computacionais, o que limita
a sua aplicação para classificação de grandes fluxos de tráfego ou em tempo real. As limitações
no âmbito da aplicação de ML levaram à investigação de abordagens alternativas,
incluindo procedimentos baseados em características e métodos estatísticos. Neste sentido,
os métodos de análise estatística, tais como distâncias e divergências, têm sido utilizados
para classificar tráfego em grandes fluxos e em tempo real.
A distância estatística possui como objetivo principal diferenciar os fluxos e permite encontrar
um padrão nas características de tráfego através de propriedades estatísticas, que
possibilitam a classificação. As divergências são expressões funcionais frequentemente
relacionadas com a teoria da informação, que mede o grau de discrepância entre duas
distribuições quaisquer.
Esta tese focase
na proposta de uma nova abordagem metodológica para classificação de
tráfego cifrado ou ofuscado da Internet com base em métodos estatísticos que possibilite
avaliar o desempenho da classificação de tráfego de rede, incluindo a utilização de recursos
computacionais, em termos de CPU e memória. Foi proposto um conjunto de classificadores
de tráfego baseados nas Divergências de KullbackLeibler
e JensenShannon
e Distâncias Euclidiana, Hellinger, Bhattacharyya e Wootters. A seguir resumemse
os tese.
Primeiro, realizámos uma ampla revisão de literatura sobre classificação de tráfego cifrado
e ofuscado de Internet. Os resultados sugerem que os métodos baseados em porta e
baseados em carga útil estão se tornando obsoletos em função do crescimento da utilização
de cifragem de tráfego e encapsulamento de dados multicamada. O tipo de métodos
baseados em ML também está se tornando limitado em função da complexidade computacional.
Como alternativa, podese
utilizar a Máquina de Vetor de Suporte (SVM),
que também é um método de ML, e os testes de KolmogorovSmirnov
e Quiquadrado
como referência de comparação da classificação estatística. Em paralelo, surgiu na literatura
a possibilidade de utilização de métodos estatísticos para classificação de tráfego
de Internet, com potencial de bons resultados na classificação sem aporte de grandes recursos
computacionais. Os métodos estatísticos potenciais são as Distâncias Euclidiana,
Hellinger, Bhattacharyya e Wootters, além das Divergências de Kullback–Leibler (KL) e
JensenShannon.
Segundo, apresentamos uma proposta e implementação de um classificador baseado na
Máquina de Vetor de Suporte (SVM) para o tráfego multimédia P2P (PeertoPeer),
comparando
os resultados com os testes de KolmogorovSmirnov
(KS) e Quiquadrado.
Os
resultados sugerem que a classificação da SVM com kernel Linear conduz a um melhor
desempenho da classificação do que os testes KS e Quiquadrado,
dependente do valor
atribuído ao parâmetro Self C. O método SVM com kernel Linear e com valores adequados
para o parâmetro Self C pode ser uma boa escolha para identificar o tráfego Par a Par
(P2P) multimédia cifrado na Internet.
Terceiro, apresentamos uma proposta e implementação de dois classificadores baseados
na Divergência de KullbackLeibler (KL) e na Distância Euclidiana, sendo comparados
com a SVM com kernel Linear, configurado para o parâmestro Self C padrão, apresenta
reduzida
capacidade de classificar fluxos com base apenas nos tamanhos dos pacotes
em relação aos métodos KL e Distância Euclidiana. Os métodos KL e Euclidiano foram
capazes de classificar todas as aplicações testadas, destacandose
streaming e P2P, onde
para quase todos os casos foi eficiente identificálas
com alta precisão, com reduzido consumo
de recursos computacionais.Com base nos resultados obtidos, podese
concluir que
os métodos KL e Distância Euclidiana são uma alternativa à SVM, porque essas abordagens
estatísticas podem operar em tempo real e não precisam de retreinamento cada vez
que surge um novo tipo de tráfego.
Quarto, apresentamos uma proposta e implementação de um conjunto de classificadores
para o tráfego de Internet cifrado, baseados na Divergência de JensenShannon
e nas Distâncias
de Hellinger, Bhattacharyya e Wootters, sendo os respetivos resultados comparados
com os resultados obtidos com os métodos baseados na Distância Euclidiana, KL, KS e Quiquadrado.
Além disso, apresentamos uma análise qualitativa comparativa dos
métodos testados com base nos valores de Kappa e Curvas Característica de Operação do
Receptor (ROC). Os resultados sugerem valores médios de precisão acima de 90% para todos
os métodos estatísticos, classificados como “confiabilidade quase perfeita” em valores
de Kappa, com exceçãode KS. Esse resultado indica que esses métodos são opções viáveis
para a classificação de tráfego cifrado da Internet, em especial a Distância de Hellinger,
que apresentou os melhores resultados do valor de Kappa em comparaçãocom os demais
classificadores. Concluise
que os métodos estatísticos considerados podem ser precisos e
económicos em termos de consumo de recursos computacionais para classificar o tráfego
da rede.
A nossa abordagem baseouse
na classificação de tráfego de rede Internet, focando em
distâncias e divergências estatísticas. Nós mostramos que é possível classificar e obter
bons resultados com métodos estatísticos, equilibrando desempenho de classificação e
uso de recursos computacionais em termos de CPU e memória. A validação da proposta
sustenta o argumento desta tese, que propõe a implementação de métodos estatísticos
como alternativa viável à classificação de tráfego da Internet em relação aos métodos com
base no número da porta, na inspeção de carga útil e de ML.Thesis prepared at Instituto de Telecomunicações Delegação
da Covilhã and at the Department
of Computer Science of the University of Beira Interior, and submitted to the
University of Beira Interior for discussion in public session to obtain the Ph.D. Degree in
Computer Science and Engineering.
This work has been funded by Portuguese FCT/MCTES through national funds and, when
applicable, cofunded
by EU funds under the project UIDB/50008/2020, and by operation
Centro010145FEDER000019
C4
Centro
de Competências em Cloud Computing,
cofunded
by the European Regional Development Fund (ERDF/FEDER) through
the Programa Operacional Regional do Centro (Centro 2020). This work has also been
funded by CAPES (Brazilian Federal Agency for Support and Evaluation of Graduate Education)
within the Ministry of Education of Brazil under a scholarship supported by the
International Cooperation Program CAPES/COFECUB Project
9090134/
2013 at the
University of Beira Interior
Applied Metaheuristic Computing
For decades, Applied Metaheuristic Computing (AMC) has been a prevailing optimization technique for tackling perplexing engineering and business problems, such as scheduling, routing, ordering, bin packing, assignment, facility layout planning, among others. This is partly because the classic exact methods are constrained with prior assumptions, and partly due to the heuristics being problem-dependent and lacking generalization. AMC, on the contrary, guides the course of low-level heuristics to search beyond the local optimality, which impairs the capability of traditional computation methods. This topic series has collected quality papers proposing cutting-edge methodology and innovative applications which drive the advances of AMC
Using MapReduce Streaming for Distributed Life Simulation on the Cloud
Distributed software simulations are indispensable in the study of large-scale life models but often require the use of technically complex lower-level distributed computing frameworks, such as MPI. We propose to overcome the complexity challenge by applying the emerging MapReduce (MR) model to distributed life simulations and by running such simulations on the cloud. Technically, we design optimized MR streaming algorithms for discrete and continuous versions of Conway’s life according to a general MR streaming pattern. We chose life because it is simple enough as a testbed for MR’s applicability to a-life simulations and general enough to make our results applicable to various lattice-based a-life models. We implement and empirically evaluate our algorithms’ performance on Amazon’s Elastic MR cloud. Our experiments demonstrate that a single MR optimization technique called strip partitioning can reduce the execution time of continuous life simulations by 64%. To the best of our knowledge, we are the first to propose and evaluate MR streaming algorithms for lattice-based simulations. Our algorithms can serve as prototypes in the development of novel MR simulation algorithms for large-scale lattice-based a-life models.https://digitalcommons.chapman.edu/scs_books/1014/thumbnail.jp
Development of an intelligent earthwork optimization system
Tese de Doutoramento em Engenharia Civil.Earthworks are often regarded as one of the most costly and time-consuming components of linear infrastructure
constructions (e.g., road, railway and airports). Since actual construction requirements originate higher demands for
productivity and safety in earthwork constructions, the optimal usage of every resource in these tasks is paramount. The
management of resources in an earthwork construction site is, in great part, a function of the allocation of the available
equipment, for which there are a vast number of possible equipment allocation combinations. Simultaneously, while there
is often high competitiveness, where the pressure is to provide the least possible costs and durations, contractors and
project designers often settle for an allocation solution that is mostly based on their own intuition and accumulated
experience. This guarantees neither optimal resource usage, nor a solution associated with minimal cost and duration.
The optimal allocation of equipment in earthwork tasks is a complex problem that requires the study of several different
aspects, as well as the knowledge of a large number of factors. In fact, earthworks are comprised by a combination of
repetitive, sequential, and interdependent activities based on heavy mechanical equipment (i.e., resources), such as
excavators, dumper trucks, bulldozers and compactors. In order to optimally allocate the available resources, knowledge
regarding their specifications (e.g., capacity, weight, horsepower) and the work conditions to which they will be subjected
(e.g., material types, required and available volumes in embankment and excavation fronts, respectively) is essential. This
knowledge can be translated into the productivity (i.e., work rate) of each piece of equipment when working under a
specific set of conditions. Moreover, since earthwork tasks are inherently sequential and interdependent, the interaction
between the allocated equipment must be taken into account. A typical example of this is the need for matching the work
rate of an excavator plant with the capacity of a truck plant to haul the excavated material to the embankment fronts.
Given the non-trivial characteristics of the earthwork allocation problem, conventional Operation Research (e.g., linear
programming) and blind search methods are infeasible. As such, a potential solution is to adopt metaheuristics – modern
optimization methods capable of searching large space regions under a reasonable use of computational resources. While
this may address the issue of optimizing such a complex problem, the lack of knowledge regarding optimization parameters
under different work conditions, such as equipment productivity, calls for a different approach. Bearing in mind the
availability of large databases, including in the earthworks area, that have been gathered in recent years by construction
companies, technologies like data mining (DM) come forward as ideal tools for solving this problem. Indeed, the learning
capabilities of DM algorithms can be applied to databases embodying the productivity of several equipment types when
subjected to different work conditions. The extracted knowledge can then be used to estimate the productivity of the
available equipment under similar work conditions. Furthermore, as previously referred, since earthwork tasks include the
material hauling from excavation to embankment fronts, it also becomes imperative to analyse and optimize the possible
transportation networks. In this context, the use of geographic information systems provides an easy method to study the
possible trajectories for transportation equipment in a construction site, ultimately allowing for a choice of the best paths to
improve the workflow.
This work explores the integration of different technologies in order to allow for an optimization of the earthworks process.
This is translated in the form of an evolutionary multi-criteria optimization system, capable of searching for the best
allocation of the available equipment that minimizes a set of goals (e.g., cost, duration, environmental impact). The results
stemming from the application of the system to a case study in a Portuguese earthwork construction site are presented.
These comprise the assessment of the system performance, including a comparison between different optimization
methods. Furthermore, an analysis regarding the improvement of workflow in the construction site after the implementation
of the system is discussed, in the context of several comparisons between original (i.e., obtained by manual design) and
optimized allocation solutions. Ultimately, these results illustrate the potential and importance of using this kind of
technologies in the management and optimization of earthworks.Em projetos de construção de infraestruturas de transporte lineares (e.g., estradas, vias férreas e aeroportos), as
terraplenagens são geralmente consideradas um dos componentes com custos e tempos de execução mais elevados. Tendo
em conta que cada vez mais é exigido um aumento na produtividade e segurança no contexto das construções de
terraplenagens, torna-se fulcral a otimização de todas as tarefas relacionadas com este processo. A gestão de recursos num
estaleiro de terraplenagens é, em grande parte, função da alocação do equipamento mecânico disponível, para a qual existe
um número quase infinito de soluções possíveis em cada caso. Simultaneamente, embora se verifique um alto nível de
competitividade nesta área, onde o objetivo é obter custos e durações de execução o mais baixos possíveis, o planeamento
das tarefas de terraplenagens é em grande parte baseado na experiência acumulada dos engenheiros e especialistas. Porém,
tais métodos não garantem nem uma utilização ótima dos recursos disponíveis, nem uma solução associada ao custo e
duração de execução mínimos.
A alocação ótima de equipamento mecânico em tarefas de terraplenagens é um problema complexo que requer o estudo de
vários aspectos distintos, assim como o conhecimento de um elevado número de fatores. De facto, estas tarefas são
demarcadas por combinações de atividades repetitivas, fortemente baseadas no uso de equipamento mecânico (i.e.,
recursos), tal como escavadoras, dumpers, espalhadores e compactadores. Para que seja possível a sua alocação ótima, é
essencial o conhecimento das suas especificações (e.g., capacidade, peso, potência) e das condições a que estão sujeitos
durante a sua atividade (e.g., tipos de material, volumes disponíveis em frentes de escavação e necessários em frentes de
aterro). Este conhecimento pode ser traduzido na produtividade de cada equipamento quando sujeito a determinadas
condições de trabalho. Para além disso, uma vez que as terraplenagens consistem em tarefas inerentemente sequenciais e
interdependentes, a interação entre os equipamentos tem de ser tomada em consideração. Um exemplo típico deste aspecto
pode ser ilustrado pela necessidade de sincronizar a produtividade de uma equipa de escavadoras com a de uma equipa de
dumpers, para que seja possível um fluxo constande de escavação e transporte de geomateriais das frentes de escavação
para as frentes de aterro.
Tendo em conta as características não triviais do problema de alocação em terraplenagens, os métodos convencionais de
procura de soluções, tais como Investigação Operacional (e.g. programação linear) e busca exaustiva são impraticáveis.
Assim, uma potencial solução é a adoção de metaheurísticas – métodos de otimização moderna capazes de efetuar a busca
de soluções em espaços de procura extensos com níveis de exigência computacional razoáveis. Embora estes métodos
sejam práticos para a otimização de problemas de elevado nível de complexidade, como é o caso das terraplenagens, existe
ainda a necessidade de abordar o problema relacionado com a escassez de conhecimento de vários parâmetros necessários à
otimização, tais como a produtividade dos equipamentos sujeitos a diferentes condições de trabalho. Considerando os
recentes avanços da tecnologia e o aumento da prática de recolha de dados, verifica-se a disponibilidade de extensas bases
de dados de construção, incluindo na área de terraplenagens. Neste sentido, tecnologias tais como o data mining (DM)
surgem como ferramentas ideais para abordar esse problema. De fato, as capacidades de aprendizagem dos algoritmos de
DM podem ser aplicadas às bases de dados existentes com informação relativa à produtividade de vários tipos de
equipamento sujeitos a diferentes condições de trabalho. Mediante este processo, o conhecimento extraído pode então ser
usado em novos casos para estimar a produtividade de equipamentos em condições semelhantes. Adicionalmente, uma vez
que as tarefas de terraplenagens incluem o transporte de materiais de frentes de escavação para frentes de aterro, como
previamente referido, torna-se ainda imperativa a análise e otimização das potenciais trajetórias de transporte ao longo do
estaleiro. Neste contexto, a utilização de sistemas de informação geográficos providencia um método eficaz de estudo e
escolha das melhores trajetórias para o equipamento de transporte, melhorando o fluxo de trabalho no estaleiro.
Este trabalho explora a integração de diferentes tecnologias tendo em vista a otimização das tarefas de terraplenagens. Isto
concretiza-se sob a forma de um sistema de otimização evolutiva multi-objetivo, capaz de eleger a melhor distribuição dos
equipamentos de terraplenagens disponíveis que minimiza um determinado conjunto de objetivos (e.g., custo, duração,
impacto ambiental). São apresentados os resultados decorrentes da aplicação do sistema desenvolvido num caso de estudo,
associado a um estaleiro de terraplenagens em Portugal. Estes abrangem a avaliação do desempenho do sistema de
otimização, incluindo a comparação de vários métodos de otimização. Para além disso, é realizada uma análise relativa ao
melhoramento do fluxo de trabalho no estaleiro após a implementação do sistema, sendo enquadrada numa série de
comparações entre as soluções originais (i.e., obtidas pelos métodos convencionais de dimensionamento) e as soluções
otimizadas correspondentes. Em última análise, estes resultados ilustram o potencial e a importância da utilização deste
tipo de tecnologias na gestão e otimização das terraplenagens.Fundação para a Ciência e a Tecnologia (FCT) SFRH/BD/71501/2010
Protein Structure
Since the dawn of recorded history, and probably even before, men and women have been grasping at the mechanisms by which they themselves exist. Only relatively recently, did this grasp yield anything of substance, and only within the last several decades did the proteins play a pivotal role in this existence. In this expose on the topic of protein structure some of the current issues in this scientific field are discussed. The aim is that a non-expert can gain some appreciation for the intricacies involved, and in the current state of affairs. The expert meanwhile, we hope, can gain a deeper understanding of the topic
Applied Methuerstic computing
For decades, Applied Metaheuristic Computing (AMC) has been a prevailing optimization technique for tackling perplexing engineering and business problems, such as scheduling, routing, ordering, bin packing, assignment, facility layout planning, among others. This is partly because the classic exact methods are constrained with prior assumptions, and partly due to the heuristics being problem-dependent and lacking generalization. AMC, on the contrary, guides the course of low-level heuristics to search beyond the local optimality, which impairs the capability of traditional computation methods. This topic series has collected quality papers proposing cutting-edge methodology and innovative applications which drive the advances of AMC