45 research outputs found

    A Cross-layer Monitoring Solution based on Quality Models

    Get PDF
    In order to implement cross-organizational workflows and to realize collaborations between small and medium enterprises (SMEs), the use ofWeb service technology, Service-Oriented Architecture and Infrastructure-as-a- Service (IaaS) has become a necessity. Based on these technologies, the need for monitoring the quality of (a) the acquired resources, (b) the services offered to the final users and (c) the workflow-based procedures used by SMEs in order to use services, has come to the fore. To tackle this need, we propose four metric Quality Models that cover quality terms for the Workflow, Service and Infrastructure layers and an additional one for expressing the equality and inter-dependency relations between the previous ones. To support these models we have implemented a cross-layer monitoring system, whose main advantages are the layer-specific metric aggregators and an event pattern discoverer for processing the monitoring log. Our evaluation is based on the performance and accuracy aspects of the proposed cross-layer monitoring system

    Time series database in Industrial IoT and its testing tool

    Get PDF
    Abstract. In the essence of the Industrial Internet of Things is data gathering. Data is time and event-based and hence time series data is key concept in the Industrial Internet of Things, and specific time series database is required to process and store the data. Solution development and choosing the right time series database for Industrial Internet of Things solution can be difficult. Inefficient comparison of time series databases can lead to wrong choices and consequently to delays and financial losses. This thesis is improving the tools to compare different time series databases in context of the Industrial Internet of Things. In addition, the thesis identifies the functional and non-functional requirements of time series database in Industrial Internet of Things and designs and implements a performance test bench. A practical example of how time series databases can be compared with identified requirements and developed test bench is also provided. The example is used to examine how selected time series databases fulfill these requirements. Eight functional requirements and eight non-functional requirements were identified. Functional requirements included, e.g., aggregation support, information models, and hierarchical configurations. Non-functional requirements included, e.g., scalability, performance, and lifecycle. Developed test bench took Industrial Internet of Things point of view by testing the database in three scenarios: write heavy, read heavy, and concurrent write and read operations. In the practical example, ABB’s cpmPlus History, InfluxDB, and TimescaleDB were evaluated. Both requirement evaluation and performance testing resulted that cpmPlus History performed best, InfluxDB second best, and TimescaleDB the worst. cpmPlus History showed extensive support for the requirements and best performance in all performance test cases. InfluxDB showed high performance for data writing while TimescaleDB showed better performance for data reading.Aikasarjatietokanta teollisuuden esineiden internetissä ja sen testipenkki. Tiivistelmä. Teollisuuden esineiden internetin ytimessä on tiedon keruu. Tieto on aika ja tapahtuma pohjaista ja sen vuoksi aikasarjatieto on teollisuuden esineiden internetin avainkäsitteitä. Prosessoidakseen tällaista tietoa tarvitaan erityinen aikasarjatietokanta. Sovelluskehitys ja oikean aikasarjatietokannan valitseminen teollisuuden esineiden internetin ratkaisuun voi olla vaikeaa. Tehoton aikasarjatietokantojen vertailu voi johtaa vääriin valintoihin ja siten viiveisiin sekä taloudellisiin tappioihin. Tässä diplomityössä kehitetään työkaluja, joilla eri aikasarjatietokantoja teollisuuden esineiden internetin ympäristössä voidaan vertailla. Diplomityössä tunnistetaan toiminnalliset ja ei-toiminnalliset vaatimukset aikasarjatietokannalle teollisuuden esineiden internetissä ja suunnitellaan ja toteutetaan suorituskykytestipenkki aikasarjatietokannoille. Työ tarjoaa myös käytännön esimerkin kuinka aikasarjatietokantoja voidaan vertailla tunnistetuilla vaatimuksilla ja kehitetyllä testipenkillä. Esimerkkiä hyödynnetään tutkimuksessa, jossa selvitetään kuinka nykyiset aikasarjatietokannat täyttävät tunnistetut vaatimukset. Diplomityössä tunnistettiin kahdeksan toiminnallista ja kahdeksan ei-toiminnallista vaatimusta. Toiminnallisiin vaatimuksiin sisältyi mm. aggregoinnin tukeminen, informaatiomallit ja hierarkkiset konfiguraatiot. Ei-toiminnallisiin vaatimuksiin sisältyi mm. skaalautuvuus, suorituskyky ja elinkaari. Kehitetty testipenkki otti teollisuuden esineiden internetin näkökulman kolmella eri testiskenaariolla: kirjoituspainoitteinen, lukemispainoitteinen ja yhtäaikaiset kirjoitus- ja lukemisoperaatiot. Käytännön esimerkissä ABB:n cpmPlus History, InfluxDB ja TimescaleDB tietokannat olivat arvioitavina. Sekä vaatimusten arviointi että suorituskykytestit osoittivat cpmPlus History:n suoriutuvan parhaiten, InfluxDB:n toiseksi parhaiten ja TimescaleDB:n huonoiten. cpmPlus History tuki tunnistettuja vaatimuksia laajimmin ja tarjosi parhaan suorituskyvyn kaikissa testiskenaarioissa. InfluxDB antoi hyvän suorituskyvyn tiedon kirjoittamiselle, kun vastaavasti TimescaleDB osoitti parempaa suorituskykyä tiedon lukemisessa

    Orchestration Mechanism Impact on Virtual Network Function Throughput

    Get PDF
    Virtual Network Function (VNF) has gained importance in the IT industry, especially in the telecommunication industry, because a VNF runs network services in commodity hardware instead of dedicated hardware, thereby increasing the scalability and agility. The container technology is a useful tool for the VNF because it is lightweight, portable and scalable. The container technology shortens the product development cycle by easing the service deployment and maintenance. The telecommunication industry uses service uptime as an important gauge to evaluate if a service is of carrier grade, and keeping services up and running generates most of the maintenance costs. These costs can be reduced by container orchestration such as Kubernetes. Kubernetes handles the automation of deployment, scaling and management for applications with the help of orchestration mechanisms, such as the scheduler and load-balancers. As a result of those mechanisms, the VNFs running in a Kubernetes cluster can reach high availability and flexibility. However, the impact of the mechanisms on VNF throughput has not been studied in detail. The objective of this thesis is to evaluate the influence of Kubernetes orchestration mechanisms on VNF throughput and Quality of Service (QoS). This objective is achieved by means of measurements run with a packet-forwarding service in a Kubernetes cluster. Based on the evaluations, it is concluded that the VNF throughput is dependent on 6 parameters: CPU types, CPU isolation, number of Pods, location of Pods, location of load-balancer controllers, and load-balancing techniques

    Design and evaluation of a scalable Internet of Things backend for smart ports

    Get PDF
    Internet of Things (IoT) technologies, when adequately integrated, cater for logistics optimisation and operations' environmental impact monitoring, both key aspects for today's EU ports management. This article presents Obelisk, a scalable and multi-tenant cloud-based IoT integration platform used in the EU H2020 PortForward project. The landscape of IoT protocols being particularly fragmented, the first role of Obelisk is to provide uniform access to data originating from a myriad of devices and protocols. Interoperability is achieved through adapters that provide flexibility and evolvability in protocol and format mapping. Additionally, due to ports operating in a hub model with various interacting actors, a second role of Obelisk is to secure access to data. This is achieved through encryption and isolation for data transport and processing, respectively, while user access control is ensured through authentication and authorisation standards. Finally, as ports IoTisation will further evolve, a third need for Obelisk is to scale with the data volumes it must ingest and process. Platform scalability is achieved by means of a reactive micro-services based design. Those three essential characteristics are detailed in this article with a specific focus on how to achieve IoT data platform scalability. By means of an air quality monitoring use-case deployed in the city of Antwerp, the scalability of the platform is evaluated. The evaluation shows that the proposed reactive micro-service based design allows for horizontal scaling of the platform as well as for logarithmic time complexity of its service time

    BIM and sensor-based data management system for construction safety monitoring

    Get PDF
    Purpose This research aims to investigate the integration of real-time monitoring of thermal conditions within confined work environments through wireless sensor network (WSN) technology when integrated with building information modelling (BIM). A prototype system entitled confined space monitoring system (CoSMoS), which provides an opportunity to incorporate sensor data for improved visualization through new add-ins to BIM software, was then developed. Design/methodology/approach An empirical study was undertaken to compare and contrast between the performances (over a time series) of various database models to find a back-end database storage configuration that best suits the needs of CoSMoS. Findings Fusing BIM data with information streams derived from wireless sensors challenges traditional approaches to data management. These challenges encountered in the prototype system are reported upon and include issues such as hardware/software selection and optimization. Consequently, various database models are explored and tested to find a database storage that best suits the specific needs of this BIM-wireless sensor technology integration. Originality value This work represents the first tranche of research that seeks to deliver a fully integrated and advanced digital built environment solution for automating the management of health and safety issues on construction sites. </jats:sec

    Time Series Management Systems:A Survey

    Get PDF
    The collection of time series data increases as more monitoring and automation are being deployed. These deployments range in scale from an Internet of things (IoT) device located in a household to enormous distributed Cyber-Physical Systems (CPSs) producing large volumes of data at high velocity. To store and analyze these vast amounts of data, specialized Time Series Management Systems (TSMSs) have been developed to overcome the limitations of general purpose Database Management Systems (DBMSs) for times series management. In this paper, we present a thorough analysis and classification of TSMSs developed through academic or industrial research and documented through publications. Our classification is organized into categories based on the architectures observed during our analysis. In addition, we provide an overview of each system with a focus on the motivational use case that drove the development of the system, the functionality for storage and querying of time series a system implements, the components the system is composed of, and the capabilities of each system with regard to Stream Processing and Approximate Query Processing (AQP). Last, we provide a summary of research directions proposed by other researchers in the field and present our vision for a next generation TSMS.Comment: 20 Pages, 15 Figures, 2 Tables, Accepted for publication in IEEE TKD

    Developing reliability metrics and validation tools for datasets with deep linguistic information

    Get PDF
    Tese de mestrado em Engenharia Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2011Grande parte das ferramentas de processamento de linguagem natural utilizadas hoje em dia, desde os anotadores morfossintácticos (POS taggers) até aos analisadores sintáticos (parsers), necessita de corpora anotados com a informação linguística necessária para efeitos de treino e avaliação. A qualidade dos resultados obtidos por estas ferramentas está directamente ligada à qualidade dos corpora utilizados no seu treino ou avaliação. Como tal, é do mais alto interesse construir corpora anotados para treino ou avaliação com o maior nível de qualidade. Tal como as técnicas e as ferramentas da área do processamento de linguagem natural se vão tornando mais sofisticadas e tecnicamente mais complexas, também a quantidade e profundidade da informação contida nos corpora anotados tem vindo a crescer. O estado da arte actual consiste em corpora anotados com informação gramatical profunda, isto é anotação que contém não só a função ou tipo de cada elemento mas também os tipos das relações entre os diferentes elementos, sejam estas directas ou de longa distância. Esta quantidade crescente de informação contida na anotação dos corpora torna a tarefa da sua anotação crescentemente mais complexa, daí existir a necessidade de garantir que este processo resulta em corpora da melhor qualidade possível. No seguimento desta crescente complexidade, as técnicas utilizadas para o processo de anotação também tem sofrido alterações. A quantidade de informação a ser introduzida no corpus é demasiado complexa para ser introduzida manualmente, portanto este processo é agora conduzido por uma gramática computacional, que produz todas as possíveis representações gramaticais para cada frase, e de seguida um ou mais anotadores humanos escolhem a representação gramatical que melhor se aplica a frase em questão. Este processo garante uma uniformidade no formato da anotação, bem como consistência total nas etiquetas utilizadas, problemas recorrentes em corpus anotados manualmente. O objectivo desta dissertação é o de identificar um método ou uma métrica que possibilite a avaliação da tarefa de anotação de corpora com informação gramatical profunda, bem como uma aplicação que permita a recolha dos dados necessários referentes à tarefa de anotação, e que calcule a métrica ou métricas necessárias para validação e avaliação da tarefa. Com este objectivo em mente, foi inicialmente explorado o trabalho de fundo da tarefa de anotação, tanto na vertente linguística como na vertente de processamento de linguagem natural. Na vertente linguística, devem ser realçadas algumas noções base, tais como a de corpus, que se trata de um acervo de material linguístico originário de múltiplas fontes, tais como emissões de rádio, imprensa escrita e até conversas do dia-a-dia. Um corpus anotado é um corpus em que o material foi explicitamente enriquecido com informação linguística que é implícita para um falante nativo da língua, com o objectivo de auxiliar ao processamento do material por parte de máquinas. A anotação de corpus por parte do grupo NLX está a ser feita recorrendo a um esquema de anotação duplamente cego, em que dois anotadores escolhem de um conjunto de possíveis representações gramaticais atribuídas a cada frase pela gramática LXGram, a que para si é a mais correcta. Estas representações são posteriormente adjudicadas por um terceiro anotador. O resultado desta adjudicação é a representação que integra o corpus anotado. O foco deste trabalho é o de avaliar a qualidade e fiabilidade do material resultante deste processo de anotação. O processo de anotação pode ser visto como o processo de atribuição de categorias a itens, neste caso, a atribuição de categorias ou informação linguística a palavras ou multi-palavras de uma frase. Neste caso concreto, dada uma lista de discriminantes semânticos, os anotadores devem decidir quais pertencem ou não à melhor representação gramatical de uma dada frase. Na literatura, existem várias abordagens para a avaliação de anotação com esquemas de anotação simples, por exemplo, com anotação morfossintáctica (POS tagging), como é o caso do Cohen’s Kappa (Cohen, 1960), ou k, e suas variantes, tais como o S (Bennett et al., 1954), _ (Scott, 1955) ou o próprio k. Todas estas métricas se baseiam na mesma ideia de que a taxa de concordância entre anotadores (inter-annotator agreement) pode ser calculada tendo em conta dois valores: a concordância observada (Ae), isto é a quantidade de informação em relação à qual os anotadores concordam; e a concordância esperada (Ao), ou seja a quantidade de informação que se esperaria obter entre os anotadores se a anotação fosse feita aleatoriamente. Todas as métricas derivadas directamente do Cohen’s Kappa, calculam também a taxa de concordância da mesma forma, recorrendo à fórmula: concordância = Ao–Ae 1–Ae. O ponto de divergência entre as diferentes abordagens está na maneira de calcular a taxa de concordância esperada. Estas divergências consistem na representação da taxa de concordância esperada através de diferentes distribuições estatísticas. Existe outro tipo de métricas, normalmente utilizado para a avaliação de análises sintáticas que também são aplicadas neste tipo de tarefa. Métricas como são o caso do Parseval (Black et al., 1991) e do Leaf Ancestor (Sampson and Babarczy, 2003) que frase a frase comparam a análise sintática dada pelo analisador sintático automático com um padrão dourado (análise sintática considerada correcta para a frase). Contudo, a complexidade da tarefa a ser avaliada exige não só uma métrica sólida, mas também que a sua granularidade seja suficiente para distinguir pequenas divergências que podem sustentar resultados que aparentam ser contraditórios. Tendo em conta a tarefa a ser avaliada, a abordagem mais granular possível é a que consiste em comparar individualmente cada decisão sobre cada discriminante para uma dada frase. Portanto, visto que o objectivo é obter a maior granularidade possível, para a métrica desenvolvida Y-Option Kappa, a taxa de acordo observado pode ser calculada pela razão entre o número de discriminantes com decisões idênticas, ou opções, e o número total de discriminantes disponíveis para uma dada frase. Como cada discriminantes tem dois valores possíveis, isto é, ou pertence ou não à melhor representação gramatical, a taxa de concordância esperada pode ser considerada uma distribuição uniforme de decisões binárias, o que significa que o acordo esperado para caso de decisão aleatória será 0,5. A métrica Y-Option Kappa é calculada através da mesma fórmula utilizada pelo Cohen’s K e suas variantes. A tarefa de anotação é auxiliada por um pacote de ferramentas linguísticas designado LOGON, pacote este que permite a anotação dinâmica de corpus, isto é as frases são analisadas dinamicamente pela gramática computacional conforme as decisões sobre os discriminantes são tomadas pelos anotadores. Isto permite ter acesso às representações gramaticais resultantes, possibilitando assim uma melhor percepção do resultado das decisões tomadas. A informação resultante do processo de anotação é guardada em ficheiros de log que podem ser utilizados para reconstruir a representação gramatical resultante para a frase. Este pacote é bastante útil e fornece uma ajuda preciosa no processo de anotação. Contudo, os ficheiros de log guardam apenas a informação necessária para a reconstrução da representação gramatical final, o que resulta numa lista de discriminantes que pode ser incompleta para os propósitos de avaliação do processo de anotação. Por exemplo, quando um anotador rejeita uma frase, ou seja, considera que não existe no conjunto possível de representações gramaticais uma que seja considerada correcta, apenas os discriminantes considerados até ao momento da rejeição são registados no ficheiro de log. Para resolver este problema, algumas adaptações tiveram de ser feitas à ideia original da métrica Y-Options K para que esta fosse aplicável aos dados recolhidos. Existem três casos gerais que resultam em conjuntos de informação concretos nos ficheiros de log. Estes três casos são: • Cada anotador aceita uma representação gramatical como óptima para a frase: Todas as opções estão presentes e podem ser comparadas correctamente • Pelo menos um dos anotadores rejeita qualquer representação gramatical para a frase: Existe apenas uma lista parcial das opções tomadas (para esse anotador). Para resolver estes casos, são estimados sobre os casos em que toda a informação está disponível valores médios que são depois aplicados a casos em que a informação não esteja disponível. A métrica é assim calculada frase a frase, e o resultado final apresentado é a média aritmética da métrica para todas as frases. Foi desenvolvida uma aplicação que permite através dos ficheiros de log determinar o valor da métrica, bem como alguma informação adicional para auxílio da tarefa de adjudicação. Um objectivo futuro seria o de alterar as aplicações do pacote LOGON, mais concretamente o [incr tsdb()] de modo a que este guarde todos os discriminantes para cada frase, podendo assim dispensar o cálculo de estimativas.The purpose of this dissertation is to propose a reliability metric and respective validation tools for corpora annotated with deep linguistic information. The annotation of corpus with deep linguistic information is a complex task, and therefore is aided by a computational grammar. This grammar generates all the possible grammatical representations for sentences. The human annotators select the most correct analysis for each sentence, or reject it if no suitable representation is achieved. This task is repeated by two human annotators under a double-blind annotation scheme and the resulting annotations are adjudicated by a third annotator. This process should result in reliable datasets since the main purpose of this dataset is to be the training and validation data for other natural language processing tools. Therefore it is necessary to have a metric that assures such reliability and quality. In most cases, the metrics uses for shallow annotation or parser evaluation have been used for this same task. However the increased complexity demands a better granularity in order to properly measure the reliability of the dataset. With that in mind, I suggest the usage of a metric based on the Cohen’s Kappa metric that instead of considering the assignment of tags to parts of the sentence, considers the decision at the level of the semantic discriminants, the most granular unit available for this task. By comparing each annotator’s options it is possible to evaluate with a high degree of granularity how close their analysis were for any given sentence. An application was developed that allowed the application of this model to the data resulting from the annotation process which was aided by the LOGON framework. The output of this application not only has the metric for the annotated dataset, but some information related with divergent decision with the intent of aiding the adjudication process

    An SDN-based solution for horizontal auto-scaling and load balancing of transparent VNF clusters

    Get PDF
    © 2021 by the authors; licensee MDPI, Basel, Switzerland. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution License (http://creativecommons.org/licenses/by/4.0/)This paper studies the problem of the dynamic scaling and load balancing of transparent virtualized network functions (VNFs). It analyzes different particularities of this problem, such as loop avoidance when performing scaling-out actions, and bidirectional flow affinity. To address this problem, a software-defined networking (SDN)-based solution is implemented consisting of two SDN controllers and two OpenFlow switches (OFSs). In this approach, the SDN controllers run the solution logic (i.e., monitoring, scaling, and load-balancing modules). According to the SDN controllers instructions, the OFSs are responsible for redirecting traffic to and from the VNF clusters (i.e., load-balancing strategy). Several experiments were conducted to validate the feasibility of this proposed solution on a real testbed. Through connectivity tests, not only could end-to-end (E2E) traffic be successfully achieved through the VNF cluster, but the bidirectional flow affinity strategy was also found to perform well because it could simultaneously create flow rules in both switches. Moreover, the selected CPU-based load-balancing method guaranteed an average imbalance below 10% while ensuring that new incoming traffic was redirected to the least loaded instance without requiring packet modification. Additionally, the designed monitoring function was able to detect failures in the set of active members in near real-time and active new instances in less than a minute. Likewise, the proposed auto-scaling module had a quick response to traffic changes. Our solution showed that the use of SDN controllers along with OFS provides great flexibility to implement different load-balancing, scaling, and monitoring strategies.Postprint (published version

    Time Series Management Systems: A 2022 Survey

    Get PDF
    corecore