3 research outputs found

    An Architecture for Distributed Video Stream Processing in IoMT Systems

    Get PDF
    In Internet of Multimedia Things (IoMT) systems, Internet cameras installed in buildings and streets are major sources of sensing data. From these large-scale video streams, it is possible to infer various information providing the current status of the monitored environments. Some events of interest that have occurred in these observed locations produce insights that might demand near real-time responses from the system. In this context, the event processing depends on data freshness, and computation time, otherwise, the processing results and activities become less valuable or even worthless. An encouraging plan to support the computational demand for latency-sensitive applications of largely geo-distributed systems is applying Edge Computing resources to perform the video stream processing stages. However, some of these stages use deep learning methods for the detection and identification of objects of interest, which are voracious consumers of computational resources. To address these issues, this work proposes an architecture to distribute the video stream processing stages in multiple tasks running on different edge nodes, reducing network overhead and consequent delays. The Multilevel Information Fusion Edge Architecture (MELINDA) encapsulates the data analytics algorithms provided by machine learning methods in different types of processing tasks organized by multiple data-abstraction levels. This distribution strategy, combined with the new category of Edge AI hardware specifically designed to develop smart systems, is a promising approach to address the resource limitations of edge devices

    Elaborazione audio dei Segnali con reti neurali profonde per la rilevazione di situazioni di pericolo

    Get PDF
    Nei sistemi di sorveglianza moderni, soluzioni composte dall’unione di telecamere a circuito chiuso e tecniche di intelligenza artificiale, rappresentano lo strumento principale per fronteggiare minacce e pericoli in diversi ambienti: ambienti pubblici, abitazioni private, uffici, strutture critiche come ospedali o scuole. Questi sistemi vengono equipaggiati da robuste tecniche di computer vision, le quali permettono di riconoscere e rilevare oggetti e persone, attraverso sequenze di immagini in maniera automatica. L’obiettivo è predire l’azione degli elementi osservati in un determinato scenario per aumentare l’efficienza globale di un sistema di sorveglianza. Tuttavia, l’analisi delle immagini può subire importanti cali di prestazioni in diverse circostanze, dovuti alla natura dei sensori video e dalle limitazioni che essi introducono. Nel progetto di tesi presentato, si discute lo sviluppo di un sistema di riconoscimento di situazioni di pericolo i cui dati elaborati sono acquisiti da sensori audio. Negli ultimi anni, la sorveglianza audio ha riscosso un grande interesse grazie alla flessibilità di utilizzo, sia per la diversità delle situazioni in cui può essere impiegata, sia per la possibilità di essere combinata con la controparte video in sistemi ibridi. Il sistema proposto è costituito da una rete neurale convoluzionale, la cui architettura si ispira fortemente alla VGG19. Al suo ingresso vengono fornite immagini costruite a partire da porzioni di stream audio e trasformate in rappresentazioni tempo-frequenza quali: spettrogramma, spettrogramma in scala Mel e gammatonogramma. L’obiettivo è stato quello di costruire un modello di classificazione di eventi audio di pericolo, per i quali si sono considerati suoni come: vetri che si infrangono, colpi di pistola e urla. Successivamente si è condotto un confronto sia tra le performance indotte dall’utilizzo delle tre rappresentazioni, sia tra la rete neurale e una tecnica di classificazione standard quale l’SV
    corecore