18 research outputs found

    A Review of Designs and Applications of Echo State Networks

    Full text link
    Recurrent Neural Networks (RNNs) have demonstrated their outstanding ability in sequence tasks and have achieved state-of-the-art in wide range of applications, such as industrial, medical, economic and linguistic. Echo State Network (ESN) is simple type of RNNs and has emerged in the last decade as an alternative to gradient descent training based RNNs. ESN, with a strong theoretical ground, is practical, conceptually simple, easy to implement. It avoids non-converging and computationally expensive in the gradient descent methods. Since ESN was put forward in 2002, abundant existing works have promoted the progress of ESN, and the recently introduced Deep ESN model opened the way to uniting the merits of deep learning and ESNs. Besides, the combinations of ESNs with other machine learning models have also overperformed baselines in some applications. However, the apparent simplicity of ESNs can sometimes be deceptive and successfully applying ESNs needs some experience. Thus, in this paper, we categorize the ESN-based methods to basic ESNs, DeepESNs and combinations, then analyze them from the perspective of theoretical studies, network designs and specific applications. Finally, we discuss the challenges and opportunities of ESNs by summarizing the open questions and proposing possible future works.Comment: 37 pages, 5 figures, 2 table

    Representation Learning with Fine-grained Patterns

    Full text link
    With the development of computational power and techniques for data collection, deep learning demonstrates a superior performance over most of existing algorithms on benchmark data sets. Many efforts have been devoted to studying the mechanism of deep learning. One important observation is that deep learning can learn the discriminative patterns from raw materials directly in a task-dependent manner. Therefore, the representations obtained by deep learning outperform hand-crafted features significantly. However, those patterns are often learned from super-class labels due to a limited availability of fine-grained labels, while fine-grained patterns are desired in many real-world applications such as visual search in online shopping. To mitigate the challenge, we propose an algorithm to learn the fine-grained patterns sufficiently when only super-class labels are available. The effectiveness of our method can be guaranteed with the theoretical analysis. Extensive experiments on real-world data sets demonstrate that the proposed method can significantly improve the performance on target tasks corresponding to fine-grained classes, when only super-class information is available for training

    Graph Neural Networks and Reinforcement Learning for Behavior Generation in Semantic Environments

    Full text link
    Most reinforcement learning approaches used in behavior generation utilize vectorial information as input. However, this requires the network to have a pre-defined input-size -- in semantic environments this means assuming the maximum number of vehicles. Additionally, this vectorial representation is not invariant to the order and number of vehicles. To mitigate the above-stated disadvantages, we propose combining graph neural networks with actor-critic reinforcement learning. As graph neural networks apply the same network to every vehicle and aggregate incoming edge information, they are invariant to the number and order of vehicles. This makes them ideal candidates to be used as networks in semantic environments -- environments consisting of objects lists. Graph neural networks exhibit some other advantages that make them favorable to be used in semantic environments. The relational information is explicitly given and does not have to be inferred. Moreover, graph neural networks propagate information through the network and can gather higher-degree information. We demonstrate our approach using a highway lane-change scenario and compare the performance of graph neural networks to conventional ones. We show that graph neural networks are capable of handling scenarios with a varying number and order of vehicles during training and application

    A fast multi-object tracking system using an object detector ensemble

    Full text link
    Multiple-Object Tracking (MOT) is of crucial importance for applications such as retail video analytics and video surveillance. Object detectors are often the computational bottleneck of modern MOT systems, limiting their use for real-time applications. In this paper, we address this issue by leveraging on an ensemble of detectors, each running every f frames. We measured the performance of our system in the MOT16 benchmark. The proposed model surpassed other online entries of the MOT16 challenge in speed, while maintaining an acceptable accuracy.Comment: 5 pages, 4 figures, 1 table, published in 2019 IEEE Colombian Conference on Applications in Computational Intelligence (ColCACI

    Contrastive Language-Image Pretrained (CLIP) Models are Powerful Out-of-Distribution Detectors

    Full text link
    We present a comprehensive experimental study on pretrained feature extractors for visual out-of-distribution (OOD) detection. We examine several setups, based on the availability of labels or image captions and using different combinations of in- and out-distributions. Intriguingly, we find that (i) contrastive language-image pretrained models achieve state-of-the-art unsupervised out-of-distribution performance using nearest neighbors feature similarity as the OOD detection score, (ii) supervised state-of-the-art OOD detection performance can be obtained without in-distribution fine-tuning, (iii) even top-performing billion-scale vision transformers trained with natural language supervision fail at detecting adversarially manipulated OOD images. Finally, we argue whether new benchmarks for visual anomaly detection are needed based on our experiments. Using the largest publicly available vision transformer, we achieve state-of-the-art performance across all 1818 reported OOD benchmarks, including an AUROC of 87.6\% (9.2\% gain, unsupervised) and 97.4\% (1.2\% gain, supervised) for the challenging task of CIFAR100 \rightarrow CIFAR10 OOD detection. The code will be open-sourced

    Deep Learning Methods for Dialogue Act Recognition using Visual Information

    Get PDF
    Rozpoznávání dialogových aktů (DA) je důležitým krokem v řízení a porozumění dialogu. Tato úloha spočívá v automatickém přiřazení třídy k výroku/promluvě (nebo jeho části) na základě jeho funkce v dialogu (např. prohlášení, otázka, potvrzení atd.). Takováto klasifikace pak pomáhá modelovat a identifikovat strukturu spontánních dialogů. I když je rozpoznávání DA obvykle realizováno na zvukovém signálu (řeči) pomocí modelů pro automatické rozpoznávání řeči, dialogy existují rovněž ve formě obrázků (např. komiksy). Tato práce se zabývá automatickým rozpoznáváním dialogových aktů z obrazových dokumentů. Dle nás se jedná o první pokus o navržení přístupu rozpoznávání DA využívající obrázky jako vstup. Pro tento úkol je nutné extrahovat text z obrázků. Využíváme proto algoritmy z oblasti počítačového vidění a~zpracování obrazu, jako je prahování obrazu, segmentace textu a optické rozpoznávání znaků (OCR). Hlavním přínosem v této oblasti je návrh a implementace OCR modelu založeného na konvolučních a rekurentních neuronových sítích. Také prozkoumáváme různé strategie pro trénování tohoto modelu, včetně generování syntetických dat a technik rozšiřování dat (tzv. augmentace). Dosahujeme vynikajících výsledků OCR v případě, kdy je malé množství trénovacích dat. Mezi naše přínosy tedy patří to, jak vytvořit efektivní OCR systém s~minimálními náklady na ruční anotaci. Dále se zabýváme vícejazyčností v oblasti rozpoznávání DA. Úspěšně jsme použili a nasadili obecný model, který byl trénován všemi dostupnými jazyky, a také další modely, které byly trénovány pouze na jednom jazyce, a vícejazyčnosti je dosaženo pomocí transformací sémantického prostoru. Také zkoumáme techniku přenosu učení (tzv. transfer learning) pro tuto úlohu tam, kde je k dispozici malý počet anotovaných dat. Používáme příznaky jak na úrovni slov, tak i vět a naše modely hlubokých neuronových sítí (včetně architektury Transformer) dosáhly výborných výsledků v oblasti vícejazyčného rozpoznávání dialogových aktů. Pro rozpoznávání DA z obrazových dokumentů navrhujeme nový multimodální model založený na konvoluční a rekurentní neuronové síti. Tento model kombinuje textové a obrazové vstupy. Textová část zpracovává text z OCR, zatímco vizuální část extrahuje obrazové příznaky, které tvoří další vstup do modelu. Text z OCR obsahuje často překlepy nebo jiné lexikální chyby. Demonstrujeme na experimentech, že tento multimodální model využívající dva vstupy dokáže částečně vyvážit ztrátu informace způsobenou chybovostí OCR systému.ObhájenoDialogue act (DA) recognition is an important step of dialogue management and understanding. This task is to automatically assign a label to an utterance (or its part) based on its function in a dialogue (e.g. statement, question, backchannel, etc.). Such utterance-level classification thus helps to model and identify the structure of spontaneous dialogues. Even though DA recognition is usually realized on audio data using an automatic speech recognition engine, the dialogues exist also in a form of images (e.g. comic books). This thesis deals with automatic dialogue act recognition from image documents. To the best of our knowledge, this is the first attempt to propose DA recognition approaches using the images as an input. For this task, it is necessary to extract the text from the images. Therefore, we employ algorithms from the field of computer vision and image processing such as image thresholding, text segmentation, and optical character recognition (OCR). The main contribution in this field is to design and implement a custom OCR model based on convolutional and recurrent neural networks. We also explore different strategies for training such a~model, including synthetic data generation and data augmentation techniques. We achieve new state-of-the-art OCR results in the constraints when only a few training data are available. Summing up, our contribution is hence also presenting an overview of how to create an efficient OCR system with minimal costs. We further deal with the multilinguality in the DA recognition field. We successfully employ one general model that was trained by data from all available languages, as well as several models that are trained on a single language, and cross-linguality is achieved by using semantic space transformations. Moreover, we explore transfer learning for DA recognition where there is a small number of annotated data available. We use word-level and utterance-level features and our models contain deep neural network architectures, including Transformers. We obtain new state-of-the-art results in multi- and cross-lingual DA regonition field. For DA recognition from image documents, we propose and implement a novel multimodal model based on convolutional and recurrent neural network. This model combines text and image inputs. A text part is fed by text tokens from OCR, while the visual part extracts image features that are considered as an auxiliary input. Extracted text from dialogues is often erroneous and contains typos or other lexical errors. We show that the multimodal model deals with the erroneous text and visual information partially balance this loss of information

    Ultra-wideband radar for simultaneous and unobtrusive monitoring of respiratory and heart rates in early childhood:A Deep Transfer Learning Approach

    Get PDF
    Unobtrusive monitoring of children’s heart rate (HR) and respiratory rate (RR) can be valuable for promoting the early detection of potential health issues, improving communication with healthcare providers and reducing unnecessary hospital visits. A promising solution for wireless vital sign monitoring is radar technology. This paper presents a novel approach for the simultaneous estimation of children’s RR and HR utilizing ultra-wideband (UWB) radar using a deep transfer learning algorithm in a cohort of 55 children. The HR and RR are calculated by processing radar signals via spectrogram from time epochs of 10 s (25 sample length of hamming window with 90% overlap) and then transforming the resultant representation into 2-dimensional images. These images were fed into a pre-trained Visual Geometry Group-16 (VGG-16) model (trained on ImageNet dataset), with weights of five added layers fine-tuned using the proposed data. The prediction on the test data achieved a mean absolute error (MAE) of 7.3 beats per minute (BPM &lt; 6.5% of average HR) and 2.63 breaths per minute (BPM &lt; 7% of average RR). We also achieved a significant Pearson’s correlation of 77% and 81% between true and extracted for HR and RR, respectively. HR and RR samples are extracted every 10 s.</p

    Want more WANs? Comparison of traditional and GAN-based generation of wide area network topologies via graph and performance metrics

    Get PDF
    Wide Area Network (WAN) research benefits from the availability of realistic network topologies, e. g., as input to simulations, emulators, or testbeds. With the rise of Machine Learning (ML) and particularly Deep Learning (DL) methods, this demand for topologies, which can be used as training data, is greater than ever. However, public datasets are limited, thus, it is promising to generate synthetic graphs with realistic properties based on real topologies for the augmentation of existing data sets. As the generation of synthetic graphs has been in the focus of researchers of various application fields since several decades, we have a variety of traditional model-dependent and model-independent graph generators at hand, as well as DL-based approaches, such as Generative Adversarial Networks (GANs). In this work, we adapt and evaluate these existing generators for the WAN use case, i. e., for generating synthetic WANs with realistic geographical distances between nodes. We investigate two approaches to improve edge weight assignments: a hierarchical graph synthesis approach, which divides the synthesis into local clusters, as well as sophisticated attributed sampling. Finally, we compare the similarity of synthetic and real WAN topologies and discuss the suitability of the generators for data augmentation in the WAN use case. For this, we utilize theoretical graph metrics, as well as practical, communication network-centric performance metrics, obtained via OMNeT++ simulation

    Semantic Trajectories and Predicting Future Semantic Locations

    Get PDF
    Der Begriff Standortwahrnehmung\textit{Standortwahrnehmung} (engl. Location Awareness\textit{Location Awareness}) bezieht sich in Zusammenhang mit sog. Ubiquitous Computing Systemen auf die Fähigkeit eines Systems seine Umgebung wahrzunehmen und seine Position im Raum zu erkennen. Solch eine Fähigkeit ist unerlässlich für das Erreichen von anpassungsfähigen, an den jeweiligen Kontext maßgeschneiderten Diensten und Applikationen. In den letzten Jahren, Dienstleister, um ihre Dienste an Nutzern rechtzeitig oder sogar vorausschauend anbieten zu können, gehen sie einen Schritt weiter und setzen vermehrt auf Standortvorhersage-Techniken. Der Technologiesprung der letzten Jahre und die weite Verbreitung von intelligenten mobilen Geräten hat dieses Unterfangen unterstützt. Darüber hinaus, Standortvorhersagesysteme werden immer häufiger zwecks einer effizienteren Resourcenverwaltung oder der Optimierung von Entscheidungsprozessen eingesetzt, wie zum Beispiel in Telekommunikations- oder Verkehrsnetzen. Schließlich, das Wissen des nächsten Ortes eines Nutzers und seine Bewegungsmuster gewähren einen tiefen Einblick in die Person an sich und ihre aktuelle und künftige Handlungen. Diese Art von Informationen kann Systeme zu einem höheren Personalisierungsgrad führen und sind sehr wertvoll (siehe z.B. digitale persönliche Assistenten und Empfehlungssysteme, u.a.). Aus diesen Gründen haben Standortvorhersagemethoden in den vergangenen Jahren stark an Bedeutung gewonnen. \\Die heutige Literatur umfasst eine reiche Vielfalt von Modellierungs- und Prädiktionstechniken für menschliche Bewegungsmuster. Die Mehrheit wird durch statistische oder Machine Learning basierte Verfahren repräsentiert, angewendet auf GPS oder Mobilfunkmast Signalen. Neuere Arbeiten gehen über die Nutzung von rein numerischen Daten hinaus und verwenden semantisches Wissen um die verfügbare Trajektorien anzureichern. Die resultierenden Trajektorien werden als semantische Trajektorien\textit{semantische Trajektorien} bezeichnet und reduzieren die abertausend aufgezeichnete GPS Punkte auf den wesentlichen Teil der menschlichen Bewegung, repräsentiert durch eine kleine Zahl signifikanter semantischer Orte\textit{semantischer Orte}. Das verleiht den Prädiktionsmodellen eine gewisse Transparenz und hilft das Erreichen eines besseren Verständnisses der menschlichen Bewegung. Trotz der Vorteile, die Forschung um die Modellierung und Prädiktion semantischer Trajektorien befindet sich noch in einem sehr frühen Stadium. \\Das Hauptziel dieser Doktorarbeit ist diese Lücke zu füllen, sich der wachsenden Zahl an Untersuchungen in diesem Gebiet anzuschließen und einen soliden Grundstein für zukünftige Untersuchungen zu legen. Zu diesem Zweck, die vorliegende Arbeit erkundet eine Reihe von Wegen zur Modellierung von semantischen Trajektorien und zur Prädiktion der nächstbesuchten Standorte der Nutzer. Diese beinhalten sowohl probabilistische Verfahren wie multidimensionale Markov Ketten, als auch Künstliche Neuronale Netze (KNN) wie Convolutional Networks (CNN) und Attention-basiertes Sequence to Sequence Learning (Seq2Seq). Jenseits dieser übergeordneten Zielsetzung, der Beitrag dieser Dissertation kann in den folgenden Punkten zusammengefasst werden:\\\bullet Untersuchung hinsichtlich der Auswirkung der semantischen Repra¨sentationsebene\textit{semantischen Repräsentationsebene}, welche für die Beschreibung von Standorten in den semantischen Trajektorien verwendet wird, auf die prädiktive Performanz der Standortvorhersagemodelle.\\ \bullet Untersuchung hinsichtlich der Auswirkung des gewählten Grades der semantischen Anreicherung\textit{Grades der semantischen Anreicherung} der verfügbaren Trajektorien auf die prädiktive Performanz der Standortvorhersagemodelle.\\ \bullet Untersuchung hinsichtlich der Integration von semantischem Wissen in das Training von Neuronalen Netzen durch das Hinzufügen einer zusa¨tzlichen semantischen Ebene\textit{zusätzlichen semantischen Ebene} in Bezug auf das Konvergenzverhalten der Standortvorhersagemodelle und deren Prädiktionsperformanz. \\Die verschiedenen vorgeschlagenen und erkundeten Ansätze der vorliegenden Arbeit wurden mit Hilfe einer Gruppe realer Datensätze evaluiert. Ein Teil davon ist frei verfügbar für wissenschaftliche Zwecke und ein Teil entstand aus eigenen Experimenten und Nutzerstudien. Dies hat in Einzelfällen dazu geführt, dass ein kleiner Teil der in dieser Arbeit diskutierten Ergebnisse auf eine relativ begrenzte Datenmenge basiert, was teilweise auf eine entsprechend begrenzte Generalisierbarkeit hindeutet. Dennoch, sie liefern ein schwerwiegendes Indiz und legen zusammen mit den restlichen Aussagen der Arbeit ein solides Fundament für zukünftige Untersuchungen. \\Die Untersuchungen der vorliegenden Arbeit haben gewisse Vorteile seitens der Nutzung von Künstlichen Neuronalen Netzen identifiziert, besonders in Hinsicht auf Präzision und Trefferquote. Dabei stachen insbesondere die Stärken von rekurrenten (RNN, LSTM) und faltenden (CNN) Architekturen hervor. Allerdings, in bestimmten Fällen konnten manche probabilistische Modelle ähnlich gut, oder sogar bessere Ergebnisse erzielen. Dies ist im Wesentlichen auf die Menge und die Eigenschaften der verfügbaren Trainings- und Evaluationsdatensätze zurückzuführen und die Tatsache, dass Neuronale Netze im Allgemeinen und im Vergleich zu statistischen Verfahren datenempfindlicher sind. \\Es hat sich ebenfalls gezeigt, dass die semantische Repräsentationsebene in der Tat einen signifikanten Einfluss auf die Vorhersagekraft der Modelle hat. Semantische Trajektorien beschrieben in einer höheren semantischen Ebene bieten eine bessere Grundlage für genauere Vorhersagen als Trajektorien einer niedrigeren Ebene. Ein möglicher Grund dafür könnte die Tatsache sein, dass menschliche Bewegung einen höheren Regelmäßigkeitsgrad zeigt je höher die Ebene in der diese modelliert wird ist. \\Des Weiteren haben Untersuchungen bestätigt, dass der Grad der semantischen Anreicherung der Trajektorien, indem zusätzliche Kontext-Information, wie die Aktivität der Nutzer, ihre Persönlichkeit und ihr emotionaler Zustand, in Betracht gezogen werden, zu besseren Ergebnissen führen kann. Allerdings, in manchen Fällen konnten auch bestimmte Einschränkungen festgestellt werden, die auf die größere Anzahl der betrachteten Trainingsmerkmale in Zusammenhang mit dem entsprechend kleinen verfügbaren Trainingsdatensatz zurückzuführen sind. Dieses Phänomen wurde von Bellman als Fluch der Dimensionalität bezeichnet. Konkret bedeutet dies, dass die Vorteile geboten von den zusätzlichen Merkmalen gleichzeitig teilweise durch sich selbst wieder eliminiert werden, angesichts des Fehlens eines größeren Datensatzes, welcher ein generalisierbareres Modell und somit eine höhere Genauigkeit unterstützen würde. Die Tatsache, dass die Prädiktionsmodelle mit der besten Performanz zu den Nutzern mit den meisten Annotationen zuzuweisen sind unterstützt diese Annahme. \\Schließlich, in Hinsicht auf die Integration und Anwendung einer zusätzlichen semantischen Ebene in das Training von Neuronalen Netzen, die Untersuchungen dieser Arbeit untermauern die ursprüngliche Annahme und Grundidee und zeigen, dass das Einsetzen vom externen semantischen Wissen sowohl zu einer signifikanten Verbesserung des Training-Verhaltens der neuronalen Netze, als auch zu einer höheren Vorhersagegenauigkeit führen kann. Darüber hinaus, diese Ergebnisse geben starke Hinweise dafür, dass die Fusion von wissensbasierten und datengetriebenen Modellen über den speziellen Fall der Standortvorhersage hinaus sich ebenfalls als sehr nützlich erweisen könnte, da diese einen schnelleren und tieferen Blick in die verfügbaren Daten ermöglicht

    Advances in Deep Learning Towards Fire Emergency Application : Novel Architectures, Techniques and Applications of Neural Networks

    Get PDF
    Paper IV is not published yet.With respect to copyright paper IV and paper VI was excluded from the dissertation.Deep Learning has been successfully used in various applications, and recently, there has been an increasing interest in applying deep learning in emergency management. However, there are still many significant challenges that limit the use of deep learning in the latter application domain. In this thesis, we address some of these challenges and propose novel deep learning methods and architectures. The challenges we address fall in these three areas of emergency management: Detection of the emergency (fire), Analysis of the situation without human intervention and finally Evacuation Planning. In this thesis, we have used computer vision tasks of image classification and semantic segmentation, as well as sound recognition, for detection and analysis. For evacuation planning, we have used deep reinforcement learning.publishedVersio
    corecore