138 research outputs found

    Spatio-spectral Image Reconstruction Using Non-local Filtering

    Full text link
    In many image processing tasks it occurs that pixels or blocks of pixels are missing or lost in only some channels. For example during defective transmissions of RGB images, it may happen that one or more blocks in one color channel are lost. Nearly all modern applications in image processing and transmission use at least three color channels, some of the applications employ even more bands, for example in the infrared and ultraviolet area of the light spectrum. Typically, only some pixels and blocks in a subset of color channels are distorted. Thus, other channels can be used to reconstruct the missing pixels, which is called spatio-spectral reconstruction. Current state-of-the-art methods purely rely on the local neighborhood, which works well for homogeneous regions. However, in high-frequency regions like edges or textures, these methods fail to properly model the relationship between color bands. Hence, this paper introduces non-local filtering for building a linear regression model that describes the inter-band relationship and is used to reconstruct the missing pixels. Our novel method is able to increase the PSNR on average by 2 dB and yields visually much more appealing images in high-frequency regions

    Error Resilient Video Coding Using Bitstream Syntax And Iterative Microscopy Image Segmentation

    Get PDF
    There has been a dramatic increase in the amount of video traffic over the Internet in past several years. For applications like real-time video streaming and video conferencing, retransmission of lost packets is often not permitted. Popular video coding standards such as H.26x and VPx make use of spatial-temporal correlations for compression, typically making compressed bitstreams vulnerable to errors. We propose several adaptive spatial-temporal error concealment approaches for subsampling-based multiple description video coding. These adaptive methods are based on motion and mode information extracted from the H.26x video bitstreams. We also present an error resilience method using data duplication in VPx video bitstreams. A recent challenge in image processing is the analysis of biomedical images acquired using optical microscopy. Due to the size and complexity of the images, automated segmentation methods are required to obtain quantitative, objective and reproducible measurements of biological entities. In this thesis, we present two techniques for microscopy image analysis. Our first method, “Jelly Filling” is intended to provide 3D segmentation of biological images that contain incompleteness in dye labeling. Intuitively, this method is based on filling disjoint regions of an image with jelly-like fluids to iteratively refine segments that represent separable biological entities. Our second method selectively uses a shape-based function optimization approach and a 2D marked point process simulation, to quantify nuclei by their locations and sizes. Experimental results exhibit that our proposed methods are effective in addressing the aforementioned challenges

    Robust density modelling using the student's t-distribution for human action recognition

    Full text link
    The extraction of human features from videos is often inaccurate and prone to outliers. Such outliers can severely affect density modelling when the Gaussian distribution is used as the model since it is highly sensitive to outliers. The Gaussian distribution is also often used as base component of graphical models for recognising human actions in the videos (hidden Markov model and others) and the presence of outliers can significantly affect the recognition accuracy. In contrast, the Student's t-distribution is more robust to outliers and can be exploited to improve the recognition rate in the presence of abnormal data. In this paper, we present an HMM which uses mixtures of t-distributions as observation probabilities and show how experiments over two well-known datasets (Weizmann, MuHAVi) reported a remarkable improvement in classification accuracy. © 2011 IEEE

    Camouflage in a dynamic world

    Get PDF

    Apprentissage automatique pour le codage cognitif de la parole

    Get PDF
    Depuis les années 80, les codecs vocaux reposent sur des stratégies de codage à court terme qui fonctionnent au niveau de la sous-trame ou de la trame (généralement 5 à 20 ms). Les chercheurs ont essentiellement ajusté et combiné un nombre limité de technologies disponibles (transformation, prédiction linéaire, quantification) et de stratégies (suivi de forme d'onde, mise en forme du bruit) pour construire des architectures de codage de plus en plus complexes. Dans cette thèse, plutôt que de s'appuyer sur des stratégies de codage à court terme, nous développons un cadre alternatif pour la compression de la parole en codant les attributs de la parole qui sont des caractéristiques perceptuellement importantes des signaux vocaux. Afin d'atteindre cet objectif, nous résolvons trois problèmes de complexité croissante, à savoir la classification, la prédiction et l'apprentissage des représentations. La classification est un élément courant dans les conceptions de codecs modernes. Dans un premier temps, nous concevons un classifieur pour identifier les émotions, qui sont parmi les attributs à long terme les plus complexes de la parole. Dans une deuxième étape, nous concevons un prédicteur d'échantillon de parole, qui est un autre élément commun dans les conceptions de codecs modernes, pour mettre en évidence les avantages du traitement du signal de parole à long terme et non linéaire. Ensuite, nous explorons les variables latentes, un espace de représentations de la parole, pour coder les attributs de la parole à court et à long terme. Enfin, nous proposons un réseau décodeur pour synthétiser les signaux de parole à partir de ces représentations, ce qui constitue notre dernière étape vers la construction d'une méthode complète de compression de la parole basée sur l'apprentissage automatique de bout en bout. Bien que chaque étape de développement proposée dans cette thèse puisse faire partie d'un codec à elle seule, chaque étape fournit également des informations et une base pour la prochaine étape de développement jusqu'à ce qu'un codec entièrement basé sur l'apprentissage automatique soit atteint. Les deux premières étapes, la classification et la prédiction, fournissent de nouveaux outils qui pourraient remplacer et améliorer des éléments des codecs existants. Dans la première étape, nous utilisons une combinaison de modèle source-filtre et de machine à état liquide (LSM), pour démontrer que les caractéristiques liées aux émotions peuvent être facilement extraites et classées à l'aide d'un simple classificateur. Dans la deuxième étape, un seul réseau de bout en bout utilisant une longue mémoire à court terme (LSTM) est utilisé pour produire des trames vocales avec une qualité subjective élevée pour les applications de masquage de perte de paquets (PLC). Dans les dernières étapes, nous nous appuyons sur les résultats des étapes précédentes pour concevoir un codec entièrement basé sur l'apprentissage automatique. un réseau d'encodage, formulé à l'aide d'un réseau neuronal profond (DNN) et entraîné sur plusieurs bases de données publiques, extrait et encode les représentations de la parole en utilisant la prédiction dans un espace latent. Une approche d'apprentissage non supervisé basée sur plusieurs principes de cognition est proposée pour extraire des représentations à partir de trames de parole courtes et longues en utilisant l'information mutuelle et la perte contrastive. La capacité de ces représentations apprises à capturer divers attributs de la parole à court et à long terme est démontrée. Enfin, une structure de décodage est proposée pour synthétiser des signaux de parole à partir de ces représentations. L'entraînement contradictoire est utilisé comme une approximation des mesures subjectives de la qualité de la parole afin de synthétiser des échantillons de parole à consonance naturelle. La haute qualité perceptuelle de la parole synthétisée ainsi obtenue prouve que les représentations extraites sont efficaces pour préserver toutes sortes d'attributs de la parole et donc qu'une méthode de compression complète est démontrée avec l'approche proposée.Abstract: Since the 80s, speech codecs have relied on short-term coding strategies that operate at the subframe or frame level (typically 5 to 20ms). Researchers essentially adjusted and combined a limited number of available technologies (transform, linear prediction, quantization) and strategies (waveform matching, noise shaping) to build increasingly complex coding architectures. In this thesis, rather than relying on short-term coding strategies, we develop an alternative framework for speech compression by encoding speech attributes that are perceptually important characteristics of speech signals. In order to achieve this objective, we solve three problems of increasing complexity, namely classification, prediction and representation learning. Classification is a common element in modern codec designs. In a first step, we design a classifier to identify emotions, which are among the most complex long-term speech attributes. In a second step, we design a speech sample predictor, which is another common element in modern codec designs, to highlight the benefits of long-term and non-linear speech signal processing. Then, we explore latent variables, a space of speech representations, to encode both short-term and long-term speech attributes. Lastly, we propose a decoder network to synthesize speech signals from these representations, which constitutes our final step towards building a complete, end-to-end machine-learning based speech compression method. The first two steps, classification and prediction, provide new tools that could replace and improve elements of existing codecs. In the first step, we use a combination of source-filter model and liquid state machine (LSM), to demonstrate that features related to emotions can be easily extracted and classified using a simple classifier. In the second step, a single end-to-end network using long short-term memory (LSTM) is shown to produce speech frames with high subjective quality for packet loss concealment (PLC) applications. In the last steps, we build upon the results of previous steps to design a fully machine learning-based codec. An encoder network, formulated using a deep neural network (DNN) and trained on multiple public databases, extracts and encodes speech representations using prediction in a latent space. An unsupervised learning approach based on several principles of cognition is proposed to extract representations from both short and long frames of data using mutual information and contrastive loss. The ability of these learned representations to capture various short- and long-term speech attributes is demonstrated. Finally, a decoder structure is proposed to synthesize speech signals from these representations. Adversarial training is used as an approximation to subjective speech quality measures in order to synthesize natural-sounding speech samples. The high perceptual quality of synthesized speech thus achieved proves that the extracted representations are efficient at preserving all sorts of speech attributes and therefore that a complete compression method is demonstrated with the proposed approach

    Characteristics of flight simulator visual systems

    Get PDF
    The physical parameters of the flight simulator visual system that characterize the system and determine its fidelity are identified and defined. The characteristics of visual simulation systems are discussed in terms of the basic categories of spatial, energy, and temporal properties corresponding to the three fundamental quantities of length, mass, and time. Each of these parameters are further addressed in relation to its effect, its appropriate units or descriptors, methods of measurement, and its use or importance to image quality

    New techniques in signal coding

    Get PDF

    Human Body Scattering Effects at Millimeter Waves Frequencies for Future 5G Systems and Beyond

    Full text link
    [ES] Se espera que las futuras comunicaciones móviles experimenten una revolución técnica que vaya más allá de las velocidades de datos de Gbps y reduzca las latencias de las velocidades de datos a niveles muy cercanos al milisegundo. Se han investigado nuevas tecnologías habilitadoras para lograr estas exigentes especificaciones. Y la utilización de las bandas de ondas milimétricas, donde hay mucho espectro disponible, es una de ellas. Debido a las numerosas dificultades técnicas asociadas a la utilización de esta banda de frecuencias, se necesitan complicados modelos de canal para anticipar las características del canal de radio y evaluar con precisión el rendimiento de los sistemas celulares en milimétricas. En concreto, los modelos de propagación más precisos son los basados en técnicas de trazado de rayos deterministas. Pero estas técnicas tienen el estigma de ser computacionalmente exigentes, y esto dificulta su uso para caracterizar el canal de radio en escenarios interiores complejos y dinámicos. La complejidad de la caracterización de estos escenarios depende en gran medida de la interacción del cuerpo humano con el entorno radioeléctrico, que en las ondas milimétricas suele ser destructiva y muy impredecible. Por otro lado, en los últimos años, la industria de los videojuegos ha desarrollado potentes herramientas para entornos hiperrealistas, donde la mayor parte de los avances en esta emulación de la realidad tienen que ver con el manejo de la luz. Así, los motores gráficos de estas plataformas se han vuelto cada vez más eficientes para manejar grandes volúmenes de información, por lo que son ideales para emular el comportamiento de la propagación de las ondas de radio, así como para reconstruir un escenario interior complejo. Por ello, en esta Tesis se ha aprovechado la capacidad computacional de este tipo de herramientas para evaluar el canal radioeléctrico milimétricas de la forma más eficiente posible. Esta Tesis ofrece unas pautas para optimizar la propagación de la señal en milimétricas en un entorno interior dinámico y complejo, para lo cual se proponen tres objetivos principales. El primer objetivo es evaluar los efectos de dispersión del cuerpo humano cuando interactúa con el canal de propagación. Una vez evaluado, se propuso un modelo matemático y geométrico simplificado para calcular este efecto de forma fiable y rápida. Otro objetivo fue el diseño de un reflector pasivo modular en milimétricas, que optimiza la cobertura en entornos de interior, evitando la interferencia del ser humano en la propagación. Y, por último, se diseñó un sistema de apuntamiento del haz predictivo en tiempo real, para que opere con el sistema de radiación en milimétricas, cuyo objetivo es evitar las pérdidas de propagación causadas por el cuerpo humano en entornos interiores dinámicos y complejos.[CA] S'espera que les futures comunicacions mòbils experimenten una revolució tècnica que vaja més enllà de les velocitats de dades de Gbps i reduïsca les latències de les velocitats de dades a nivells molt pròxims al milisegundo. S'han investigat noves tecnologies habilitadoras per a aconseguir estes exigents especificacions. I la utilització de les bandes d'ones millimètriques, on hi ha molt espectre disponible, és una d'elles. A causa de les nombroses dificultats tècniques associades a la utilització d'esta banda de freqüències, es necessiten complicats models de canal per a anticipar les característiques del canal de ràdio i avaluar amb precisió el rendiment dels sistemes cellulars en millimètriques. En concret, els models de propagació més precisos són els basats en tècniques de traçat de rajos deterministes. Però estes tècniques tenen l'estigma de ser computacionalment exigents, i açò dificulta el seu ús per a caracteritzar el canal de ràdio en escenaris interiors complexos i dinàmics. La complexitat de la caracterització d'estos escenaris depén en gran manera de la interacció del cos humà amb l'entorn radioelèctric, que en les ones millimètriques sol ser destructiva i molt impredicible. D'altra banda, en els últims anys, la indústria dels videojocs ha desenrotllat potents ferramentes per a entorns hiperrealistes, on la major part dels avanços en esta emulació de la realitat tenen a veure amb el maneig de la llum. Així, els motors gràfics d'estes plataformes s'han tornat cada vegada més eficients per a manejar grans volums d'informació, per la qual cosa són ideals per a emular el comportament de la propagació de les ones de ràdio, així com per a reconstruir un escenari interior complex. Per això, en esta Tesi s'ha aprofitat la capacitat computacional d'este tipus de ferramentes per a avaluar el canal radioelèctric millimètriques de la manera més eficient possible. Esta Tesi oferix unes pautes per a optimitzar la propagació del senyal en millimètriques en un entorn interior dinàmic i complex, per a la qual cosa es proposen tres objectius principals. El primer objectiu és avaluar els efectes de dispersió del cos humà quan interactua amb el canal de propagació. Una vegada avaluat, es va proposar un model matemàtic i geomètric simplificat per a calcular este efecte de forma fiable i ràpida. Un altre objectiu va ser el disseny d'un reflector passiu modular en millimètriques, que optimitza la cobertura en entorns d'interior, evitant la interferència del ser humà en la propagació, per a així evitar pèrdues de propagació addicionals. I, finalment, es va dissenyar un sistema d'apuntament del feix predictiu en temps real, perquè opere amb el sistema de radiació en millimètriques, l'objectiu del qual és evitar les pèrdues de propagació causades pel cos humà en entorns interiors dinàmics i complexos.[EN] Future mobile communications are expected to experience a technical revolution that goes beyond Gbps data rates and reduces data rate latencies to levels very close to a millisecond. New enabling technologies have been researched to achieve these demanding specifications. The utilization of mmWave bands, where a lot of spectrum is available, is one of them. Due to the numerous technical difficulties associated with using this frequency band, complicated channel models are necessary to anticipate the radio channel characteristics and to accurately evaluate the performance of cellular systems in mmWave. In particular, the most accurate propagation models are those based on deterministic ray tracing techniques. But these techniques have the stigma of being computationally intensive, and this makes it difficult to use them to characterize the radio channel in complex and dynamic indoor scenarios. The complexity of characterizing these scenarios depends largely on the interaction of the human body with the radio environment, which at mmWaves is often destructive and highly unpredictable. On the other hand, in recent years, the video game industry has developed powerful tools for hyper-realistic environments, where most of the progress in this reality emulation has to do with the handling of light. Therefore, the graphic engines of these platforms have become more and more efficient to handle large volumes of information, becoming ideal to emulate the radio wave propagation behavior, as well as to reconstruct a complex interior scenario. Therefore, in this Thesis one has taken advantage of the computational capacity of this type of tools to evaluate the mmWave radio channel in the most efficient way possible. This Thesis offers some guidelines to optimize the signal propagation in mmWaves in a dynamic and complex indoor environment, for which three main objectives are proposed. The first objective has been to evaluate the scattering effects of the human body when it interacts with the propagation channel. Once evaluated, a simplified mathematical and geometrical model has been proposed to calculate this effect in a reliable and fast way. Another objective has been the design of a modular passive reflector in mmWaves, which optimizes the coverage in indoor environments, avoiding human interference in the propagation, in order to avoid its harmful scattering effects. And finally, a real-time predictive beam steering system has been designed for the mmWaves radiation system, in order to avoid propagation losses caused by the human body in dynamic and complex indoor environments.Romero Peña, JS. (2022). Human Body Scattering Effects at Millimeter Waves Frequencies for Future 5G Systems and Beyond [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/19132
    corecore