61 research outputs found

    Probabilistic modeling of wavelet coefficients for processing of image and video signals

    Get PDF
    Statistical estimation and detection techniques are widely used in signal processing including wavelet-based image and video processing. The probability density function (PDF) of the wavelet coefficients of image and video signals plays a key role in the development of techniques for such a processing. Due to the fixed number of parameters, the conventional PDFs for the estimators and detectors usually ignore higher-order moments. Consequently, estimators and detectors designed using such PDFs do not provide a satisfactory performance. This thesis is concerned with first developing a probabilistic model that is capable of incorporating an appropriate number of parameters that depend on higher-order moments of the wavelet coefficients. This model is then used as the prior to propose certain estimation and detection techniques for denoising and watermarking of image and video signals. Towards developing the probabilistic model, the Gauss-Hermite series expansion is chosen, since the wavelet coefficients have non-compact support and their empirical density function shows a resemblance to the standard Gaussian function. A modification is introduced in the series expansion so that only a finite number of terms can be used for modeling the wavelet coefficients with rendering the resulting PDF to become negative. The parameters of the resulting PDF, called the modified Gauss-Hermite (NIGH) PDF, are evaluated in terms of the higher-order sample-moments. It is shown that the MGH PDF fits the empirical density function better than the existing PDFs that use a limited number of parameters do. The proposed MGH PDF is used as the prior of image and video signals in designing maximum a posteriori and minimum mean squared error-based estimators for denoising of image and video signals and log-likelihood ratio-based detector for watermarking of image signals. The performance of the estimation and detection techniques are then evaluated in terms of the commonly used metrics. It is shown through extensive experimentations that the estimation and detection techniques developed utilizing the proposed MGH PDF perform substantially better than those that utilize the conventional PDFs. These results confirm that the superior fit of the MGH PDF to the empirical density function resulting from the flexibility of the MGH PDF in choosing the number of parameters, which are functions of higher-order moments of data, leads to the better performance. Thus, the proposed MGH PDF should play a significant role in wavelet-based image and video signal processin

    Signal processing algorithms for enhanced image fusion performance and assessment

    Get PDF
    The dissertation presents several signal processing algorithms for image fusion in noisy multimodal conditions. It introduces a novel image fusion method which performs well for image sets heavily corrupted by noise. As opposed to current image fusion schemes, the method has no requirements for a priori knowledge of the noise component. The image is decomposed with Chebyshev polynomials (CP) being used as basis functions to perform fusion at feature level. The properties of CP, namely fast convergence and smooth approximation, renders it ideal for heuristic and indiscriminate denoising fusion tasks. Quantitative evaluation using objective fusion assessment methods show favourable performance of the proposed scheme compared to previous efforts on image fusion, notably in heavily corrupted images. The approach is further improved by incorporating the advantages of CP with a state-of-the-art fusion technique named independent component analysis (ICA), for joint-fusion processing based on region saliency. Whilst CP fusion is robust under severe noise conditions, it is prone to eliminating high frequency information of the images involved, thereby limiting image sharpness. Fusion using ICA, on the other hand, performs well in transferring edges and other salient features of the input images into the composite output. The combination of both methods, coupled with several mathematical morphological operations in an algorithm fusion framework, is considered a viable solution. Again, according to the quantitative metrics the results of our proposed approach are very encouraging as far as joint fusion and denoising are concerned. Another focus of this dissertation is on a novel metric for image fusion evaluation that is based on texture. The conservation of background textural details is considered important in many fusion applications as they help define the image depth and structure, which may prove crucial in many surveillance and remote sensing applications. Our work aims to evaluate the performance of image fusion algorithms based on their ability to retain textural details from the fusion process. This is done by utilising the gray-level co-occurrence matrix (GLCM) model to extract second-order statistical features for the derivation of an image textural measure, which is then used to replace the edge-based calculations in an objective-based fusion metric. Performance evaluation on established fusion methods verifies that the proposed metric is viable, especially for multimodal scenarios

    Contourlet Domain Image Modeling and its Applications in Watermarking and Denoising

    Get PDF
    Statistical image modeling in sparse domain has recently attracted a great deal of research interest. Contourlet transform as a two-dimensional transform with multiscale and multi-directional properties is known to effectively capture the smooth contours and geometrical structures in images. The objective of this thesis is to study the statistical properties of the contourlet coefficients of images and develop statistically-based image denoising and watermarking schemes. Through an experimental investigation, it is first established that the distributions of the contourlet subband coefficients of natural images are significantly non-Gaussian with heavy-tails and they can be best described by the heavy-tailed statistical distributions, such as the alpha-stable family of distributions. It is shown that the univariate members of this family are capable of accurately fitting the marginal distributions of the empirical data and that the bivariate members can accurately characterize the inter-scale dependencies of the contourlet coefficients of an image. Based on the modeling results, a new method in image denoising in the contourlet domain is proposed. The Bayesian maximum a posteriori and minimum mean absolute error estimators are developed to determine the noise-free contourlet coefficients of grayscale and color images. Extensive experiments are conducted using a wide variety of images from a number of databases to evaluate the performance of the proposed image denoising scheme and to compare it with that of other existing schemes. It is shown that the proposed denoising scheme based on the alpha-stable distributions outperforms these other methods in terms of the peak signal-to-noise ratio and mean structural similarity index, as well as in terms of visual quality of the denoised images. The alpha-stable model is also used in developing new multiplicative watermark schemes for grayscale and color images. Closed-form expressions are derived for the log-likelihood-based multiplicative watermark detection algorithm for grayscale images using the univariate and bivariate Cauchy members of the alpha-stable family. A multiplicative multichannel watermark detector is also designed for color images using the multivariate Cauchy distribution. Simulation results demonstrate not only the effectiveness of the proposed image watermarking schemes in terms of the invisibility of the watermark, but also the superiority of the watermark detectors in providing detection rates higher than that of the state-of-the-art schemes even for the watermarked images undergone various kinds of attacks

    Application and Theory of Multimedia Signal Processing Using Machine Learning or Advanced Methods

    Get PDF
    This Special Issue is a book composed by collecting documents published through peer review on the research of various advanced technologies related to applications and theories of signal processing for multimedia systems using ML or advanced methods. Multimedia signals include image, video, audio, character recognition and optimization of communication channels for networks. The specific contents included in this book are data hiding, encryption, object detection, image classification, and character recognition. Academics and colleagues who are interested in these topics will find it interesting to read

    Algorithmic Analysis of Complex Audio Scenes

    Get PDF
    In this thesis, we examine the problem of algorithmic analysis of complex audio scenes with a special emphasis on natural audio scenes. One of the driving goals behind this work is to develop tools for monitoring the presence of animals in areas of interest based on their vocalisations. This task, which often occurs in the evaluation of nature conservation measures, leads to a number of subproblems in audio scene analysis. In order to develop and evaluate pattern recognition algorithms for animal sounds, a representative collection of such sounds is necessary. Building such a collection is beyond the scope of a single researcher and we therefore use data from the Animal Sound Archive of the Humboldt University of Berlin. Although a large portion of well annotated recordings from this archive has been available in digital form, little infrastructure for searching and sharing this data has been available. We describe a distributed infrastructure for searching, sharing and annotating animal sound collections collaboratively, which we have developed in this context. Although searching animal sound databases by metadata gives good results for many applications, annotating all occurences of a specific sound is beyond the scope of human annotators. Moreover, finding similar vocalisations to that of an example is not feasible by using only metadata. We therefore propose an algorithm for content-based similarity search in animal sound databases. Based on principles of image processing, we develop suitable features for the description of animal sounds. We enhance a concept for content-based multimedia retrieval by a ranking scheme which makes it an efficient tool for similarity search. One of the main sources of complexity in natural audio scenes, and the most difficult problem for pattern recognition, is the large number of sound sources which are active at the same time. We therefore examine methods for source separation based on microphone arrays. In particular, we propose an algorithm for the extraction of simpler components from complex audio scenes based on a sound complexity measure. Finally, we introduce pattern recognition algorithms for the vocalisations of a number of bird species. Some of these species are interesting for reasons of nature conservation, while one of the species serves as a prototype for song birds with strongly structured songs.Algorithmische Analyse Komplexer Audioszenen In dieser Arbeit untersuchen wir das Problem der Analyse komplexer Audioszenen mit besonderem Augenmerk auf natürliche Audioszenen. Eine der treibenden Zielsetzungen hinter dieser Arbeit ist es Werkzeuge zu entwickeln, die es erlauben ein auf Lautäußerungen basierendes Monitoring von Tierarten in Zielregionen durchzuführen. Diese Aufgabenstellung, die häufig in der Evaluation von Naturschutzmaßnahmen auftritt, führt zu einer Anzahl von Unterproblemen innerhalb der Audioszenen-Analyse. Eine wichtige Voraussetzung um Mustererkennungs-Algorithmen für Tierstimmen entwickeln zu können, ist die Verfügbarkeit großer Sammlungen von Aufnahmen von Tierstimmen. Eine solche Sammlung aufzubauen liegt jenseits der Möglichkeiten eines einzelnen Forschers und wir verwenden daher Daten des Tierstimmenarchivs der Humboldt Universität Berlin. Obwohl eine große Anzahl gut annotierter Aufnahmen in diesem Archiv in digitaler Form vorlagen, gab es nur wenig unterstützende Infrastruktur um diese Daten durchsuchen und verteilen zu können. Wir beschreiben eine verteilte Infrastruktur, mit deren Hilfe es möglich ist Tierstimmen-Sammlungen zu durchsuchen, sowie gemeinsam zu verwenden und zu annotieren, die wir in diesem Kontext entwickelt haben. Obwohl das Durchsuchen von Tierstimmen-Datenbank anhand von Metadaten für viele Anwendungen gute Ergebnisse liefert, liegt es jenseits der Möglichkeiten menschlicher Annotatoren alle Vorkommen eines bestimmten Geräuschs zu annotieren. Darüber hinaus ist es nicht möglich einem Beispiel ähnlich klingende Geräusche nur anhand von Metadaten zu finden. Deshalb schlagen wir einen Algorithmus zur inhaltsbasierten Ähnlichkeitssuche in Tierstimmen-Datenbanken vor. Ausgehend von Methoden der Bildverarbeitung entwickeln wir geeignete Merkmale für die Beschreibung von Tierstimmen. Wir erweitern ein Konzept zur inhaltsbasierten Multimedia-Suche um ein Ranking-Schema, dass dieses zu einem effizienten Werkzeug für die Ähnlichkeitssuche macht. Eine der grundlegenden Quellen von Komplexität in natürlichen Audioszenen, und das schwierigste Problem für die Mustererkennung, stellt die hohe Anzahl gleichzeitig aktiver Geräuschquellen dar. Deshalb untersuchen wir Methoden zur Quellentrennung, die auf Mikrofon-Arrays basieren. Insbesondere schlagen wir einen Algorithmus zur Extraktion einfacherer Komponenten aus komplexen Audioszenen vor, der auf einem Maß für die Komplexität von Audioaufnahmen beruht. Schließlich führen wir Mustererkennungs-Algorithmen für die Lautäußerungen einer Reihe von Vogelarten ein. Einige dieser Arten sind aus Gründen des Naturschutzes interessant, während eine Art als Prototyp für Singvögel mit stark strukturierten Gesängen dient

    ONLINE HIERARCHICAL MODELS FOR SURFACE RECONSTRUCTION

    Get PDF
    Applications based on three-dimensional object models are today very common, and can be found in many fields as design, archeology, medicine, and entertainment. A digital 3D model can be obtained by means of physical object measurements performed by using a 3D scanner. In this approach, an important step of the 3D model building process consists of creating the object's surface representation from a cloud of noisy points sampled on the object itself. This process can be viewed as the estimation of a function from a finite subset of its points. Both in statistics and machine learning this is known as a regression problem. Machine learning views the function estimation as a learning problem to be addressed by using computational intelligence techniques: the points represent a set of examples and the surface to be reconstructed represents the law that has generated them. On the other hand, in many applications the cloud of sampled points may become available only progressively during system operation. The conventional approaches to regression are therefore not suited to deal efficiently with this operating condition. The aim of the thesis is to introduce innovative approaches to the regression problem suited for achieving high reconstruction accuracy, while limiting the computational complexity, and appropriate for online operation. Two classical computational intelligence paradigms have been considered as basic tools to address the regression problem: namely the Radial Basis Functions and the Support Vector Machines. The original and innovative aspect introduced by this thesis is the extension of these tools toward a multi-scale incremental structure, based on hierarchical schemes and suited for online operation. This allows for obtaining modular, scalable, accurate and efficient modeling procedures with training algorithms appropriate for dealing with online learning. Radial Basis Function Networks have a fast configuration procedure that, operating locally, does not require iterative algorithms. On the other side, the computational complexity of the configuration procedure of Support Vector Machines is independent from the number of input variables. These two approaches have been considered in order to analyze advantages and limits of each of them due to the differences in their intrinsic nature

    Recent Advances in Signal Processing

    Get PDF
    The signal processing task is a very critical issue in the majority of new technological inventions and challenges in a variety of applications in both science and engineering fields. Classical signal processing techniques have largely worked with mathematical models that are linear, local, stationary, and Gaussian. They have always favored closed-form tractability over real-world accuracy. These constraints were imposed by the lack of powerful computing tools. During the last few decades, signal processing theories, developments, and applications have matured rapidly and now include tools from many areas of mathematics, computer science, physics, and engineering. This book is targeted primarily toward both students and researchers who want to be exposed to a wide variety of signal processing techniques and algorithms. It includes 27 chapters that can be categorized into five different areas depending on the application at hand. These five categories are ordered to address image processing, speech processing, communication systems, time-series analysis, and educational packages respectively. The book has the advantage of providing a collection of applications that are completely independent and self-contained; thus, the interested reader can choose any chapter and skip to another without losing continuity

    Digital Filters and Signal Processing

    Get PDF
    Digital filters, together with signal processing, are being employed in the new technologies and information systems, and are implemented in different areas and applications. Digital filters and signal processing are used with no costs and they can be adapted to different cases with great flexibility and reliability. This book presents advanced developments in digital filters and signal process methods covering different cases studies. They present the main essence of the subject, with the principal approaches to the most recent mathematical models that are being employed worldwide

    Robust light field watermarking with high spatial and angular fidelity

    Get PDF
    El término ocultación de información se refiere típicamente a la inserción secreta de datos en una señal anfitriona. La señal anfitriona puede ser una imagen, un archivo de audio, un video,... Las técnicas de ocultación de información se dividen generalmente en marca de agua digital, esteganografía y criptografía. Si la propia existencia del mensaje secreto incrustado debe permanecer en secreto, entonces el método de ocultación de información se conoce como esteganografía. Por el contrario, en la marca de agua digital, el usuario es consciente de la existencia del mensaje secreto. A diferencia de la esteganografía y la marca de agua, existe otra categoría de ocultación de información que cifra el mensaje secreto sin insertarlo en una señal anfitriona. Estos métodos se conocen como criptografía en la literatura técnica especializada. Los métodos de ocultación de información se han utilizado durante milenios. A modo de ejemplo, es conocido que Heródoto (485-525 a.c.) ya cita que Histiaeus, el gobernante de Mileto por designación del rey de reyes persa Darío El Grande estaba conspirando para derrocar el imperio persa. Sin embargo, nunca quiso levantar ninguna sospecha entre los que eran leales al rey de reyes ni perder la confianza que el rey Darío había depositado en él. Por ello, para instigar la revuelta Histiaeus afeitó la cabeza de uno de sus esclavos y tatuó un mensaje secreto sobre su cuero cabelludo. Tras dejar crecer el pelo del sirviente, éste viajó sin despertar sospechas hasta el destinatario del mensaje. En la era reciente, la esteganografía se usa ampliamente para la comunicación encubierta. En la esteganografía, la señal anfitriona se usa simplemente para transmitir un mensaje secreto importante. La señal anfitriona no importa por sí misma, pero es de suma importancia no llamar la atención de los expertos en seguridad. La señal anfitriona generalmente se elige entre los medios típicos que no causan sospechas. Es por eso que el mensaje transmitido no está encriptado en esteganografía. En otras palabras, un mensaje cifrado hace sonar inmediatamente las alarmas, pero es menos probable que un mensaje sin cifrar llame la atención. Como ejemplo, se cuenta que en 1966, el comandante en jefe estadounidense Jeremiah Denton se vio obligado a participar en una entrevista televisiva que se transmitió en Estados Unidos. Fingiendo sentirse incómodo con las luces cegadoras de la televisión, parpadeó en código Morse deletreando la palabra "T-O-R-T-U-R-E". Al igual que la marca de agua, el rápido crecimiento de la comunicación por Internet ha proporcionado un medio perfecto para que los sistemas de esteganografía transmitan los datos ocultos sin causar sospechas graves. A diferencia de la esteganografía, los métodos de marca de agua digitales pueden no tener ningún deseo de ocultar la existencia del mensaje incrustado. La marca de agua se define como la inserción imperceptible del mensaje secreto en la señal anfitriona. Esto es exactamente lo contrario de lo que ocurre en la esteganografía, en la que la señal anfitriona no tiene importancia real y se usa simplemente como cobertura. La marca de agua digital se usa ampliamente para la protección de derechos de autor, autenticación, detección/corrección de errores, comunicación encubierta y monitoreo de transmisiones. Se espera que cada plataforma de marca de agua: • Incruste tanta información como sea posible. El envío de información secreta es el principal motivo de explotación de las técnicas de marca de agua. Esto es especialmente importante en la comunicación encubierta. • Genere una marca de agua lo más imperceptible posible sobre la señal anfitriona. La diferencia detectable entre la propia anfitriona y la anfitriona tras el marcado anula el propósito de la marca de agua. • Sea lo más robusto posible contra ataques sobre la señal anfitriona. En el contexto de las marcas de agua, el ataque se refiere a cualquier alteración intencionada o no de los valores de la señal marcada. Obviamente, la realización perfecta de estas tres características sigue siendo un desafío y, dependiendo de la aplicación, se puede priorizar una o dos de estas características. El rápido crecimiento de la demanda de marcas de agua puede contribuir razonablemente a la creciente preocupación por la protección de los derechos de autor en las últimas décadas. A pesar de las enormes oportunidades que ofrece Internet para compartir la información a gran escala, la duplicación ilegal, la manipulación y el intercambio de información ha aumentado sin descanso. Esto impone serias preocupaciones a los autores y editores que dedican mucho tiempo y esfuerzo a la creación de contenidos. El rápido desarrollo de los métodos de marca de agua fue una respuesta prevista a la implacable tendencia al alza de la piratería. La marca de agua ha desempeñado un papel activo en la protección de los derechos de autor, la detección de manipulaciones, la autenticación y la comunicación encubierta. El número de artículos de investigación publicados sobre marcas de agua muestra la importancia absoluta de las marcas de agua en nuestra era. Otra categoría de ocultación de información es la criptografía, que se define básicamente como un método para proteger la información y las comunicaciones mediante el uso de códigos, de modo que solo los lectores autorizados pueden decodificar y leer el mensaje. Así, en criptografía el mensaje secreto se implementa sin usar señal de cobertura. La mayoría de los sistemas criptográficos utilizan conceptos matemáticos y un conjunto de cálculos basados en reglas. El contenido se cifra y se proporciona una clave de descifrado solo a los receptores autorizados. El contenido cifrado se transmite a través de Internet, pero los receptores no autorizados difícilmente pueden descifrar el contenido codificado. A diferencia de la marca de agua, el cifrado no tiene ningún control sobre la redistribución del contenido descifrado por parte del usuario autorizado. Puede ser que un cliente compre una clave de descifrado válida y, después del descifrado, redistribuya el contenido de forma masiva. Por lo tanto, la criptografía puede proteger el contenido antes del descifrado, pero una vez descifrado, el contenido no tiene más protección. Cabe mencionar que los sistemas de cifrado cifran el mensaje secreto y la existencia del mensaje secreto es clara. Por el contrario, los sistemas esteganográficos están optimizados específicamente para ocultar la existencia del mensaje secreto. Dependiendo de la aplicación, los sistemas de marca de agua pueden ocultar la existencia de la marca de agua o en algunos casos hacer pública la existencia de la marca de agua. Como el ámbito de esta tesis pertenece a la marca de agua, la esteganografía y la criptografía no se tratan más a fondo. Además, centraremos el contenido en el uso de señales anfitrionas tipo imagen. Según el dominio en el que se realiza la marca de agua, los métodos de marca de agua se dividen en métodos de dominio espacial y métodos de dominio de transformación. Los métodos de dominio espacial alteran los valores de los píxeles en el dominio espacial y, en comparación con el dominio de transformación, normalmente implican una complejidad computacional mucho menor. Por el contrario, el dominio de transformación primero convierte los píxeles de la imagen en el dominio de transformación. Los píxeles transformados a menudo se denominan coeficientes en la literatura. Aparentemente, dicha transformación puede ser costosa desde el punto de vista computacional, pero el compromiso es que la robustez suele ser mayor que la de los métodos de dominio espacial. Normalmente, se aplica una transformación directa en la imagen y, después de la inserción de la marca de agua, se aplica una transformación inversa para recuperar la imagen con marca de agua en el dominio espacial. Algunas transformaciones comunes en la literatura de marcas de agua son (pero no se limitan a) la transformada de coseno discreta (DCT), transformada de ondícula (wavelet) discreta (DWT), Contourlet, Curvelet, Ridgelet, análisis de componentes principales (PCA), transformada de Karhunen-Loeve (KLT) y descomposición en valor singulares (SVD). Algunos otros métodos utilizan tanto el dominio espacial como el dominio de transformación para implementar la marca de agua. Estos enfoques a menudo se denominan métodos híbridos en la bibliografía. Si no se requiere información previa de la imagen anfitriona para la extracción de la marca de agua, entonces el método de marca de agua se conoce como ciego; de lo contrario, se denomina no ciego. Si se utiliza alguna información secundaria (no la imagen anfitriona) para la extracción de la marca de agua, el método de marca de agua se denomina semi-ciego. Si la imagen anfitriona se puede recuperar después de la extracción de la marca de agua, el método se denomina de marcado reversible; de lo contrario, se conoce como método de marca de agua irreversible. En los últimos años, el campo luminoso (lightfield, LF) se ha utilizado cada vez más para la representación de imágenes 3D. Básicamente, el LF es una función vectorial que describe la cantidad de luz que fluye en todas direcciones a través de cada punto del espacio. Michael Faraday fue el primero en proponer (en una conferencia de 1846 titulada "Pensamientos sobre las vibraciones de los rayos") que la luz debería interpretarse como un campo, muy parecido a los campos magnéticos en los que había estado trabajando durante varios años. La denominación “campo luminoso” fue acuñada por Andrey Gershun en un artículo clásico de 1936 sobre las propiedades radiométricas de la luz en el espacio tridimensional. Desde un punto de vista óptico-geométrico, todo lo que percibimos visualmente, está iluminado por los rayos provenientes de fuentes de luz que se propagan a través del espacio hasta llegar a nuestro ojo. Básicamente, el LF describe la intensidad de cada rayo de luz en la escena en función del ángulo visual, la longitud de onda, el tiempo y la posición de visualización. Así, registra todo lo que potencialmente puede ser visto por un dispositivo óptico omnidireccional que es (supuestamente) capaz de capturar cada rayo del espacio. Levoy y Hanrahan definieron el LF como la función que describe la totalidad de los rayos de luz que atraviesan un volumen 3D dado. En otras palabras, el LF puede entenderse como la descripción de un conjunto denso de rayos de luz, cada uno de los cuales se origina en el vértice de un cono. Cada punto de un volumen 3D se considera como el vértice de un cono que transmite un número infinito de rayos con diferentes inclinaciones. Así, aparte del tiempo y la longitud de onda, el LF se representa típicamente usando cinco parámetros: posición del punto considerado (3 coordenadas espaciales) y dirección del rayo (2 ángulos directores). En realidad, la invariancia en propagación de los rayos (de acuerdo con la Óptica Geométrica), permite reducir su dimensional a 4D. Convencionalmente, a los valores obtenidos para un punto fijo del espacio en función de las 2 coordenadas angulares se le denomina imagen elemental (EI). Si (idealmente) se proporciona el LF de una escena, entonces es posible reconstruir la misma escena 3D sin pérdida de información. En la práctica, lo que realmente se captura en el mundo real es una submuestra del LF, no el conjunto completo de todos los rayos de la escena. Los dispositivos usados en esta captura se denominan de modo genérico cámaras LF. La principal diferencia entre una cámara LF y una convencional es que la primera captura los rayos individuales que inciden en un punto determinado del sensor de captura, mientras que la segunda registra la suma de todos los rayos que inciden en un punto específico del sensor. Esto facilita la reconstrucción 3D precisa de la escena recuperando los rayos individuales. El LF se puede adquirir de varias formas. En la configuración multicámara, se usa una matriz de cámaras 2D. En este caso, las dimensiones espaciales del LF están determinadas por las características intrínsecas de las cámaras, mientras que las dimensiones angulares están determinadas por el número y la disposición de las cámaras. Las cámaras pueden estar distribuidas en superficie plana, circular, rectangular o esférica. Esta configuración suele ser costosa y voluminosa. Además, la calibración de las cámaras puede llevar bastante tiempo. Otra alternativa es capturar el LF deslizando una sola cámara horizontal y verticalmente. A diferencia del sistema multicámara, la configuración de una sola cámara es mucho más barata y puede grabar el LF con mayor densidad. Sin embargo, la adquisición de LF por una sola cámara lleva mucho más tiempo que la de varias cámaras, lo que prácticamente hace que sea imposible grabar escenas dinámicas. Las cámaras LF estáticas también se pueden utilizar para capturar el LF. En ellas se emplea un único sensor estático y alguna distribución espacial de lentes (típicamente, una matriz de microlentes) para muestrear el LF. A pesar de los numerosos métodos propuestos para la marca de agua sobre el LF, ninguno de ellos está adaptado para proteger la enorme cantidad de información angular incorporada en el LF. Se trata en todos los casos de aplicar los algoritmos ya desarrollados sobre imágenes 2D al LF con sus 4 dimensiones. El principal objetivo de esta tesis es lograr métodos de marca de agua LF maximizando la protección de la información espacial y angular al mismo tiempo. Según el conocimiento del autor, hay muy pocos trabajos que aborden los métodos de marca de agua personalizados para LF. Algunos artículos también han discutido la marca de agua de objetos 3D y el video de visualización libre, que, aunque con similitudes, es bastante diferente de la marca de agua sobre el LF. Cualquier método propuesto para la marca de agua del LF deberá tener sumo cuidado de no arruinar ni la información espacial ni angular del LF. A través de esta tesis se han propuesto dos métodos de marca de agua. El primer método propuesto se basa en la DCT y la SVD, y trata de aprovechar el hecho de que los datos de LF generalmente tienen una correlación muy alta en las dimensiones espaciales y espectrales. Se supone que cualquier transformada como la DCT compacta la información en unos pocos coeficientes al proporcionar una descorrelación máxima. La transformada DCT es una aproximación de la KLT que descorrelaciona perfectamente los coeficientes. A diferencia de la base de funciones de la KLT, que dependen de la señal de entrada, las funciones base de la DCT están fijadas. Aunque la descorrelación de la DCT puede ser ligeramente menor que la de KLT y la descorrelación alcanzada es marginalmente menor, su costo computacional es menor debido a la eliminación del tedioso cálculo de las funciones básicas de la KLT. Además, en comparación con otras transformadas como la transformada de Fourier, los coeficientes transformados no tienen parte imaginaria y, por lo tanto, requieren menos datos para procesar. El hecho de que la DCT compacta la energía de la señal en pocos coeficientes lo hace muy interesante para la compresión y la marca de agua. En este primer método propuesto, se parte del LF anfitrión y de una clave secreta como entrada. Según la clave secreta, para cada píxel de la marca de agua se seleccionan bloques de píxeles del LF original, a los que se aplica la DCT. Los coeficientes de los bloques transformados se ordenan en zigzag y se eligen los primeros coeficientes para incrustar la marca de agua. La razón de no incrustar la marca de agua en todos los coeficientes DCT es aumentar la robustez del método propuesto. Es bien sabido en la literatura que los coeficientes de baja frecuencia mejoran la robustez del método de marca de agua y los coeficientes de alta frecuencia son extremadamente propensos al ruido y otros ataques. Después de elegir los coeficientes DCT seleccionados, se factorizan utilizando la SVD. El valor singular correspondiente se utiliza para incrustar la marca de agua (el valor la marca de agua en el píxel considerado en la clave secreta). Cada bloque lleva un bit de la marca de agua. Según el bit de marca de agua, el valor singular aumenta o disminuye. El incremento o decremento del valor singular se determina mediante el factor de ganancia. Se requerirá el valor singular en el procedimiento de extracción para que se guarde en la imagen de referencia. Luego, se realiza la SVD inversa para obtener los coeficientes DCT del LF con marca de agua. Para generar el LF con marca de agua en el dominio espacial, se lleva a cabo la DCT inversa. Este proceso se repite hasta que todos los bits de marca de agua se incrustan en el LF del host. Para extraer la marca de agua incrustada, se necesitan el LF con marca de agua, la imagen de referencia y la clave secreta. La clave secreta utilizada para la extracción de la marca de agua tiene que ser idéntica a la del procedimiento de incrustación, de lo contrario, la extracción de la marca de agua incrustada fallará. Si se introduce la clave secreta correcta en el sistema de extracción, los bloques correspondientes se ordenan a partir de los píxeles del LF marcado. La DCT y la SVD se realizan exactamente de la misma manera que para el procedimiento de inclusión. A continuación, el valor singular se compara con el valor correspondiente de la imagen de referencia. Si el valor singular es mayor que el valor correspondiente de la imagen de referencia, el bit de marca de agua extraído se considera uno; de lo contrario, se asume que es cero. La lógica detrás de este argumento es que si el bit de marca de agua incrustado es cero, entonces el valor singular ha disminuido por el factor de ganancia. Por el contrario, si el bit de marca de agua incrustado es uno, entonces el valor singular se ha incrementado en el factor de ganancia. Por tanto, el bit de marca de agua incrustado se puede extraer comparando el valor singular y el píxel correspondiente de la imagen de referencia. Después de extraer la marca de agua incrustada, los coeficientes DCT del bloque con marca de agua se obtienen mediante la SVD inversa. Antes de aplicar la SVD inversa, el valor singular del bloque con marca de agua se reemplaza con el píxel correspondiente de la imagen de referencia. Posteriormente, se aplica la DCT inversa a los coeficientes DCT para obtener el LF del anfitrión recuperado. Este proceso se repite hasta que se extraen todos los bits de la marca de agua. La transparencia del LF con marca de agua se ha verificado objetiva y subjetivamente. Subjetivamente, el LF con marca de agua y el anfitrión parecían idénticos y no se detectó ninguna diferencia visual entre los dos campos de luz. Para garantizar la transparencia absoluta del LF con marca de agua, las partes de alta frecuencia del LF se han ampliado y no se encontraron diferencias visuales. Desde una perspectiva objetiva, la relación señal pico-ruido PSNR de la imagen con marca de agua fue mucho más que suficiente para permitir la detección de cualquier diferencia por el sistema visual humano (HVS) de acuerdo con los criterios objetivos establecidos en la literatura especializada. A diferencia de la mayoría de los métodos de marca de agua, la tasa de error de bits (BER) sobre la marca de agua recuperada permanece en cero independientemente de la intensidad del marcado y la marca de agua incrustada se puede extraer sin errores. Otra métrica que se utiliza para evaluar el rendimiento del método propuesto de manera objetiva es la similitud estructural media (MSSIM). La premisa básica de la MSSIM es que la percepción por el HVS de la calidad de la imagen se ve muy afectada por la similitud estructural del contenido de la imagen en lugar de los valores absolutos de los píxeles. También incorpora la intensidad media y el contraste de la imagen, que desempeñan un papel clave en la percepción de la calidad de la imagen por parte del HVS. La MSSIM siempre se mantiene por encima del 99% 99 \% en los experimentos realizados. La robustez del método propuesto se ha medido frente al ruido gaussiano, la compresión JPEG y el filtrado de mediana. El método propuesto muestra una buena robustez frente a los ataques antes mencionados. Las simulaciones realizadas confirman la absoluta necesidad de utilizar pocos coeficientes DCT. Aunque el LF con marca de agua puede degradarse predominantemente por el ruido, la marca de agua se puede extraer. Como la mayor parte de la energía de la señal se concentra en coeficientes de baja frecuencia de la DCT, proporcionan más robustez frente al ruido gaussiano. Esta hipótesis se confirma completamente con las simulaciones. Las simulaciones también mostraron la importancia absoluta de la explotación de la DCT. La exclusión de la DCT conduce a resultados catastróficos. El método propuesto también exhibe una buena robustez contra el filtrado de mediana y la compresión JPEG, específicamente para el factor de calidad más común de % 100 \% $. Para la justificación de la propuesta del segundo método de marcado, es interesante seguir el siguiente razonamiento. Aunque la DCT se usa ampliamente en la compresión de imágenes/video y marcas de agua, el supuesto subyacente es la independencia de los bloques adyacentes, ya que se comprime cada bloque por separado. Esto provoca artefactos notables, especialmente en velocidades de refresco bajas. Por el contrario, la DWT se aplica globalmente y no introduce artefactos de bloque. Como era de esperar, existe una similitud visual sustancial entre las EI vecinas en las direcciones horizontal, vertical y diagonal. En otras palabras, cada EI tiene una correlación mucho más alta con las EIs vecinas que con las demás. Nos referimos a la correlación de los píxeles de la misma EI como intracorrelación, mientras que la correlación entre las IE se denomina

    Robust density modelling using the student's t-distribution for human action recognition

    Full text link
    The extraction of human features from videos is often inaccurate and prone to outliers. Such outliers can severely affect density modelling when the Gaussian distribution is used as the model since it is highly sensitive to outliers. The Gaussian distribution is also often used as base component of graphical models for recognising human actions in the videos (hidden Markov model and others) and the presence of outliers can significantly affect the recognition accuracy. In contrast, the Student's t-distribution is more robust to outliers and can be exploited to improve the recognition rate in the presence of abnormal data. In this paper, we present an HMM which uses mixtures of t-distributions as observation probabilities and show how experiments over two well-known datasets (Weizmann, MuHAVi) reported a remarkable improvement in classification accuracy. © 2011 IEEE
    corecore