5 research outputs found
Robust video coder solution for wireless streaming: applications in Gaussian channels
With the technological progress in wireless communications seen in the past decade, the miniaturization of personal computers was imminent. Due to the limited availability of resources in these small devices, it has been preferable to stream the media over widely deployed networks like the Internet. However, the conventional protocols used in physical and data-link layers are not adequate
for reliable video streaming over noisy wireless channels. There are several popular and well-studied mechanisms for addressing this problem, one of them being Multiple-Description-Coding. However, proposed solutions are too specialized, focusing the coding of either motion or spatial information; thus failing to address the whole problem, that is - the robust video coding.
In this thesis a novel MDC video coder is presented, which was developed during an internship at the I3S laboratory - France. The full coding scheme is capable of robust transmission of Motion-Vectors and wavelet-subband information over noisy wireless channels. The former is accomplished
by using a MAP-based MD-decoding algorithm available in literature, while the robust transmission of wavelet-subbands is achieved using a state-of-the-art registry-based JPEG-2000 MDC. In order to e ciently balance MV information between multiple descriptions, a novel R/D-optimizing MD bitallocation
scheme is presented. As it is also important to e ciently distribute bits between subband
and motion information, a global subband/motion-vector bit-allocation technique found in literature was adopted and improved. Indeed, this thesis would not be complete without the presentation of
produced streams as well as of a set of backing scienti c results
Lifting transforms on graphs and their application to video coding
Compact representations of data are very useful in many applications such as coding,
denoising or feature extraction. “Classical” transforms such as Discrete Cosine
Transforms (DCT) or Discrete Wavelets Transforms (DWT) provide sparse approximations
of smooth signals, but lose efficiency when they are applied to signals with large
discontinuities. In such cases, directional transforms, which are able to adapt their basis
functions to the underlying signal structure, improve the performance of “classical”
transforms.
In this PhD Thesis we describe a general class of lifting transforms on graphs that
can be seen as N-dimensional directional transforms. Graphs are constructed so that
every node corresponds to a specific sample point of a discrete N-dimensional signal and
links between nodes represent correlation between samples. Therefore, non-correlated
samples (e.g., samples across a large discontinuity in the signal) should not be linked.
We propose a lifting-based directional transform that can be applied to any undirected
graph. In this transform, filtering operations are performed following highcorrelation
directions (indicated by the links between nodes), thus avoiding filtering
across large discontinuities that give rise to large high-pass coefficients in those locations.
In this way, the transform efficiently exploits the correlation that exists between
data on the graph, leading to a more compact representation.
We mainly focus on the design and optimization of these lifting transforms on
graphs, studying and discussing the three main steps required to obtain an invertible
and critically sampled transform: (i) graph construction, (ii) design of “good” graph bipartitions,
and (iii) filter design. We also explain how to extend the transform to J levels
of decomposition, obtaining a multiresolution analysis of the original N-dimensional
signal.
The proposed transform has many desirable properties, such as perfect reconstruction,
critically-sampled, easy generalization to N-dimensional domains, non-separable
and one-dimensional filtering operations, localization in frequency and in the original
domain, and the ability to choose any filtering direction.
As an application, we develop a graph-based video encoder where the goal is to
obtain a compact representation of the original video sequence. To this end, we first propose a graph-representation of the video sequence and then design a 3-dimensional
(spatio-temporal) non-separable directional transform. This can be viewed as an extension
of wavelet transform-based video encoders that operate in the spatial and in the
temporal domains independently. Our transform yields better compaction ability (in
terms of non-linear approximation) than a state of the art motion-compensated temporal
filtering transform (which can be interpreted as a temporal wavelet transform) and
a comparable hybrid Discrete Cosine Transform (DCT)-based video encoder (which is
the basis of the latest video coding standards).
In order to obtain a complete video encoder, the transform coefficients and the side
information (needed to obtain an invertible scheme) should be entropy coded and sent
to the decoder. Therefore, we also propose a coefficient-reordering method based on
the information of the graph which allows to improve the compression ability of the entropy
encoder. Furthermore, we design two different low-cost approaches which aim to
reduce the extensive computational complexity of the proposed system without causing
significant losses of compression performance. The proposed complete system leads
to an efficient encoder which significantly outperforms a comparable hybrid DCT-based
encoder in rate-distortion terms. Finally, we investigate how rate-distortion optimization
can be applied to the proposed coding scheme.La representación compacta de señales resulta útil en diversas aplicaciones, tales como compresión, reducción de ruido, o extracción de características. Transformadas “clásicas” como la Transformada Discreta del Coseno (DCT) o la TransformadaWavelet
Discreta (DWT) logran aproximaciones compactas de señales suaves, pero pierden su eficiencia al ser aplicadas sobre se˜nales que contienen grandes discontinuidades. En estos casos, las transformadas direccionales, capaces de adaptar sus funciones base a la estructura de la señal a analizar, mejoran la eficiencia de las transformadas “clásicas”. En esta tesis nos centramos en el diseño y optimización de transformadas “lifting” sobre grafos, las cuales pueden ser interpretadas como transformadas direccionales
N-dimensionales. Los grafos son construidos demanera que cada nodo se corresponde con una muestra específica de una señal discreta N-dimensional, y los enlaces entre los nodos representan
correlación entre muestras. Así, muestras no correlacionadas (por ejemplo, muestras que se encuentran a ambos lados de una discontinuidad) no deberían estar unidas. Sobre el grafo formado aplicaremos transformadas basadas en el esquema “lifting”, en las
que las operaciones de filtrado se realizan siguiendo las direcciones indicadas por los enlaces entre nodos (direcciones de alta correlación). De esta manera, evitaremos filtrar cruzando a través de largas discontinuidades (lo que resultaría en coeficientes con alto
valor en dichas discontinuidades), dando lugar a una transformada direccional que explota la correlación que existe entre las muestras de la señal en el grafo, obteniendo una representación compacta de dicha señal. En esta tesis nos centramos, principalmente, en investigar los tres principales pasos requeridos para obtener una transformada direccional basada en el esquema “lifting” aplicado en grafos: (i) la construcción del grafo, (ii) el diseño de biparticiones del grafo, y (iii) la definición de los filtros. El buen diseño de estos tres procesos determinará, entre otras cosas, la capacidad para compactar la energía de la transformada. También explicamos cómo extender este tipo de transformadas a J niveles de descomposición,
obteniendo un análisis multi-resolución de la señal N-dimensional original. La transformada propuesta tiene muchas propiedades deseables, tales como reconstrucción perfecta, muestreo crítico, fácil generalización a dominios N-dimensionales, operaciones de filtrado no separables y unidimensionales, localización en frecuencia y en el dominio original, y capacidad de elegir cualquier dirección de filtrado. Como aplicación, desarrollamos un codificador de vídeo basado en grafos donde el objetivo es obtener una versión compacta de la señal de vídeo original. Para ello, primero proponemos una representación en grafos de la secuencia de vídeo y luego diseñamos transformadas no separables direccionales 3-dimensionales (espacio-tiempo). Nuestro codificador puede interpretarse como una extensión de los codificadores de
vídeo basados en “wavelets”, los cuales operan independientemente (de forma separable)
en el dominio espacial y en el temporal. La transformada propuesta consigue mejores resultados (en términos de aproximación no lineal) que un método del estado del arte basado en “wavelets” temporales compensadas en movimiento, y un codificador
DCT comparable (base de los últimos estándares de codificación de vídeo). Para conseguir un codificador de vídeo completo, los coeficientes resultantes de la transformada y la información secundaria (necesaria para obtener un esquema invertible)
deben ser codificados entrópicamente y enviados al decodificador. Por ello, también proponemos en esta tesis un método de reordenación de los coeficientes basado en la información del grafo que permite mejorar la capacidad de compresión del codificador
entrópico. El esquema de codificación propuesto mejora significativamente la eficiencia de un codificador híbrido basado en DCT en términos de tasa-distorsión. Sin embargo, nuestro método tiene la desventaja de su gran complejidad computacional.
Para tratar de paliar este problema, diseñamos dos algoritmos que tratan de reducir dicha complejidad sin que ello afecte en la capacidad de compresión. Finalmente, investigamos como realizar optimización tasa-distorsión sobre el codificador basado en grafos
propuesto