2 research outputs found
An Efficient Motion Estimation Method for H.264-Based Video Transcoding with Arbitrary Spatial Resolution Conversion
As wireless and wired network connectivity is rapidly expanding
and the number of network users is steadily increasing, it has become more
and more important to support universal access of multimedia
content over the whole network. A big challenge, however, is
the great diversity of network devices from full screen computers
to small smart phones. This leads to research on transcoding,
which involves in efficiently reformatting compressed data from
its original high resolution to a desired spatial resolution
supported by the displaying device. Particularly, there is a
great momentum in the multimedia industry for H.264-based
transcoding as H.264 has been widely employed as a mandatory
player feature in applications ranging from television broadcast
to video for mobile devices.
While H.264 contains many new features for effective video
coding with excellent rate distortion (RD) performance, a major issue
for transcoding H.264 compressed video from one spatial resolution
to another is the computational complexity. Specifically, it is
the motion compensated prediction (MCP) part. MCP is the main
contributor to the excellent RD performance
of H.264 video compression, yet it is very time consuming. In general,
a brute-force search is used to find the best motion vectors for MCP.
In the scenario of transcoding, however, an immediate idea for
improving the MCP efficiency for the re-encoding procedure is to
utilize the motion vectors in the original compressed stream.
Intuitively, motion in the high resolution scene is highly related
to that in the down-scaled scene.
In this thesis, we study homogeneous video transcoding from H.264
to H.264. Specifically, for the video transcoding with arbitrary
spatial resolution conversion, we propose a motion vector estimation
algorithm based on a multiple linear regression model, which
systematically utilizes the motion information in the original scenes.
We also propose a practical solution for efficiently determining a
reference frame to take the advantage of the new feature of multiple
references in H.264. The performance of the algorithm was assessed
in an H.264 transcoder. Experimental results show that, as compared
with a benchmark solution, the proposed method significantly reduces
the transcoding complexity without degrading much the video quality
Système unifié de transcodage vidéo permettant la réalisation d'une combinaison d'opérations de transcodage
Au fil des années, l'utilisation de la vidéo dans la vie quotidienne ne cesse d'augmenter, surtout grâce à l'explosion d'Internet et l'usage massif des différentes sortes d'appareils mobiles : téléphones cellulaires, assistants personnels numériques (PDA), téléphones intelligents, etc. Ces derniers ont nettement surpassé, en nombre, les ordinateurs personnels. L'hétérogénéité des réseaux (filaires, sans-fils, fibres optiques, ... ), la diversité des appareils ainsi que la variété des applications multimédias utilisées rendent indispensable l'adaptation du contenu multimédia afin de permettre un accès universel et transparent aux usagers finaux.
Le transcodage vidéo est une technologie inévitable qui permet de répondre à ce problème en transformant la vidéo encodée selon les nouveaux besoins de transmission et/ou de l'usager. Le transcodage est devenu donc un sujet de recherche très actif où plusieurs architectures et systèmes de transcodage ont été proposés pour les différents cas d'utilisation : adaptation du débit binaire, adaptation de la résolution spatiale, adaptation de la résolution temporelle, adaptation du format (standard), insertion de logo, etc.
Cependant, la majorité des solutions proposées sont le résultat d'études de ces cas d'utilisation de transcodage vidéo pris séparément. Dans ce projet, nous analysons les différentes architectures vidéo présentées dans la littérature et nous proposerons une architecture unifiée permettant de réaliser efficacement différentes combinaisons d'opérations de transcodage dans un seul système. Ensuite nous proposons des variantes aux algorithmes de transcodage existants qui sont mieux adaptées à notre système. Ce nouveau système de transcodage est implémenté et les performances validées à l'aide de simulations sur plusieurs combinaisons d'opérations de transcodage. Nos résultats montrent que des gains permettant de supporter 2.6 fois plus de canaux, en moyenne sur un processeur Intel, sont obtenus pour 1' adaptation du débit binaire de 512 à 384 kb/s avec une perte mineure en PSNR de -0.12 dB et des gains de 2.14 en moyenne pour l'adaptation de la résolution spatiale de 512 à 256 kb/s avec une perte de -0.95 dB. Pour 1' adaptation de format de 512 à 512 kb/s, nos résultats montrent des gains de 1.84 fois plus de canaux en moyenne avec une perte en PSNR de - 1.14 dB et pour l'adaptation de format avec adaptation de la résolution spatiale de 256 à 32 kb/s des gains de 1.19 en moyenne avec une perte -0.41 dB ont été obtenus