5 research outputs found

    Towards a Perceived Audiovisual Quality Model for Immersive Content

    Full text link
    This paper studies the quality of multimedia content focusing on 360 video and ambisonic spatial audio reproduced using a head-mounted display and a multichannel loudspeaker setup. Encoding parameters following basic video quality test conditions for 360 videos were selected and a low-bitrate codec was used for the audio encoder. Three subjective experiments were performed for the audio, video, and audiovisual respectively. Peak signal-to-noise ratio (PSNR) and its variants for 360 videos were computed to obtain objective quality metrics and subsequently correlated with the subjective video scores. This study shows that a Cross-Format SPSNR-NN has a slightly higher linear and monotonic correlation over all video sequences. Based on the audiovisual model, a power model shows a highest correlation between test data and predicted scores. We concluded that to enable the development of superior predictive model, a high quality, critical, synchronized audiovisual database is required. Furthermore, comprehensive assessor training may be beneficial prior to the testing to improve the assessors' discrimination ability particularly with respect to multichannel audio reproduction. In order to further improve the performance of audiovisual quality models for immersive content, in addition to developing broader and critical audiovisual databases, the subjective testing methodology needs to be evolved to provide greater resolution and robustness.Comment: 2020 Twelfth International Conference on Quality of Multimedia Experience (QoMEX

    EVALUACIÓN SUBJETIVA DE UN SISTEMA DE STREAMING DE VÍDEO BASADO EN DASH

    Full text link
    El objetivo del TFM es realizar una evaluación subjetiva de un sistema de streaming basado en DASH. Para ello se realizará un estudio teórico de los diferentes estándares y soluciones existentes para llevar a cabo dicha evaluación. Posteriormente se confeccionará el test adecuado para dicho objetivo y se llevarán a cabo las pruebas necesarios utilizando vídeos transmitidos con la tecnología DASH. Finalmente, se llevará a cabo un análisis de los resultados obtenidos.Valle Medina, FD. (2018). EVALUACIÓN SUBJETIVA DE UN SISTEMA DE STREAMING DE VÍDEO BASADO EN DASH. http://hdl.handle.net/10251/109785TFG

    Quel son spatialisé pour la vidéo 3D ? : influence d'un rendu Wave Field Synthesis sur l'expérience audio-visuelle 3D

    Get PDF
    The digital entertainment industry is undergoing a major evolution due to the recent spread of stereoscopic-3D videos. It is now possible to experience 3D by watching movies, playing video games, and so on. In this context, video catches most of the attention but what about the accompanying audio rendering? Today, the most often used sound reproduction technologies are based on lateralization effects (stereophony, 5.1 surround systems). Nevertheless, it is quite natural to wonder about the need of introducing a new audio technology adapted to this new visual dimension: the depth. Many alternative technologies seem to be able to render 3D sound environments (binaural technologies, ambisonics, Wave Field Synthesis). Using these technologies could potentially improve users' quality of experience. It could impact the feeling of realism by adding audio-visual spatial congruence, but also the immersion sensation. In order to validate this hypothesis, a 3D audio-visual rendering system is set-up. The visual rendering provides stereoscopic-3D images and is coupled with a Wave Field Synthesis sound rendering. Three research axes are then studied: 1/ Depth perception using unimodal or bimodal presentations. How the audio-visual system is able to render the depth of visual, sound, and audio-visual objects? The conducted experiments show that Wave Field Synthesis can render virtual sound sources perceived at different distances. Moreover, visual and audio-visual objects can be localized with a higher accuracy in comparison to sound objects. 2/ Crossmodal integration in the depth dimension. How to guarantee the perception of congruence when audio-visual stimuli are spatially misaligned? The extent of the integration window was studied at different visual object distances. In other words, according to the visual stimulus position, we studied where sound objects should be placed to provide the perception of a single unified audio-visual stimulus. 3/ 3D audio-visual quality of experience. What is the contribution of sound depth rendering on the 3D audio-visual quality of experience? We first assessed today's quality of experience using sound systems dedicated to the playback of 5.1 soundtracks (5.1 surround system, headphones, soundbar) in combination with 3D videos. Then, we studied the impact of sound depth rendering using the set-up audio-visual system (3D videos and Wave Field Synthesis).Le monde du divertissement numérique connaît depuis plusieurs années une évolution majeure avec la démocratisation des technologies vidéo 3D. Il est désormais commun de visualiser des vidéos stéréoscopiques sur différents supports : au cinéma, à la télévision, dans les jeux vidéos, etc. L'image 3D a considérablement évolué mais qu'en est-il des technologies de restitution sonore associées ? La plupart du temps, le son qui accompagne la vidéo 3D est basé sur des effets de latéralisation, plus au moins étendus (stéréophonie, systèmes 5.1). Il est pourtant naturel de s'interroger sur le besoin d'introduire des événements sonores en lien avec l'ajout de cette nouvelle dimension visuelle : la profondeur. Plusieurs technologies semblent pouvoir offrir une description sonore 3D de l'espace (technologies binaurales, Ambisonics, Wave Field Synthesis). Le recours à ces technologies pourrait potentiellement améliorer la qualité d'expérience de l'utilisateur, en termes de réalisme tout d'abord grâce à l'amélioration de la cohérence spatiale audio-visuelle, mais aussi en termes de sensation d'immersion. Afin de vérifier cette hypothèse, nous avons mis en place un système de restitution audio-visuelle 3D proposant une présentation visuelle stéréoscopique associée à un rendu sonore spatialisé par Wave Field Synthesis. Trois axes de recherche ont alors été étudiés : 1 / Perception de la distance en présentation unimodale ou bimodale. Dans quelle mesure le système audio-visuel est-il capable de restituer des informations spatiales relatives à la distance, dans le cas d'objets sonores, visuels, ou audio-visuels ? Les expériences menées montrent que la Wave Field Synthesis permet de restituer la distance de sources sonores virtuelles. D'autre part, les objets visuels et audio-visuels sont localisés avec plus de précisions que les objets uniquement sonores. 2 / Intégration multimodale suivant la distance. Comment garantir une perception spatiale audio-visuelle cohérente de stimuli simples ? Nous avons mesuré l'évolution de la fenêtre d'intégration spatiale audio-visuelle suivant la distance, c'est-à-dire les positions des stimuli audio et visuels pour lesquelles la fusion des percepts a lieu. 3 / Qualité d'expérience audio-visuelle 3D. Quel est l'apport du rendu de la profondeur sonore sur la qualité d'expérience audio-visuelle 3D ? Nous avons tout d'abord évalué la qualité d'expérience actuelle, lorsque la présentation de contenus vidéo 3D est associée à une bande son 5.1, diffusée par des systèmes grand public (système 5.1, casque, et barre de son). Nous avons ensuite étudié l'apport du rendu de la profondeur sonore grâce au système audio-visuel proposé (vidéo 3D associée à la Wave Field Synthesis)

    Mejora del streaming de vídeo en DASH con codificación de bitrate variable mediante el algoritmo Look Ahead y mecanismos de coordinación para la reproducción, y propuesta de nuevas métricas para la evaluación de la QoE

    Full text link
    [ES] Esta tesis presenta diversas propuestas encaminadas a mejorar la transmisión de vídeo a través del estándar DASH (Dynamic Adaptive Streaming over HTTP). Este trabajo de investigación estudia el protocolo de transmisión DASH y sus características. A la vez, plantea la codificación con calidad constante y bitrate variable como modo de codificación del contenido de vídeo más indicado para la transmisión de contenido bajo demanda mediante el estándar DASH. Derivado de la propuesta de utilización del modo de codificación de calidad constante, cobra mayor importancia el papel que juegan los algoritmos de adaptación en la experiencia de los usuarios al consumir el contenido multimedia. En este sentido, esta tesis presenta un algoritmo de adaptación denominado Look Ahead el cual, sin modificar el estándar, permite utilizar la información de los tamaños de los segmentos de vídeo incluida en los contenedores multimedia para evitar tomar decisiones de adaptación que desemboquen en paradas no deseadas en la reproducción de contenido multimedia. Con el objetivo de evaluar las posibles mejoras del algoritmo de adaptación presentado, se proponen tres modelos de evaluación objetiva de la QoE. Los modelos propuestos permiten predecir de forma sencilla la QoE que tendrían los usuarios de forma objetiva, utilizando parámetros conocidos como el bitrate medio, el PSNR (Peak Signal-to-Noise Ratio) y el valor de VMAF (Video Multimethod Assessment Fusion). Todos ellos aplicados a cada segmento. Finalmente, se estudia el comportamiento de DASH en entornos Wi-Fi con alta densidad de usuarios. En este contexto, se producen un número elevado de paradas en la reproducción por una mala estimación de la tasa de transferencia disponible debida al patrón ON/OFF de descarga de DASH y a la variabilidad del acceso al medio de Wi-Fi. Para paliar esta situación, se propone un servicio de coordinación basado en la tecnología SAND (MPEG's Server and Network Assisted DASH) que proporciona una estimación de la tasa de transferencia basada en la información del estado de los players de los clientes.[CA] Aquesta tesi presenta diverses propostes encaminades a millorar la transmissió de vídeo a través de l'estàndard DASH (Dynamic Adaptive Streaming over HTTP). Aquest treball de recerca estudia el protocol de transmissió DASH i les seves característiques. Alhora, planteja la codificació amb qualitat constant i bitrate variable com a manera de codificació del contingut de vídeo més indicada per a la transmissió de contingut sota demanda mitjançant l'estàndard DASH. Derivat de la proposta d'utilització de la manera de codificació de qualitat constant, cobra major importància el paper que juguen els algorismes d'adaptació en l'experiència dels usuaris en consumir el contingut. En aquest sentit, aquesta tesi presenta un algoritme d'adaptació denominat Look Ahead el qual, sense modificar l'estàndard, permet utilitzar la informació de les grandàries dels segments de vídeo inclosa en els contenidors multimèdia per a evitar prendre decisions d'adaptació que desemboquin en una parada indesitjada en la reproducció de contingut multimèdia. Amb l'objectiu d'avaluar les possibles millores de l'algoritme d'adaptació presentat, es proposen tres models d'avaluació objectiva de la QoE. Els models proposats permeten predir de manera senzilla la QoE que tindrien els usuaris de manera objectiva, utilitzant paràmetres coneguts com el bitrate mitjà, el PSNR (Peak Signal-to-Noise Ratio) i el valor de VMAF (Video Multimethod Assessment Fusion). Tots ells aplicats a cada segment. Finalment, s'estudia el comportament de DASH en entorns Wi-Fi amb alta densitat d'usuaris. En aquest context es produeixen un nombre elevat de parades en la reproducció per una mala estimació de la taxa de transferència disponible deguda al patró ON/OFF de descàrrega de DASH i a la variabilitat de l'accés al mitjà de Wi-Fi. Per a pal·liar aquesta situació, es proposa un servei de coordinació basat en la tecnologia SAND (MPEG's Server and Network Assisted DASH) que proporciona una estimació de la taxa de transferència basada en la informació de l'estat dels players dels clients.[EN] This thesis presents several proposals aimed at improving video transmission through the DASH (Dynamic Adaptive Streaming over HTTP) standard. This research work studies the DASH transmission protocol and its characteristics. At the same time, this work proposes the use of encoding with constant quality and variable bitrate as the most suitable video content encoding mode for on-demand content transmission through the DASH standard. Based on the proposal to use the constant quality encoding mode, the role played by adaptation algorithms in the user experience when consuming multimedia content becomes more important. In this sense, this thesis presents an adaptation algorithm called Look Ahead which, without modifying the standard, allows the use of the information on the sizes of the video segments included in the multimedia containers to avoid making adaptation decisions that lead to undesirable stalls during the playback of multimedia content. In order to evaluate the improvements of the presented adaptation algorithm, three models of objective QoE evaluation are proposed. These models allow to predict in a simple way the QoE that users would have in an objective way, using well-known parameters such as the average bitrate, the PSNR (Peak Signal-to-Noise Ratio) and the VMAF (Video Multimethod Assessment Fusion). All of them applied to each segment. Finally, the DASH behavior in Wi-Fi environments with high user density is analyzed. In this context, there could be a high number of stalls in the playback because of a bad estimation of the available transfer rate due to the ON/OFF pattern of DASH download and to the variability of the access to the Wi-Fi environment. To relieve this situation, a coordination service based on SAND (MPEG's Server and Network Assisted DASH) is proposed, which provides an estimation of the transfer rate based on the information of the state of the clients' players.Belda Ortega, R. (2021). Mejora del streaming de vídeo en DASH con codificación de bitrate variable mediante el algoritmo Look Ahead y mecanismos de coordinación para la reproducción, y propuesta de nuevas métricas para la evaluación de la QoE [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/169467TESI
    corecore