29 research outputs found
Détection et dissimulation de la détérioration visuelle issue du décodage de séquences H.264 corrompues
Compte tenu de leur nature, les réseaux mobiles sont plus fortement enclins à la corruption de données que leurs contreparties filaires. Même si les données se rendent à destination, les bits endommagés entrainent le rejet des paquets qui les encapsulent. Ces pertes ont un impact important sur la qualité de l’expérience de l’utilisateur lors de la consultation de flux vidéos ou de la vidéophonie, et ce, surtout lorsque la retransmission n’est pas envisageable. On restreint l’usage des approches conventionnelles de résilience aux erreurs, tels la retransmission de trames ou l’ajout de trames redondantes, car elles imposent un fardeau considérable aux réseaux mobiles, ceux-ci étant déjà fortement achalandés.
Dans cet ouvrage, nous proposons la réutilisation sélective des données corrompues afin d’augmenter la qualité visuelle de séquences endommagées. Cette sélection est guidée par une nouvelle approche de détection de la détérioration visuelle dans le domaine des pixels. Elle combine la mesure des effets de bloc (discontinuités spatiales en bordure de blocs) à l’estimation du mouvement.
Notre méthode a été testée sur un ensemble de 17 séquences QCIF codées en H.264 avec des QP de 16 à 28 et soumis à des taux d’erreurs de 0.0004 à 0.0032. Nos résultats de simulation démontrent qu’il est possible de décoder des trames corrompues. La probabilité d’un décodage réussi varie de 20 % à 70 % selon les paramètres d’encodage et le taux d’erreurs subies lors du transport. De plus, notre algorithme, développé en fonction de la norme H.264, réussit à effectuer le bon choix de 81 % à 86 % et 88 % à 91 % des cas (selon les conditions). Lorsque notre algorithme est combiné au décodeur de référence H.264, nous observons un gain moyen 0.65 dB à 0.86 dB de PSNR par rapport au calque de trame et calque de tranche respectivement pour nos conditions de test
Chroma from Luma in AV1 Status Update
First CfL status update given to the Alliance for Open Media (AOM)<br
Results of Chroma from Luma over the Subset1 test set
Chroma from Luma Results on AWCY for Subset1<br
Results of Chroma from Luma over the Objective-1-fast test set
Results of Chroma from Luma over the Objective-1-fast test se
Speakers are able to categorize vowels based on tongue somatosensation
International audienceAuditory speech perception enables listeners to access phonological categories from speech sounds. During speech production and speech motor learning, speakers’ experience matched auditory and somatosensory input. Accordingly, access to phonetic units might also be provided by somatosensory information. The present study assessed whether humans can identify vowels using somatosensory feedback, without auditory feedback. A tongue-positioning task was used in which participants were required to achieve different tongue postures within the /e, ε, a/ articulatory range, in a procedure that was totally nonspeech like, involving distorted visual feedback of tongue shape. Tongue postures were measured using electromagnetic articulography. At the end of each tongue-positioning trial, subjects were required to whisper the corresponding vocal tract configuration with masked auditory feedback and to identify the vowel associated with the reached tongue posture. Masked auditory feedback ensured that vowel categorization was based on somatosensory feedback rather than auditory feedback. A separate group of subjects was required to auditorily classify the whispered sounds. In addition, we modeled the link between vowel categories and tongue postures in normal speech production with a Bayesian classifier based on the tongue postures recorded from the same speakers for several repetitions of the /e, ε, a/ vowels during a separate speech production task. Overall, our results indicate that vowel categorization is possible with somatosensory feedback alone, with an accuracy that is similar to the accuracy of the auditory perception of whispered sounds, and in congruence with normal speech articulation, as accounted for by the Bayesian classifier