49 research outputs found

    Adaptation du contenu spatio-temporel des images pour un codage par ondelettes

    Get PDF
    non existan

    Détection et conciliation d'erreurs intégrées dans un décodeur vidéo : utilisation des techniques d'analyse statistique

    Get PDF
    This report presents the research conducted during my PhD, which aims to develop an efficient algorithm for correcting errors in a digital image decoding process and ensure a high level of visual quality of decoded images. Statistical analysis techniques are studied to detect and conceal the artefacts. A control loop is implemented for the monitoring of image visual quality. The manuscript consists in six chapters. The first chapter presents the principal state of art image quality assessment methods and introduces our proposal. This proposal consists in a video quality measurement tool (VQMT) using the Human Visual System to indicate the visual quality of a video (or an image). Three statistical learning models of VQMT are designed. They are based on classification, artificial neural networks and non-linear regression and are developed in the second, third and fourth chapter respectively. The fifth chapter presents the principal state of art image error concealment technics. The latter chapter uses the results of the four former chapters to design an algorithm for error concealment in images. The demonstration considers blur and noise artefacts and is based on the Wiener filter optimized on the criterion of local linear minimum mean square error. The results are presented and discussed to show how the VQMT improves the performances of the implemented algorithm for error concealment.Ce manuscrit présente les travaux de recherche réalisés au cours de ma thèse, dont le but est de développer des algorithmes de correction d'erreurs dans un décodage numérique d'images et d'assurer un haut niveau de la qualité visuelle des images décodées. Nous avons utilisé des techniques d'analyse statistique pour détecter et dissimuler les artefacts. Une boucle de contrôle de la qualité est implémentée afin de surveiller et de corriger la qualité visuelle de l'image. Le manuscrit comprend six chapitres. Le premier chapitre présente les principales méthodes d'évaluation de la qualité des images trouvées dans l'état de l'art et introduit notre proposition. Cette proposition est en fait un outil de mesure de la qualité des vidéos (OMQV) qui utilise le système visuel humain pour indiquer la qualité visuelle d'une vidéo (ou d'une image). Trois modèles d'OMQV sont conçus. Ils sont basés sur la classification, les réseaux de neurones artificiels et la régression non linéaire, et sont développés dans le deuxième, troisième et quatrième chapitre respectivement. Le cinquièmechapitre présente quelques techniques de dissimulation d'artefacts présents dans l'état de l'art. Le sixième et dernier chapitre utilise les résultats des quatre premiers chapitres pour mettre au point un algorithme de correction d'erreurs dans les images. La démonstration considère uniquement les artefacts flou et bruit et s'appuie sur le filtre de Wiener, optimisé sur le critère du minimum linéaire local de l'erreur quadratique moyenne. Les résultats sont présentés et discutés afin de montrer comment l'OMQV améliore les performances de l'algorithme mis en œuvre pour la dissimulation des artefacts

    Application de techniques parcimonieuses et hiérarchiques en reconnaissance de la parole

    Get PDF
    Les systèmes de reconnaissance de la parole sont fondamentalement dérivés des domaines du traitement et de la modélisation statistique des signaux. Depuis quelques années, d'importantes innovations de domaines connexes comme le traitement d'image et les neurosciences computationnelles tardent toutefois à améliorer la performance des systèmes actuels de reconnaissance de parole. La revue de la littérature a suggéré qu'un système de reconnaissance vocale intégrant les aspects de hiérarchie, parcimonie et grandes dimensions joindrait les avantages de chacun. L'objectif général est de comprendre comment l'intégration de tous ces aspects permettrait d'améliorer la robustesse aux bruits additifs d'un système de reconnaissance de la parole. La base de données TI46 (mots isolés, faible-vocabulaire) est utilisée pour effectuer l'apprentissage non-supervisé et les tests de classification. Les différents bruits additifs proviennent de la base de données NOISEX-92, et permettent d'évaluer la robustesse en conditions de bruit réalistes. L'extraction de caractéristiques dans le système proposé est effectuée par des projections linéaires successives sur des bases, permettant de couvrir de plus en plus de contexte temporel et spectral. Diverses méthodes de seuillage permettent de produire une représentation multi-échelle, binaire et parcimonieuse de la parole. Au niveau du dictionnaire de bases, l'apprentissage non-supervisé permet sous certaines conditions l'obtention de bases qui reflètent des caractéristiques phonétiques et syllabiques de la parole, donc visant une représentation par objets d'un signal. L'algorithme d'analyse en composantes indépendantes (ICA) s'est démontré mieux adapté à extraire de telles bases, principalement à cause du critère de réduction de redondance. Les analyses théoriques et expérimentales ont montré comment la parcimonie peut contourner les problèmes de discrimination des distances et d'estimation des densités de probabilité dans des espaces à grandes dimensions. Il est observé qu'un espace de caractéristiques parcimonieux à grandes dimensions peut définir un espace de paramètres (p.ex. modèle statistique) de mêmes propriétés. Ceci réduit la disparité entre les représentations de l'étage d'extraction des caractéristiques et celles de l'étage de classification. De plus, l'étage d'extraction des caractéristiques peut favoriser une réduction de la complexité de l'étage de classification. Un simple classificateur linéaire peut venir compléter un modèle de Markov caché (HMM), joignant une capacité de discrimination accrue à la polyvalence d'une segmentation en états d'un signal. Les résultats montrent que l'architecture développée offr de meilleurs taux de reconnaissance en conditions propres et bruités comparativement à une architecture conventionnelle utilisant les coefficients cepstraux (MFCC) et une machine à vecteurs de support (SVM) comme classificateur discriminant. Contrairement aux techniques de codage de la parole où la transformation doit être inversible, la reconstruction n'est pas importante en reconnaissance de la parole. Cet aspect a justifié la possibilité de réduire considérablement la complexité des espaces de caractéristiques et de paramètres, sans toutefois diminuer le pouvoir de discrimination et la robustesse

    Fouille de séquences d'images médicales. Application en chirurgie mini-invasive augmentée

    Get PDF
    In this thesis, we are interested in computer-aided ophthalmic surgery. In this goal, we propose to use surgery videos already stored in database and associated with contextual information (data patients, diagnostics ... etc). During the surgery, the surgeon is focused on his task. We try to improve the surgical procedures by proposing a system able, at any time, to guide the surgery steps by generating surgical warnings or recommendations if the current surgery shares signs of complications with already stored videos. Our goal is to develop methods and a system to select in the databases videos similar to a video stream captured by a digital camera monitoring the surgery (query). Our work will therefore implement methods related to Content Based Video Retrieval (CBVR) and Case-Based Reasoning (CBR). The methods are evaluated on three databases. The first two databases are collected at Brest University Hospital (France): the epiretinal membrane surgery dataset and the cataract surgery dataset. Third, in order to assess its generality, the system is applied to a large dataset of movie clips (Holywood) with classified human actions. To caracterize our videos, we proposed three original indexing methods derived from the compressed ``MPEG-4 AVC/H.264'' video stream. 1) A global method is based on motion histogram created for every frame of a compressed video sequence to extract motion direction and intensity statistics. 2) A local method combine segmentation and tracking to extract region displacements between consecutive I-frames and therefore characterize region trajectories. 3) To reduce the loss of information caused by using only the I-frames, we constructed a summary of each video based on a selection of the Group Of Pictures (GOP defined in the standard of compression). An originality of these methods comes from the use of the compressed domain, they not rely on standard methods, such as the optical flow, to characterize motion in videos. Instead, motion is directly extracted from the compressed MPEG stream. The goal is to provide a fast video characterization. Once videos are characterized, search is made by computing, within the meaning of a given metric, the distance between the signature of the query video and the signature of videos in the database. This computing can select videos as answer to the query without any semantic meaning. For this we use three methods. DTW (Dynamic Time Warping) provides an effective distance between two sequences of images. This algorithm is at the origin of the fast algorithm (FDTW) that we use to compare signatures in the first method. To compare signatures resulting from approach based on region motion trajectories, we propose to use a combination of FDTW and EMD (Earth Mover's Distance). The proposed extension of FDTW is referred to as EFDTW. To improve the retrieval result, we introduce an optimization process for computing distances between signature, by using genetic algorithms. The results obtained on the two medical databases are satisfactory. Thus, the mean precision at five reaches 79% (4 videos similar to the query video) on the epiretinal membrane surgery dataset and 72,69% (3 to 4 videos similar to the query video) on the cataract surgery dataset.Dans cette thèse, nous nous intéressons à l'aide à la décision lors d'interventions chirurgicales. Dans ce but, nous proposons d'utiliser des enregistrements vidéos acquis lors d'interventions chirurgicales antérieures, vidéos numérisées et archivées dans des dossiers d'intervention, contenant toutes les informations relatives à leur déroulement. Au cours de l'opération, le chirurgien ne peut pas consulter lui même des dossiers et vidéos déjà archivées car il est totalement concentré sur l'acte; par contre des outils d'analyse automatique en temps réel des images acquises en cours d'opération pourraient permettre cette utilisation de séquences déjà archivées, avec comme applications directes : des alertes en cas de problème, des informations sur les suites de tel ou tel geste dans des situations opératoires voisines (opération, caractéristiques patient, etc ...), des conseils sur les décisions. Notre objectif est donc de développer des méthodes permettant de sélectionner dans des archives des vidéos similaires à la vidéo proposée en requête. Nous nous appuyons pour cela sur la recherche de vidéos par le contenu (CBVR : Content Based Video Retrieval) et le raisonnement à base de cas (CBR : Case Based Reasoning). Les méthodes sont évaluées sur trois bases de données. Les deux premières bases de données étudiées sont des bases réalisées en chirurgie ophtalmologique, en collaboration avec le service d'ophtalmologie du CHRU de Brest : une base de chirurgie de pelage de membrane de la rétine et une base de chirurgie de la cataracte. La troisième base est la base de clips vidéo Hollywood, utilisée pour montrer la généricité des méthodes proposées. Pour caractériser les vidéos, nous proposons trois méthodes originales d'indexation à partir du domaine compressé : 1) une première méthode consiste à caractériser globalement la vidéo en utilisant des histogrammes de directions de mouvement, 2) une deuxième méthode est basée sur une segmentation spatio-temporelle et sur le suivi des régions entre deux images I, pour construire une signature décrivant la trajectoire des régions identifiées comme les plus importantes visuellement, 3) la troisième méthode est une variante de la deuxième méthode : afin de réduire la perte d'information engendrée en utilisant uniquement les images I, nous avons construit un résumé de la vidéo basé sur une sélection des Group Of Pictures (groupes d'images définis dans la norme de compression). Une des originalités de ces trois méthodes est d'utiliser les données vidéos dans le domaine compressé. Ce choix nous permet d'accéder à des éléments caractérisant les vidéos d'une manière rapide et efficace, sans devoir passer par la reconstruction totale du flux vidéo à partir du flux compressé

    Analyse et enrichissement de flux compressés : application à la vidéo surveillance

    Get PDF
    The increasing deployment of civil and military videosurveillance networks brings both scientific and technological challenges regarding analysis and content recognition over compressed streams. In this context, the contributions of this thesis focus on: - an autonomous method to segment in the compressed domain mobile objects (pedestrians, vehicles, animals …), - the coverage of the various compression standards commonly used in surveillance (MPEG-2, MPEG-4 Part 2, MPEG-4 Part 10 / H.264 AVC), - an optimised multi-stream processing chain from the objects segmentation up to their tracking and description. The developed demonstrator made it possible to bench the performances of the methodological approaches chosen for a tool dedicated to help investigations. It identifies vehicles from a witness description in databases of tens of hours of video. Moreover, while dealing with corpus covering the different kind of content expected from surveillance (subway stations, crossroads, areas in countryside or border surveillance …), the system provided the following results: - simultaneous real time analysis of up to 14 MPEG-2 streams, 8 MPEG-4 Part 2 streams or 3 AVC streams on a single core (2.66 GHz; 720x576 video, 25 fps), - 100% vehicles detected over the length of traffic surveillance footages, with a image per image detection near 95%, - a segmentation spreading over 80 to 150% of the object area (under or over-segmentation linked with the compressed domain). These researches led to 9 patents linked with new services and applications that were made possible thanks to the suggested approaches. Among these lie tools for Unequal Error Protection, Visual Cryptography, Watermarking or SteganographyLe développement de réseaux de vidéosurveillance, civils ou militaires, pose des défis scientifiques et technologiques en termes d’analyse et de reconnaissance des contenus des flux compressés. Dans ce contexte, les contributions de cette thèse portent sur : - une méthode de segmentation automatique des objets mobiles (piétons, véhicules, animaux …) dans le domaine compressé, - la prise en compte des différents standards de compression les plus couramment utilisés en surveillance (MPEG-2, MPEG-4 Part 2 et MPEG-4 Part 10 / H.264 AVC), - une chaîne de traitement multi-flux optimisée depuis la segmentation des objets jusqu’à leur suivi et description. Le démonstrateur réalisé a permis d’évaluer les performances des approches méthodologiques développées dans le cadre d’un outil d’aide à l’investigation, identifiant les véhicules répondant à un signalement dans des bases de données de plusieurs dizaines d’heures. En outre, appliqué à des corpus représentatifs des différentes situations de vidéosurveillance (stations de métro, carrefours, surveillance de zones en milieu rural ou de frontières ...), le système a permis d’obtenir les résultats suivants : - analyse de 14 flux MPEG-2, 8 flux MPEG-4 Part 2 ou 3 flux AVC en temps réel sur un coeur à 2.66 GHZ (vidéo 720x576, 25 images par seconde), - taux de détection des véhicules de 100% sur la durée des séquences de surveillance de trafic, avec un taux de détection image par image proche des 95%, - segmentation de chaque objet sur 80 à 150% de sa surface (sous ou sur-segmentation liée au domaine compressé). Ces recherches ont fait l’objet du dépôt de 9 brevets liés à des nouveaux services et applications rendus opérationnels grâce aux approches mises en oeuvre. Citons entre autres des outils pour la protection inégale aux erreurs, la cryptographie visuelle, la vérification d’intégrité par tatouage ou l’enfouissement par stéganographi

    Biometric systems for access granting. An example: Iris recognition

    Get PDF
    Biometrics refers to technologies for measuring and analysing human body characteristics in person authentication applications. The computational power available in today’s computer and embedded systems (e.g. mobile phones, l aptop and personal digital assistant) allows the biometrics market to grow with the aim of replacing PIN codes or taped password in control access. Among the different biometric technologies that have emerged in the last decade, automatic iris verification systems are recognised as the most reliable. This paper presents firstly a new iris verification algorithm based on the concept of Emergent Frequency Demodulation (EMD). The emergent frequency information is related to the Hilbert transform and it is used to extract discriminative features from iris texture. This is followed by a software implementation of the proposed EMD-based iris images processing on ARM920T core-module which demonstrates the feasibility of embedding the iris technology on future multimedia mobile platform.La biométrie, qui désigne la mesure d’attributs caractéristiques du corps humain, est très utile pour authentifier un individu, comme par exemple pour le contrôle d’accès. Le marché de l’authentification par des approches biométriques est favorisé par les récents progrès des technologies informatiques, et l’essor du commerce électronique et des objets de communication nomades (téléphones et ordinateurs portables, PDA, etc.), qui nécessitent d’identifier automatiquement une personne physique plutôt que d’utiliser un mot de passe ou une carte d’accès. Bien que chacune des techniques biométriques présente un intérêt particulier suivant l’application visée, nous constatons que les systèmes de reconnaissance basés sur l’iris sont parmi les plus fiables. Nous proposons une nouvelle approche de vérification d’images d’iris, qui repose sur le concept de démodulation de fréquence émergente (relatif à la notion d’image analytique ou de transformée de Hilbert) afin d’extraire une information caractéristique de la texture d’un iris. Nous montrerons la faisabilité d’intégration de la technologie de l’iris sur les futurs terminaux mobiles, et plus particulièrement la portabilité de la chaîne algorithmique de traitement d’images d’iris sur une plate-forme multimédia embarquée basée sur le module-coeur ARM920T

    Compression vidéo par compensation du mouvement utilisant des transformations adaptatives

    Get PDF
    Principe de la compensation de mouvement -- Estimation du mouvement -- Compensation de mouvement -- Présentation générale du système -- Description du mouvement basée sur le flux optique -- Représentation du mouvement -- Transformation du flux en composantes principales -- Modèle à source composée -- Apprentissage des composantes principales par réseau de neuronnes -- Description de la méthode de compression vidéo -- Présentation des séquences de test -- Calcul du flux optique -- Compression du mouvement -- Reconstruction des images -- Transmission des images de mise à jour -- Implantation

    Comparaison des documents audiovisuels<br />par Matrice de Similarité

    Get PDF
    The work of this thesis relates to the comparison of video documents. The field of digital video is in full expansion. Videos are now present in large quantity even for personal use. The video comparison is a basic analysis operation in complement of classification, extraction and structuring of videos.Traditional approaches of comparison are primarily based on the low-level features of the videos to be compared, considered as multidimensional vectors. Other approaches are based on the similarity of frames without taking into account neither the temporal composition of the video nor the audiolayer. The main disadvantage of these methods is that they reduce the comparison role to a simple operator robust to noise effects. Such operators are generally used in order to identify the various specimens of a same document.The originality of our approach lies in the introduction of the of style similarity notion, taking as a starting point the human criteria into the comparison. These criteria are more flexible, and do not impose a strict similarity of all the studied features at the same time.We define an algorithm of extraction of the similarities between the series of values produced bythe analysis of the audiovisual low-level features. The algorithm is inspired by the dynamic programmingand the time series comparison methods.We propose a representation of the data resulting from these processings in the form of a matrixpattern suitable for the visual and immediate comparison of two videos. This matrix is then used topropose a generic similarity measure. The measure is applicable independently to videos of comparableor heterogeneous contents.We developed several applications to demonstrate the behavior of the comparison method and thesimilarity measure. The experiments concern primarily: - the identification of the structure in acollection/sub-collection of documents, - the description of stylistics elements in a movie, and - theanalysis of the grid of programs from a TV stream.Les travaux de cette thèse concernent la comparaison des documents vidéo. Dans le domaine en pleine expansion de la vidéo numérique, les documents disponibles sont maintenant présents en quantité importante même dans les foyers. Opération de base de tout type d'analyse de contenus, en complément de la classification, de l'extraction et de la structuration, la comparaison dans le domaine de l'audiovisuel est d'une utilité qui n'est pas à démontrer.Des approches classiques de comparaison se basent essentiellement sur l'ensemble des caractéristiquesbas niveaux des documents à comparer, en les considérant comme des vecteurs multidimensionnels. D'autres approches se basent sur la similarité des images composant la vidéo sans tenir compte de la composition temporelle du document ni de la bandeson. Le défaut que l'on peut reprocher à ces méthodes est qu'elles restreignent la comparaison à un simple opérateur binaire robuste au bruit. De tels opérateurs sont généralement utilisés afin d'identifier les différents exemplaires d'un même document. L'originalité de notre démarche réside dans le fait que nous introduisons la notion de la similarité de styleen s'inspirant des critères humains dans la comparaison des documents vidéo. Ces critèressont plus souples, et n'imposent pas une similarité stricte de toutes les caractéristiques étudiéesà la fois.En nous inspirant de la programmation dynamique et de la comparaison des séries chronologiques, nous définissons un algorithme d'extraction des similarités entre les séries de valeurs produites par l'analyse de caractéristiques audiovisuelles de bas-niveau. Ensuite, un second traitement générique approxime le résultat de l'algorithme de la longueur de la PlusLongue Sous-Séquence Commune (PLSC) plus rapidement que ce dernier. Nous proposons une représentation des données issues de ces traitements sous la forme d'un schéma matriciel propre à la comparaison visuelle et immédiate de deux contenus. Cette matrice peut être également utilisée pour définir une mesure de similarité générique, applicable à des documents de même genre ou de genres hétérogènes.Plusieurs applications ont été mises en place pour démontrer le comportement de la méthode de comparaison et de la mesure de similarité, ainsi que leur pertinence. Les expérimentations concernent essentiellement : - l'identification d'une structure organisationnelle en collection / sous-collection d'une base de documents, - la mise en évidence d'élémentsstylistiques dans un film de cinéma, - la mise en évidence de la grille de programmes d'unflux de télévision
    corecore