219 research outputs found

    Détection de motifs audio pour la séparation de sources guidée. Application aux bandes- son de films.

    Get PDF
    Lorsque l'on manipule un signal audio, il est gĂ©nĂ©ralement utile d'opĂ©rer un isolement du ou des Ă©lĂ©ments sonores que l'on cherche Ă  traiter. Cette Ă©tape est couramment appelĂ©e sĂ©paration de sources audio. Il existe de nombreuses techniques pour estimer ces sources et plus on prend en compte d'informations Ă  leur sujet plus la sĂ©paration a des chances d'ĂȘtre rĂ©ussie. Une façon d'incorporer des informations sur une source est l'utilisation d'un signal de rĂ©fĂ©rence qui va donner une premiĂšre approximation de cette source. Cette thĂšse s'attache Ă  explorer les aspects thĂ©oriques et appliquĂ©s de la sĂ©paration de sources audio guidĂ©e par signal de rĂ©fĂ©rence. La nouvelle approche proposĂ©e appelĂ©e SPOtted REference based Separation (SPORES) examine le cas particulier oĂč les rĂ©fĂ©rences sont obtenues automatiquement par dĂ©tection de motif, c'est-Ă -dire par une recherche de contenu similaire. Pour qu'une telle approche soit utile, le contenu traitĂ© doit comporter une certaine redondance ou bien une large base de donnĂ©es doit ĂȘtre disponible. Heureusement, le contexte actuel nous permet bien souvent d'ĂȘtre dans une des deux situations et ainsi de retrouver ailleurs des motifs similaires. L'objectif premier de ce travail est de fournir un cadre thĂ©orique large qui une fois Ă©tabli facilitera la mise au point efficace d'outils de traitement de contenus audio variĂ©s. Le second objectif est l'utilisation spĂ©cifique de cette approche au traitement de bandes-son de films avec par exemple comme application leur conversion en format surround 5.1 adaptĂ© aux systĂšmes home cinema.In audio signal processing, source separation consists in recovering the different audio sources that compose a given observed audio mixture. They are many techniques to estimate these sources and the more information are taken into account about them the more the separation is likely to be successful. One way to incorporate information on sources is the use of a reference signal which will give a first approximation of this source. This thesis aims to explore the theoretical and applied aspects of reference guided source separation. The proposed approach called SPOtted REference based Separation (SPORES) explore the particular case where the references are obtained automatically by motif spotting, i.e., by a search of similar content. Such an approach is useful for contents with a certain redundancy or if a large database is be available. Fortunately, the current context often puts us in one of these two situations and finding elsewhere similar motifs is possible. The primary objective of this study is to provide a broad theoretical framework that once established will facilitate the efficient development of processing tools for various audio content. The second objective is the specific use of this approach to the processing of movie soundtracks with application in 5.1 upmixing for instance

    De l'indexation d'évÚnements dans des films (application à la détection de violence)

    Get PDF
    Dans cette thĂšse, nous nous intĂ©ressons Ă  la dĂ©tection de concepts sĂ©mantiques dans des films "Hollywoodiens" Ă  l'aide de concepts audio et vidĂ©os, dans le cadre applicatif de la dĂ©tection de violence. Nos travaux se portent sur deux axes : la dĂ©tection de concepts audio violents, tels que les coups de feu et les explosions, puis la dĂ©tection de violence, dans un premier temps uniquement fondĂ©e sur l'audio, et dans un deuxiĂšme temps fondĂ©e sur l'audio et la vidĂ©o. Dans le cadre de la dĂ©tection de concepts audio, nous mettons tout d'abord un problĂšme de gĂ©nĂ©ralisation en lumiĂšre, et nous montrons que ce problĂšme est probablement dĂ» Ă  une divergence statistique entre les attributs audio extraits des films. Nous proposons pour rĂ©soudre ce problĂšme d'utiliser le concept des mots audio, de façon Ă  rĂ©duire cette variabilitĂ© en groupant les Ă©chantillons par similaritĂ©, associĂ© Ă  des rĂ©seaux BayĂ©siens contextuels. Les rĂ©sultats obtenus sont trĂšs encourageants, et une comparaison avec un Ă©tat de l'art obtenu sur les mĂȘme donnĂ©es montre que les rĂ©sultats sont Ă©quivalents. Le systĂšme obtenu peut ĂȘtre soit trĂšs robuste vis-Ă -vis du seuil appliquĂ© en utilisant la fusion prĂ©coce des attributs, soit proposer une grande variĂ©tĂ© de points de fonctionnement. Nous proposons enfin une adaptation de l'analyse factorielle dĂ©veloppĂ©e dans le cadre de la reconnaissance du locuteur, et montrons que son intĂ©gration dans notre systĂšme amĂ©liore les rĂ©sultats obtenus. Dans le cadre de la dĂ©tection de violence, nous prĂ©sentons la campagne d'Ă©valuation MediaEval Affect Task 2012, dont l'objectif est de regrouper les Ă©quipes travaillant sur le sujet de la dĂ©tection de violence. Nous proposons ensuite trois systĂšmes pour dĂ©tecter la violence, deux fondĂ©s uniquement sur l'audio, le premier utilisant une description TF-IDF, et le second Ă©tant une intĂ©gration du systĂšme de dĂ©tection de concepts audio dans le cadre de la dĂ©tection violence, et un systĂšme multimodal utilisant l'apprentissage de structures de graphe dans des rĂ©seaux bayĂ©siens. Les performances obtenues dans le cadre des diffĂ©rents systĂšmes, et une comparaison avec les systĂšmes dĂ©veloppĂ©s dans le cadre de MediaEval, montrent que nous sommes au niveau de l'Ă©tat de l'art, et rĂ©vĂšlent la complexitĂ© de tels systĂšmes.In this thesis, we focus on the detection of semantic concepts in "Hollywood" movies using audio and video concepts for the detection of violence. We present experiments in two main areas : the detection of violent audio concepts such as gunshots and explosions, and the detection of violence, initially based only on audio, then based on both audio and video. In the context of audio concepts detection, we first show a generalisation arising between movies. We show that this problem is probably due to a statistical divergence between the audio features extracted from the movies. In order to solve it, we propose to use the concept of audio words, so as to reduce the variability by grouping samples by similarity, combined with contextual Bayesian networks. The results are very encouraging, and a comparison with the state of the art obtained on the same data shows that the results we obtain are equivalent. The resulting system can be either robust against the threshold applied by using early fusion of features, or provides a wide variety of operating points. We finally propose an adaptation of the factor analysis scheme developed in the context of speaker recognition, and show that its integration into our system improves the results. In the context of the detection of violence, we present the Mediaeval Affect Task 2012 evaluation campaign, which aims at bringing together teams working on the topic of violence detection. We then propose three systems for detecting the violence. The first two are based only on audio, the first using a TF-IDF description, and the second being the integration of the previous system for the detection violence. The last system we present is a multimodal system based on Bayesian networks that allows us to explore structure learning algorithms for graphs. The performance obtained in the different systems, and a comparison to the systems developed within Mediaeval, show that we are comparable to the state of the art, and show the complexity of such systems.RENNES1-Bibl. Ă©lectronique (352382106) / SudocSudocFranceF

    Joint coding/decoding techniques and diversity techniques for video and HTML transmission over wireless point/multipoint: a survey

    Get PDF
    I. Introduction The concomitant developments of the Internet, which offers to its users always larger and more evolved contents (from HTML (HyperText Markup Language) files to multimedia applications), and of wireless systems and handhelds integrating them, have progressively convinced a fair share of people of the interest to always be connected. Still, constraints of heterogeneity, reliability, quality and delay over the transmission channels are generally imposed to fulfill the requirements of these new needs and their corresponding economical goals. This implies different theoretical and practical challenges for the digital communications community of the present time. This paper presents a survey of the different techniques existing in the domain of HTML and video stream transmission over erroneous or lossy channels. In particular, the existing techniques on joint source and channel coding and decoding for multimedia or HTML applications are surveyed, as well as the related problems of streaming and downloading files over an IP mobile link. Finally, various diversity techniques that can be considered for such links, from antenna diversity to coding diversity, are presented...L’engouement du grand public pour les applications multimĂ©dia sans fil ne cesse de croĂźtre depuis le dĂ©veloppement d’Internet. Des contraintes d’hĂ©tĂ©rogĂ©nĂ©itĂ© de canaux de transmission, de fiabilitĂ©, de qualitĂ© et de dĂ©lai sont gĂ©nĂ©ralement exigĂ©es pour satisfaire les nouveaux besoins applicatifs entraĂźnant ainsi des enjeux Ă©conomiques importants. À l’heure actuelle, il reste encore un certain nombre de dĂ©fis pratiques et thĂ©oriques lancĂ©s par les chercheurs de la communautĂ© des communications numĂ©riques. C’est dans ce cadre que s’inscrit le panorama prĂ©sentĂ© ici. Cet article prĂ©sente d’une part un Ă©tat de l’art sur les principales techniques de codage et de dĂ©codage conjoint dĂ©veloppĂ©es dans la littĂ©rature pour des applications multimĂ©dia de type tĂ©lĂ©chargement et diffusion de contenu sur lien mobile IP. Sont tout d’abord rappelĂ©es des notions fondamentales des communications numĂ©riques Ă  savoir le codage de source, le codage de canal ainsi que les thĂ©orĂšmes de Shannon et leurs principales limitations. Les techniques de codage dĂ©codage conjoint prĂ©sentĂ©es dans cet article concernent essentiellement celles dĂ©veloppĂ©es pour des schĂ©mas de codage de source faisant intervenir des codes Ă  longueur variable (CLV) notamment les codes d’Huffman, arithmĂ©tiques et les codes entropiques universels de type Lempel-Ziv (LZ). Faisant face au problĂšme de la transmission de donnĂ©es (Hypertext Markup Language (HTML) et vidĂ©o) sur un lien sans fil, cet article prĂ©sente d’autre part un panorama de techniques de diversitĂ©s plus ou moins complexes en vue d’introduire le nouveau systĂšme Ă  multiples antennes d’émission et de rĂ©ception

    ModÚles, outils et plate-forme d'exécution pour les applications à service dynamiques

    Get PDF
    L'essor de l'Internet et l'Ă©volution des dispositifs communicants ont permis l'intĂ©gration du monde informatique et du monde rĂ©el, ouvrant ainsi la voie Ă  de nouveaux types d'applications, tels que les applications ubiquitaires et pervasives. Ces applications doivent s'exĂ©cuter dans des contextes hĂ©tĂ©rogĂšnes, distribuĂ©s et ouverts qui sont en constante Ă©volution. Dans de tels contextes, la disponibilitĂ© des services et des dispositifs, les prĂ©fĂ©rences et la localisation des utilisateurs peuvent varier Ă  tout moment pendant l'exĂ©cution des applications. La variabilitĂ© des contextes d'exĂ©cution fait que l'exĂ©cution d'une application dĂ©pend, par exemple, des services disponibles ou des dispositifs accessibles Ă  l'exĂ©cution. En consĂ©quence, l'architecture d'une telle application ne peut pas ĂȘtre connue statiquement Ă  la conception, au dĂ©veloppement ou au dĂ©ploiement, ce qui impose de redĂ©finir ce qu'est une application dynamique : comment la concevoir, la dĂ©velopper, l'exĂ©cuter et la gĂ©rer Ă  l'exĂ©cution. Dans cette thĂšse, nous proposons une approche dirigĂ©e par les modĂšles pour la conception, le dĂ©veloppement et l'exĂ©cution d'applications dynamiques. Pour cela, nous avons dĂ©fini un modĂšle de composants Ă  services permettant d'introduire des propriĂ©tĂ©s de dynamisme au sein d'un modĂšle de composants. Ce modĂšle permet de dĂ©finir une application en intention, via un ensemble de propriĂ©tĂ©s, de contraintes et de prĂ©fĂ©rences de composition. Une application est ainsi spĂ©cifiĂ©e de façon abstraite ce qui permet de contrĂŽler la composition graduelle de l'application lors de son dĂ©veloppement et de son exĂ©cution. Notre approche vise Ă  effacer la frontiĂšre entre les activitĂ©s effectuĂ©es avant et pendant l'exĂ©cution des applications. Pour ce faire, le mĂȘme modĂšle et les mĂȘmes mĂ©canismes de composition sont utilisĂ©s de la conception jusqu'Ă  l'exĂ©cution des applications. A l'exĂ©cution, le processus de composition considĂšre, en plus, les services disponibles dans la plate-forme d'exĂ©cution permettant la composition opportuniste des applications ; ainsi que la variabilitĂ© du contexte d'exĂ©cution permettant l'adaptation dynamique des compositions. Nous avons mis en Ɠuvre notre approche via un prototype nommĂ© COMPASS, qui s'appuie sur les plates-formes CADSE pour la rĂ©alisation d'environnements logiciels de conception et de dĂ©veloppement, et APAM pour la rĂ©alisation d'un environnement d'exĂ©cution d'applications Ă  services dynamiques.The growth of the Internet and the evolution of communicating devices have allow the integration of the computer world and the real world, paving the way for developing new types of applications such as pervasive and ubiquitous ones. These applications must run in heterogeneous, distributed and open environments that evolve constantly. In such environments, the availability of services and devices, the preferences and location of users may change at any time during the execution of applications. The variability of the execution context makes the execution of an application dependent on the available services and devices. Building applications capable of evolving dynamically to their execution context is a challenging task. In fact, the architecture of such an application cannot be fully known nor statically specified at design, development or deployment times. It is then needed to redefine the concept of dynamic application in order to cover the design, development, execution and management phases, and to enable thus the dynamic construction and evolution of applications. In this dissertation, we propose a model-driven approach for the design, development and execution of dynamic applications. We defined a component service model that considers dynamic properties within a component model. This model allows defining an application by its intention (its goal) through a set of composition properties, constraints and preferences. An application is thus specified in an abstract way, which allows controlling its gradual composition during development and execution times. Our approach aims to blur the boundary between development-time and runtime. Thus, the same model and the same composition mechanisms are used from design to runtime. At runtime, the composition process considers also the services available in the execution platform in order to compose applications opportunistically; and the variability of the execution context in order to adapt compositions dynamically. We implemented our approach through a prototype named COMPASS, which relies on the CADSE platform for building software design and development environments, and on the APAM platform for building an execution environment for dynamic service-based applications.SAVOIE-SCD - Bib.Ă©lectronique (730659901) / SudocGRENOBLE1/INP-Bib.Ă©lectronique (384210012) / SudocGRENOBLE2/3-Bib.Ă©lectronique (384219901) / SudocSudocFranceF

    Influence du son lors de l’exploration de scùnes naturelles dynamiques : prise en compte de l’information sonore dans un modùle d’attention visuelle

    Get PDF
    We study the influence of different audiovisual features on the visualexploration of dynamic natural scenes. We show that, whilst the way a person explores a scene primarily relies on its visual content, sound sometimes significantly influences eye movements. Sound assures a better coherence between the eye positions of different observers, attracting their attention and thus their gaze toward the same regions. The effect of sound is particularly strong in conversation scenes, where the related speech signal boosts the number of fixations on speakers' faces, and thus increases the consistency between scanpaths. We propose an audiovisual saliency model able to automatically locate speakers' faces so as to enhance their saliency. These results are based on the eye movements of 148 participants recorded on more than 75,400 frames (125 videos) in 5 different experimental conditions.Nous Ă©tudions l'influence de diffĂ©rents attributs audiovisuels sur l'exploration visuelle de scĂšnes naturelles dynamiques. Nous dĂ©montrons que si la façon dont nous explorons une scĂšne dĂ©pend avant tout de son contenu visuel, dans certaines situations le son influence significativement les mouvements oculaires. La prĂ©sence de son assure une meilleure cohĂ©rence entre les positions oculaires de diffĂ©rents observateurs, attirant leur attention et donc leur regard vers les mĂȘmes rĂ©gions. L'effet du son se retrouve tout particuliĂšrement dans les scĂšnes de conversation, oĂč la prĂ©sence du signal de parole associĂ© augmente le nombre de fixations sur le visage des locuteurs, et donc la cohĂ©rence entre les scanpaths. Nous proposons un modĂšle de saillance audiovisuelle repĂ©rant automatiquement le visage des locuteurs afin d'en rehausser la saillance. Ces rĂ©sultats s'appuient sur les mouvements oculaires de 148 participants enregistrĂ©s sur un total de plus de 75 400 frames (125 vidĂ©os) dans 5 conditions expĂ©rimentales diffĂ©rentes

    Fusion multi-niveaux par boosting pour le tagging automatique

    Get PDF
    Tags constitute a very useful tool for multimedia document indexing. This PhD thesis deals with automatic tagging, which consists in associating a set of tags to each song automatically, using an algorithm. We use boosting techniques to design a learning which better considers the complexity of the information expressed by music. A boosting algorithm is proposed, which can jointly use song descriptions associated to excerpts of different durations. This algorithm is used to fuse new descriptions, which belong to different abstraction levels. Finally, a new learning framework is proposed for automatic tagging, which better leverages the subtlety ofthe information expressed by music.Les tags constituent un outil trĂšs utile pour indexer des documents multimĂ©dias. Cette thĂšse de doctorat s’intĂ©resse au tagging automatique, c’est Ă  dire l’association automatique par un algorithme d’un ensemble de tags Ă  chaque morceau. Nous utilisons des techniques de boosting pour rĂ©aliser un apprentissage prenant mieux en compte la richesse de l’information exprimĂ©e par la musique. Un algorithme de boosting est proposĂ©, afin d’utiliser conjointement des descriptions de morceaux associĂ©es Ă  des extraits de diffĂ©rentes durĂ©es. Nous utilisons cet algorithme pour fusionner de nouvelles descriptions, appartenant Ă  diffĂ©rents niveaux d’abstraction. Enfin, un nouveau cadre d’apprentissage est proposĂ© pour le tagging automatique, qui prend mieux en compte les subtilitĂ©s des associations entre les tags et les morceaux

    Caractérisation et reconnaissance de sons d'eau pour le suivi des activités de la vie quotidienne. Une approche fondée sur le signal, l'acoustique et la perception

    Get PDF
    Avec le vieillissement de la population, le diagnostic et le traitement des dĂ©mences telle que la maladie d'Alzheimer constituent des enjeux sociaux de grande importance. Le suivi des activitĂ©s de la vie quotidienne du patient reprĂ©sente un point clĂ© dans le diagnostic des dĂ©mences. Dans ce contexte, le projet IMMED propose une utilisation innovante de la camĂ©ra portĂ©e pour le suivi Ă  distance des activitĂ©s effectuĂ©es. Nous avons ainsi travaillĂ© sur la reconnaissance de sons produits par l'eau, qui permet d'infĂ©rer sur un certain nombre d'activitĂ©s d'intĂ©rĂȘt pour les mĂ©decins, dont les activitĂ©s liĂ©es Ă  l'alimentation, Ă  l'entretien, ou Ă  l'hygiĂšne. Si divers travaux ont dĂ©jĂ  Ă©tĂ© effectuĂ©s sur la reconnaissance des sons d'eau, ils sont difficilement adaptables aux enregistrements de la vie quotidienne, caractĂ©risĂ©s par un recouvrement important de diffĂ©rentes sources sonores. Nous plaçons donc ce travail dans le cadre de l'analyse computationnelle de scĂšnes sonores, qui pose depuis plusieurs annĂ©es les bases thĂ©oriques de la reconnaissance de sources dans un mĂ©lange sonore. Nous prĂ©sentons dans cette thĂšse un systĂšme basĂ© sur un nouveau descripteur audio, appelĂ© couverture spectrale, qui permet de reconnaĂźtre les flux d'eau dans des signaux sonores issus d'environnements bruitĂ©s. Des expĂ©riences effectuĂ©es sur plus de 7 heures de vidĂ©o valident notre approche et permettent d'intĂ©grer ce systĂšme au sein du projet IMMED. Une Ă©tape complĂ©mentaire de classification permet d'amĂ©liorer notablement les rĂ©sultats. NĂ©anmoins, nos systĂšmes sont limitĂ©s par une certaine difficultĂ© Ă  caractĂ©riser, et donc Ă  reconnaĂźtre, les sons d'eau. Nous avons Ă©largi notre analyse aux Ă©tudes acoustiques qui dĂ©crivent l'origine des sons d'eau. Selon ces analyses, les sons d'eau proviennent principalement de la vibration de bulles d'air dans l'eau. Les Ă©tudes thĂ©oriques et l'analyse de signaux rĂ©els ont permis de mettre au point une nouvelle approche de reconnaissance, fondĂ©e sur la dĂ©tection frĂ©quentielle de bulles d'air en vibration. Ce systĂšme permet de dĂ©tecter des sons de liquide variĂ©s, mais se trouve limitĂ© par des flux d'eau trop complexes et bruitĂ©s. Au final, ce nouveau systĂšme, basĂ© sur la vibration de bulles d'air, est complĂ©mentaire avec le systĂšme de reconnaissance de flux d'eau, mais ne peux s'y substituer. Pour comparer ce rĂ©sultat avec le fonctionnement de l'Ă©coute humaine, nous avons effectuĂ© une Ă©tude perceptive. Dans une expĂ©rience de catĂ©gorisation libre, effectuĂ©e sur un ensemble important de sons de liquide du quotidien, les participants sont amenĂ©s Ă  effectuer des groupes de sons en fonction de leur similaritĂ© causale. Les analyses des rĂ©sultats nous permettent d'identifier des catĂ©gories de sons produits par les liquides, qui mettent en Ă©vidence l'utilisation de diffĂ©rentes stratĂ©gies cognitives dans l'identification les sons d'eau et de liquide. Une expĂ©rience finale effectuĂ©e sur les catĂ©gories obtenues souligne l'aspect nĂ©cessaire et suffisant de nos systĂšmes sur un corpus variĂ© de sons d'eau du quotidien. Nos deux approches semblent donc pertinentes pour caractĂ©riser et reconnaĂźtre un ensemble important de sons produits par l'eau.The analysis of instrumental activities of daily life is an important tool in the early diagnosis of dementia such as Alzheimer. The IMMED project investigates tele-monitoring technologies to support doctors in the diagnostic and follow-up of the illnesses. The project aims to automatically produce indexes to facilitate the doctor’s navigation throughout the individual video recordings. Water sound recognition is very useful to identify everyday activities (e.g. hygiene, household, cooking, etc.). Classical methods of sound recognition, based on learning techniques, are ineffective in the context of the IMMED corpus, where data are very heterogeneous. Computational auditory scene analysis provides a theoretical framework for audio event detection in everyday life recordings. We review applications of single or multiple audio event detection in real life. We propose a new system of water flow recognition, based on a new feature called spectral cover. Our system obtains good results on more than seven hours of videos, and thus is integrated to the IMMED framework. A second stage improves the system precision using Gammatone Cepstral Coefficients and Support Vector Machines. However, a perceptive study shows the difficulty to characterize water sounds by a unique definition. To detect other water sounds than water flow, we used material provide by acoustics studies. A liquid sound comes mainly from harmonic vibrations resulting from the entrainment of air bubbles. We depicted an original system to recognize water sounds as group of air bubble sounds. This new system is able to detect a wide variety of water sounds, but cannot replace our water flow detection system. Our two systems seem complementary to provide a robust recognition of different water sounds of daily living. A perceptive study aims to compare our two approaches with human perception. A free categorization task has been set up on various excerpts of liquid sounds. The framework of this experiment encourages causal similarity. Results show several classes of liquids sounds, which may reflect the cognitive categories. In a final experiment performed on these categories, most of the sounds are detected by one of our two systems. This result emphasizes the necessary and sufficient aspect of our two approaches, which seem relevant to characterize and identify a large set of sounds produced by the water

    Reconnaissance des sons de l'environnement dans un contexte domotique

    Get PDF
    Dans beaucoup de pays du monde, on observe une importante augmentation du nombre de personnes ĂągĂ©es vivant seules. Depuis quelques annĂ©es, un nombre significatif de projets de recherche sur l assistance aux personnes ĂągĂ©es ont vu le jour. La plupart de ces projets utilisent plusieurs modalitĂ©s (vidĂ©o, son, dĂ©tection de chute, etc.) pour surveiller l'activitĂ© de la personne et lui permettre de communiquer naturellement avec sa maison "intelligente", et, en cas de danger, lui venir en aide au plus vite. Ce travail a Ă©tĂ© rĂ©alisĂ© dans le cadre du projet ANR VERSO de recherche industrielle, Sweet-Home. Les objectifs du projet sont de proposer un systĂšme domotique permettant une interaction naturelle (par commande vocale et tactile) avec la maison, et procurant plus de sĂ©curitĂ© Ă  l'habitant par la dĂ©tection des situations de dĂ©tresse. Dans ce cadre, l'objectif de ce travail est de proposer des solutions pour la reconnaissance des sons de la vie courante dans un contexte rĂ©aliste. La reconnaissance du son fonctionnera en amont d'un systĂšme de Reconnaissance Automatique de la Parole. Les performances de celui-ci dĂ©pendent donc de la fiabilitĂ© de la sĂ©paration entre la parole et les autres sons. Par ailleurs, une bonne reconnaissance de certains sons, complĂ©tĂ©e par d'autres sources informations (dĂ©tection de prĂ©sence, dĂ©tection de chute, etc.) permettrait de bien suivre les activitĂ©s de la personne et de dĂ©tecter ainsi les situations de danger. Dans un premier temps, nous nous sommes intĂ©ressĂ©s aux mĂ©thodes en provenance de la Reconnaissance et VĂ©rification du Locuteur. Dans cet esprit, nous avons testĂ© des mĂ©thodes basĂ©es sur GMM et SVM. Nous avons, en particulier, testĂ© le noyau SVM-GSL (SVM GMM Supervector Linear Kernel) utilisĂ© pour la classification de sĂ©quences. SVM-GSL est une combinaison de SVM et GMM et consiste Ă  transformer une sĂ©quence de vecteurs de longueur arbitraire en un seul vecteur de trĂšs grande taille, appelĂ© Super Vecteur, et utilisĂ© en entrĂ©e d'un SVM. Les expĂ©rimentations ont Ă©tĂ© menĂ©es en utilisant une base de donnĂ©es crĂ©Ă©e localement (18 classes de sons, plus de 1000 enregistrements), puis le corpus du projet Sweet-Home, en intĂ©grant notre systĂšme dans un systĂšme plus complet incluant la dĂ©tection multi-canaux du son et la reconnaissance de la parole. Ces premiĂšres expĂ©rimentations ont toutes Ă©tĂ© rĂ©alisĂ©es en utilisant un seul type de coefficients acoustiques, les MFCC. Par la suite, nous nous sommes penchĂ©s sur l'Ă©tude d'autres familles de coefficients en vue d'en Ă©valuer l'utilisabilitĂ© en reconnaissance des sons de l'environnement. Notre motivation fut de trouver des reprĂ©sentations plus simples et/ou plus efficaces que les MFCC. En utilisant 15 familles diffĂ©rentes de coefficients, nous avons Ă©galement expĂ©rimentĂ© deux approches pour transformer une sĂ©quence de vecteurs en un seul vecteur, Ă  utiliser avec un SVM linĂ©aire. Dans le premiĂšre approche, on calcule un nombre fixe de coefficients statistiques qui remplaceront toute la sĂ©quence de vecteurs. La seconde approche (une des contributions de ce travail) utilise une mĂ©thode de discrĂ©tisation pour trouver, pour chaque caractĂ©ristique d'un vecteur acoustique, les meilleurs points de dĂ©coupage permettant d'associer une classe donnĂ©e Ă  un ou plusieurs intervalles de valeurs. La probabilitĂ© de la sĂ©quence est estimĂ©e par rapport Ă  chaque intervalle. Les probabilitĂ©s obtenues ainsi sont utilisĂ©es pour construire un seul vecteur qui remplacera la sĂ©quence de vecteurs acoustiques. Les rĂ©sultats obtenus montrent que certaines familles de coefficients sont effectivement plus adaptĂ©es pour reconnaĂźtre certaines classes de sons. En effet, pour la plupart des classes, les meilleurs taux de reconnaissance ont Ă©tĂ© observĂ©s avec une ou plusieurs familles de coefficients diffĂ©rentes des MFCC. Certaines familles sont, de surcroĂźt, moins complexes et comptent une seule caractĂ©ristique par fenĂȘtre d'analyse contre 16 caractĂ©ristiques pour les MFCCIn many countries around the world, the number of elderly people living alone has been increasing. In the last few years, a significant number of research projects on elderly people monitoring have been launched. Most of them make use of several modalities such as video streams, sound, fall detection and so on, in order to monitor the activities of an elderly person, to supply them with a natural way to communicate with their smart-home , and to render assistance in case of an emergency. This work is part of the Industrial Research ANR VERSO project, Sweet-Home. The goals of the project are to propose a domotic system that enables a natural interaction (using touch and voice command) between an elderly person and their house and to provide them a higher safety level through the detection of distress situations. Thus, the goal of this work is to come up with solutions for sound recognition of daily life in a realistic context. Sound recognition will run prior to an Automatic Speech Recognition system. Therefore, the speech recognition s performances rely on the reliability of the speech/non-speech separation. Furthermore, a good recognition of a few kinds of sounds, complemented by other sources of information (presence detection, fall detection, etc.) could allow for a better monitoring of the person's activities that leads to a better detection of dangerous situations. We first had been interested in methods from the Speaker Recognition and Verification field. As part of this, we have experimented methods based on GMM and SVM. We had particularly tested a Sequence Discriminant SVM kernel called SVM-GSL (SVM GMM Super Vector Linear Kernel). SVM-GSL is a combination of GMM and SVM whose basic idea is to map a sequence of vectors of an arbitrary length into one high dimensional vector called a Super Vector and used as an input of an SVM. Experiments had been carried out using a locally created sound database (containing 18 sound classes for over 1000 records), then using the Sweet-Home project's corpus. Our daily sounds recognition system was integrated into a more complete system that also performs a multi-channel sound detection and speech recognition. These first experiments had all been performed using one kind of acoustical coefficients, MFCC coefficients. Thereafter, we focused on the study of other families of acoustical coefficients. The aim of this study was to assess the usability of other acoustical coefficients for environmental sounds recognition. Our motivation was to find a few representations that are simpler and/or more effective than the MFCC coefficients. Using 15 different acoustical coefficients families, we have also experimented two approaches to map a sequence of vectors into one vector, usable with a linear SVM. The first approach consists of computing a set of a fixed number of statistical coefficients and use them instead of the whole sequence. The second one, which is one of the novel contributions of this work, makes use of a discretization method to find, for each feature within an acoustical vector, the best cut points that associates a given class with one or many intervals of values. The likelihood of the sequence is estimated for each interval. The obtained likelihood values are used to build one single vector that replaces the sequence of acoustical vectors. The obtained results show that a few families of coefficients are actually more appropriate to the recognition of some sound classes. For most sound classes, we noticed that the best recognition performances were obtained with one or many families other than MFCC. Moreover, a number of these families are less complex than MFCC. They are actually a one-feature per frame acoustical families, whereas MFCC coefficients contain 16 features per frameEVRY-INT (912282302) / SudocSudocFranceF

    Communication virale dans la publicité au sein des espaces numériques : Approche critique et expérimentale du phénomÚne

    Get PDF
    Our thesis examines the notion of viral communication in digital social spaces both in general and when applied to online video advertisement. Our research revealed a lack of clarity and coherence in its definition and meaning (Beauvisage et al., 2011) that necessited an effort of standardization before planning to pursue our work. Furthermore, our literature review pointed out the complexity of the viral phenomenon and its comprehension. This complexity is due to the number and different factors originating the viral phenomenon (Beauvisage et al., 2011).In order to highlight one of those factors, we make the first hypothesis that the variations in the quality of the definition (high or standard) of a video have an effect over the evaluation of the video (H1). Corollary, we think that the quality of the definition affects this video sharings (H2). More precisely, we think that a video will be more shared if it is watched in high definition rather than in standard definition. In order to meet those hypotheses, we opted for an experimental approach.Notre thĂšse interroge la notion de communication virale dans les espaces socionumĂ©riques de maniĂšre gĂ©nĂ©rale et plus particuliĂšrement lorsque ce phĂ©nomĂšne s’applique aux vidĂ©os publicitaires en ligne. Nos recherches ont rĂ©vĂ©lĂ© un manque Ă©vident de clartĂ© et de cohĂ©rence au niveau de sa dĂ©finition et de son acception (Beauvisage et al., 2011) qu’il a fallu corriger par un travail d’harmonisation avant d’envisager la suite de nos travaux. De plus, notre revue de littĂ©rature a mis en avant la complexitĂ© du phĂ©nomĂšne viral et de son apprĂ©hension ; complexitĂ© nourrie par le nombre et la nature des facteurs Ă  son origine (Beauvisage et al., 2011). Afin de mettre en avant un de ces facteurs, nous Ă©mettons pour premiĂšre hypothĂšse que les variations de qualitĂ© de la dĂ©finition (haute ou standard) d’une vidĂ©o influencent l’apprĂ©ciation de la vidĂ©o (H1). Par corollaire, nous pensons que le partage de cette vidĂ©o est affectĂ© par la qualitĂ© de la dĂ©finition (H2). Plus prĂ©cisĂ©ment, nous pensons qu’une mĂȘme vidĂ©o sera plus partagĂ©e si elle est visionnĂ©e en haute dĂ©finition plutĂŽt qu’en dĂ©finition standard. Pour rĂ©pondre Ă  ces hypothĂšses nous avons optĂ© pour une approche expĂ©rimentale

    Les Pratiques et défis de l'évaluation en ligne

    Get PDF
    Titre de l'écran-titre (visionné le 17 fév. 2012). URL externe corrigée le 16 mars 2017.Document préparé pour le Réseau d'enseignement francophone à distance du CanadaCe projet a été rendu possible grùce à un financement du MinistÚre du Patrimoine canadie
    • 

    corecore