4 research outputs found

    A robot uses its own microphone to synchronize its steps to musical beats while scatting and singing

    Full text link
    Abstract—Musical beat tracking is one of the effective technologies for human-robot interaction such as musical ses-sions. Since such interaction should be performed in various environments in a natural way, musical beat tracking for a robot should cope with noise sources such as environmental noise, its own motor noises, and self voices, by using its own microphone. This paper addresses a musical beat tracking robot which can step, scat and sing according to musical beats by using its own microphone. To realize such a robot, we propose a robust beat tracking method by introducing two key techniques, that is, spectro-temporal pattern matching and echo cancellation. The former realizes robust tempo estimation with a shorter window length, thus, it can quickly adapt to tempo changes. The latter is effective to cancel self noises such as stepping, scatting, and singing. We implemented the proposed beat tracking method for Honda ASIMO. Experimental results showed ten times faster adaptation to tempo changes and high robustness in beat tracking for stepping, scatting and singing noises. We also demonstrated the robot times its steps while scatting or singing to musical beats. I

    Sound Representation and Classification Benchmark for Domestic Robots

    Get PDF
    International audienceWe address the problem of sound representation and classification and present results of a comparative study in the context of a domestic robotic scenario. A dataset of sounds was recorded in realistic conditions (background noise, presence of several sound sources, reverberations, etc.) using the humanoid robot NAO. An extended benchmark is carried out to test a variety of representations combined with several classifiers. We provide results obtained with the annotated dataset and we assess the methods quantitatively on the basis of their classification scores, computation times and memory requirements. The annotated dataset is publicly available at https://team.inria.fr/perception/nard/

    Real-Time Robot Audition System That Recognizes Simultaneous Speech in The Real World

    No full text
    Abstract — This paper presents a robot audition system that recognizes simultaneous speech in the real world by using robotembedded microphones. We have previously reported Missing Feature Theory (MFT) based integration of Sound Source Separation (SSS) and Automatic Speech Recognition (ASR) for building robust robot audition. We demonstrated that a MFTbased prototype system drastically improved the performance of speech recognition even when three speakers talked to a robot simultaneously. However, the prototype system had three problems; being offline, hand-tuning of system parameters, and failure in Voice Activity Detection (VAD). To attain online processing, we introduced FlowDesigner-based architecture to integrate sound source localization (SSL), SSS and ASR. This architecture brings fast processing and easy implementation because it provides a simple framework of shared-object-based integration. To optimize the parameters, we developed Genetic Algorithm (GA) based parameter optimization, because it is difficult to build an analytical optimization model for mutually dependent system parameters. To improve VAD, we integrated new VAD based on a power spectrum and location of a sound source into the system, since conventional VAD relying only on power often fails due to low signal-to-noise ratio of simultaneous speech. We, then, constructed a robot audition system for Honda ASIMO. As a result, we showed that the system worked online and fast, and had a better performance in robustness and accuracy through experiments on recognition of simultaneous speech in a noisy and echoic environment. Index Terms — missing feature theory, robot audition, voice activity detection, real-time processing, parameter optimization, genetic algorithm I

    Reconnaissance de locuteurs pour robot mobile

    Get PDF
    L'audition artificielle est de plus en plus utilisée en robotique mobile pour améliorer l'interaction humain-robot. La reconnaissance de la parole occupe présentement une place importante tandis qu'un intérêt particulier se développe pour la reconnaissance de locuteurs. Le système ManyEars permet actuellement à un robot mobile de localiser, suivre et séparer plusieurs sources sonores. Ce système utilise un ensemble de huit microphones qui sont disposés en cube. Ce mémoire porte sur la conception et l'évaluation d'un système de reconnaissance de locuteurs, baptisé WISS (Who IS Speaking), couplé au système ManyEars. Le système de reconnaissance de locuteurs conçu est robuste au bruit ambiant et au changement d'environnement. Une technique de combinaison de modèle parallèle (parallel model combination (PMC)) et des masques sont utilisés pour améliorer le taux d'identification dans un milieu bruité. Un indice de confiance est également introduit pour pondérer les identifications obtenues. La simplicité du système proposé fait en sorte qu'il est possible d'exécuter en temps réel l'algorithme sur un processeur généraliste ( General Purpose Processor (GPP)). Les performances du système sont établies à l'aide de plusieurs scénarios. Dans un premier lieu, des enregistrements sont diffusés dans des haut-parleurs pour un ensemble de vingt locuteurs. Le système est ainsi caractérisé en fonction des positions angulaires et radiales des sources sonores. Le taux de reconnaissance est affecté par la qualité du signal (i.e. diminution du rapport signal sur bruit ( Signal-to-Noise Ratio (SNR))) : il passe de 95.6% à 84.3% en moyenne lorsque le SNR passe d'environ 16 dB à 2 dB lorsque le locuteur se situe à 1.5 mètres des microphones. Par la suite, un scénario dit statique est vérifié à l'aide de quatre locuteurs qui récitent chacun leur tour des phrases à un volume de voix naturel. Finalement, un scénario dynamique dans lequel un groupe de quatre locuteurs ont une conversation naturelle avec des chevauchements entre les segments de paroles est étudié. Le taux de reconnaissance varie entre 74.2% et 100.0% (avec une moyenne de 90.6%) avec le scénario statique, et entre 42.6% et 100.0% avec le scénario dynamique (avec des moyennes de 58.3%, 72.8% et 81.4% pour des segments de 1, 2 et 3 secondes respectivement). Des solutions sont identifiées afin d'améliorer les performances lors de travaux futurs. Au meilleur de notre connaissance, il n'existe aucun système qui effectue une reconnaissance de locuteurs dans un environnement contaminé simultanément par des bruits convolutif et additif. De plus, l'utilisation de masques pour estimer ces bruits est un nouveau concept. Ces masques sont d'ailleurs généralement employés pour la reconnaissance de la parole et leur utilisation dans un contexte de reconnaissance de locuteur est une première. De plus, une caractérisation complète du système qui inclue les SNRs est proposée en fonction de la position du locuteur, ce qui est rarement disponible dans la littérature en audition artificielle pour les robots
    corecore