14 research outputs found
Automatic Speech Recognition Errors Detection Using Supervised Learning Techniques
Over the last years, many advances have been made in the field of Automatic Speech Recognition (ASR). However, the persistent presence of ASR errors is limiting the widespread adoption of speech technology in real life applications. This motivates the attempts to find alternative techniques to automatically detect and correct ASR errors, which can be very effective and especially when the user does not have access to tune the features, the models or the decoder of the ASR system or when the transcription serves as input to downstream systems like machine translation, information retrieval, and question answering. In this paper, we present an ASR errors detection system targeted towards substitution and insertion errors. The proposed system is based on supervised learning techniques and uses input features deducted only from the ASR output words and hence should be usable with any ASR system. Applying this system on TV program transcription data leads to identify 40.30% of the recognition errors generated by the ASR system
Evaluation of the effectiveness and efficiency of state-of-the-art features and models for automatic speech recognition error detection
Speech based human-machine interaction and natural language understanding applications have seen a rapid development and wide adoption over the last few decades. This has led to a proliferation of studies that investigate Error detection and classification in Automatic Speech Recognition (ASR) systems. However, different data sets and evaluation protocols are used, making direct comparisons of the proposed approaches (e.g. features and models) difficult. In this paper we perform an extensive evaluation of the effectiveness and efficiency of state-of-the-art approaches in a unified framework for both errors detection and errors type classification. We make three primary contributions throughout this paper: (1) we have compared our Variant Recurrent Neural Network (V-RNN) model with three other state-of-the-art neural based models, and have shown that the V-RNN model is the most effective classifier for ASR error detection in term of accuracy and speed, (2) we have compared four features’ settings, corresponding to different categories of predictor features and have shown that the generic features are particularly suitable for real-time ASR error detection applications, and (3) we have looked at the post generalization ability of our error detection framework and performed a detailed post detection analysis in order to perceive the recognition errors that are difficult to detect
Les conséquences de la croissance urbaine sur l’oliveraie de Beni Mellal (Région de Tadla-Azilal, Maroc) : apports des SIG et de la télédétection
International audienceL’urbanisation anarchique, la dégradation du milieu naturel, les pollutions diverses posent de sérieux problèmes en terme d’environnement et d’aménagement de l’espace tadlaoui au Maroc. En effet, la ville de Beni Mellal, capitale régionale, connaît une urbanisation croissante globale au détriment de son espace agricole périurbain.Les conséquences de ce processus d’urbanisation se manifestent dans la régression des oliveraies de Beni Mellal. Durant quatre décennies, de 1964 à 2004, l’espace bâti a été multiplié par 31.8 et il a grignoté 13.65 ha par an. La population a connu aussi une forte évolution puisqu’elle est passée de 28933 habitants en 1960 à 163286 habitants en 2004.Cet article a pour objectif de montrer i ) l’ampleur de la croissance urbaine de Beni Mellal au détriment de l’oliveraie : ii ) l’importance des outils de la géomatique ( SIG et Télédétection ) dans le suivi spatial de la ville ainsi que dans la gestion concerté de l’environnement urbain et périurbain dans une perspective de développement durable qui tient en compte les nouveaux enjeux territoriaux dans un contexte de très forte pression foncièr
Processus d'urbanisation et accroissement des risques à Beni Mellal (Tadla-Azilal, Maroc) : apports des SIG et de la télédétection
International audienceL'urbanisation anarchique, la dégradation du milieu naturel, les pollutions diverses posent de sérieux problèmes en terme d'environnement et d'aménagement de l'espace tadlaoui au Maroc. En effet, la région Tadla-Azilal connaît une urbanisation croissante globale particulièrement marquée à Beni Mellal, capitale régionale, à Souk Sebt et à Fkih Ben Salah. Ce processus, associé à un actif mitage rural au détriment des périmètres irrigués de la plaine du Tadla, génère de nombreux nouveaux risques et en exacerbe d'autres déjà actifs. Au delà de l'empiètement sur les terres agricoles de la plaine et du Dir (piémont), ce sont les risques d'inondation et de crues brutales, d'effondrement karstique, de pollution et sanitaires qui soumettent les nouveaux quartiers périurbains, mais également plus anciens, à de nouvelles contraintes d'aménagement encore peu ou pas prises en compte. Le cas de Beni Mellal étudié ici, avec ses nouveaux quartiers légaux ou illégaux, précaires ou de standing, est particulièrement illustratif de ces nouveaux enjeux dans un contexte de très forte pression foncière. Ce travail, réalisé dans le cadre d'une Action Intégrée ( Volubilis ) unissant l'équipe du laboratoire CARTA ( université d'Angers, France ) à l'équipe marocaine du CEGETAO (Faculté des Lettres et des Sciences Humaines de Beni Mellal, Maroc ), a pour but la mise en place d'un outil d'aide à la décision pour une gestion concerté de l'environnement dans une perspective de développement durable à Beni Mellal, à travers l'intégration de toutes les données collectées sur le terrain et par télédétection dans un environnement SIG
Transcribing meetings with the AMIDA systems
In this paper, we give an overview of the AMIDA systems for transcription of conference and lecture room meetings. The systems were developed for participation in the Rich Transcription evaluations conducted by the National Institute for Standards and Technology in the years 2007 and 2009 and can process close talking and far field microphone recordings. The paper first discusses fundamental properties of meeting data with special focus on the AMI/AMIDA corpora. This is followed by a description and analysis of improved processing and modeling, with focus on techniques specifically addressing meeting transcription issues such as multi-room recordings or domain variability. In 2007 and 2009, two different strategies of systems building were followed. While in 2007 we used our traditional style system design based on cross adaptation, the 2009 systems were constructed semi-automatically, supported by improved decoders and a new method for system representation. Overall these changes gave a 6%-13% relative reduction in word error rate compared to our 2007 results while at the same time requiring less training material and reducing the real-time factor by five times. The meeting transcription systems are available at www.webasr.org
Multimodal Human Machine Interactions in Virtual and Augmented Reality
International audienceVirtual worlds are developing rapidly over the Internet. They are visited by avatars and staffed with Embodied Conversational Agents (ECAs). An avatar is a representation of a physical person. Each person controls one or several avatars and usually receives feedback from the virtual world on an audio-visual display. Ideally, all senses should be used to feel fully embedded in a virtual world. Sound, vision and sometimes touch are the available modalities. This paper reviews the technological developments which enable audio-visual interactions in virtual and augmented reality worlds. Emphasis is placed on speech and gesture interfaces, including talking face analysis and synthesi