3 research outputs found

    Combining pulse-based features for rejecting far-field speech in a HMM-based Voice Activity Detector. Computers & Electrical Engineering (CAEE).

    Full text link
    Nowadays, several computational techniques for speech recognition have been proposed. These techniques suppose an important improvement in real time applications where speaker interacts with speech recognition systems. Although researchers proposed many methods, none of them solve the high false alarm problem when far-field speakers interfere in a human-machine conversation. This paper presents a two-class (speech and non-speech classes) decision-tree based approach for combining new speech pulse features in a VAD (Voice Activity Detector) for rejecting far-field speech in speech recognition systems. This Decision Tree is applied over the speech pulses obtained by a baseline VAD composed of a frame feature extractor, a HMM-based (Hidden Markov Model) segmentation module and a pulse detector. The paper also presents a detailed analysis of a great amount of features for discriminating between close and far-field speech. The detection error obtained with the proposed VAD is the lowest compared to other well-known VAD

    Combining pulse-based features for rejecting far-field speech in a HMM-based Voice Activity Detector

    Get PDF
    ABSTRACT 1.-Introduction The advantages of using Automatic Speech Recognition are obvious for several types of applications. Speech Recognition becomes difficult when the main speaker is in noisy environments, for example in bars, where many far-field speakers are speaking almost all the time. This factor contributes to a reduction in the speech recognizer success rate that can lead to an unsatisfactory experience for the user. If there are too many recognition mistakes, the user is forced to correct the system which takes too long, it is a nuisance, and the user will finally reject the system. With the purpose of solving this problem a Robust Voice Activity Detector is proposed in this work. The VAD is able to select speech frames (noise frames are discarded). This frame information is sent to the Speech Recognizer and only speech pronunciations are processed, so the VAD tries to avoid Speech Recognizer mistakes coming from noisy frames. If the VAD works well, the Speech Recognizer does too. In summary, it is very common to find, in mobile phone scenarios, many situations in which the target speaker is situated in open environments surrounded by far-field interfering speech from other speakers. In this ambiguous case, VAD systems can detect far-field speech as coming from the user, increasing the speech recognition error rate. Generally, detection errors caused by background voices mainly increase word insertions and substitutions, leading to significant dialogue misunderstandings. This work tries to solve these speech-based application problems in which far-field speech can be wrongly considered as main speaker speech. In [1] a spectrum sensing scheme to detect the presence of the primary user for cognitive radio systems is proposed (very similar to the VAD proposed in this paper) being able to distinguish between main speaker speech and far-field speech. Moreover the system implemented in In several previous works, similar measurements, like those considered in this work, have been used for dereverberation techniques. I

    Communication dans le bruit : perception de sa propre voix et rehaussement de la parole

    Get PDF
    La communication dans le bruit est un problĂšme de tous les jours pour les travailleurs qui oeuvrent dans des environnements industriels bruyants. Un grand nombre de travailleurs se plaignent du fait que leurs protecteurs auditifs les empĂȘchent de communiquer facilement avec leurs collĂšgues. Ils ont alors tendance Ă  retirer leurs protecteurs et mettent ainsi leur audition Ă  risque. Ce problĂšme de communication est en fait double : les protecteurs modifient Ă  la fois la perception de la propre voix du porteur, ainsi que la comprĂ©hension de la parole des autres personnes. Cette double problĂ©matique est considĂ©rĂ©e dans le cadre de cette thĂšse. La modification de la perception de la propre voix du porteur des protecteurs est en partie due Ă  l’effet d’occlusion qui se produit lorsque le conduit auditif est occlus par un bouchon d’oreille. Cet effet d’occlusion se traduit essentiellement par une amĂ©lioration de la perception des sons de basses frĂ©quences internes Ă  l’ĂȘtre humain (bruits physiologiques), et par une modification de la perception de la propre voix de la personne. Dans le but de mieux comprendre ce phĂ©nomĂšne, suite Ă  une Ă©tude approfondie de ce qui se trouve dĂ©jĂ  dans la littĂ©rature, une nouvelle mĂ©thode pour quantifier l’effet d’occlusion a Ă©tĂ© dĂ©veloppĂ©e. Au lieu d’exciter la boite crĂąnienne du sujet au moyen d’un pot vibrant ou de faire parler le sujet, comme il se fait classiquement dans la littĂ©rature, il a Ă©tĂ© dĂ©cidĂ© d’exciter la cavitĂ© buccale des sujets au moyen d’une onde sonore. L’expĂ©rience a Ă©tĂ© conçue de telle maniĂšre que l’onde sonore qui excite la cavitĂ© buccale n’excite pas l’oreille externe ou le reste du corps directement. La dĂ©termination des seuils auditifs en oreilles ouvertes et occluses a ainsi permis de quantifier un effet d’occlusion subjectif pour une onde sonore dans le conduit buccal. Ces rĂ©sultats ainsi que les autres quantifications d’effet d’occlusion prĂ©sentĂ©es dans la littĂ©rature ont permis de mieux comprendre le phĂ©nomĂšne de l’effet d’occlusion et d’évaluer l’influence des diffĂ©rents chemins de transmission entre la source sonore et l’oreille interne. La comprĂ©hension de la parole des autres personnes est altĂ©rĂ©e Ă  la fois par le fort niveau sonore prĂ©sent dans les environnements industriels bruyants et par l’attĂ©nuation du signal de parole due aux protecteurs auditifs. Une possibilitĂ© envisageable pour remĂ©dier Ă  ce problĂšme est de dĂ©bruiter le signal de parole puis de le transmettre sous le protecteur auditif. De nombreuses techniques de dÂŽebruitage existent et sont utilisĂ©es notamment pour dĂ©bruiter la parole en tĂ©lĂ©communication. Dans le cadre de cette thĂšse, le dĂ©bruitage par seuillage d’ondelettes est considĂ©rĂ©. Une premiĂšre Ă©tude des techniques “classiques” de dĂ©bruitage par ondelettes est rĂ©alisĂ©e afin d’évaluer leurs performances dans un environnement industriel bruyant. Ainsi les signaux de paroles testĂ©s sont altĂ©rĂ©s par des bruits industriels selon une large de gamme de rapports signal Ă  bruit. Les signaux dĂ©bruitĂ©s sont Ă©valuĂ©s au moyen de quatre critĂšres. Une importante base de donnĂ©es est ainsi obtenue et est analysĂ©e au moyen d’un algorithme de sĂ©lection conçue spĂ©cifiquement pour cette tĂąche. Cette premiĂšre Ă©tude a permis de mettre en Ă©vidence l’influence des diffĂšrents paramĂȘtres du dĂ©bruitage par ondelettes sur la qualitĂ© de celui-ci et ainsi de dĂ©terminer la mĂ©thode “classique” qui permet d’obtenir les meilleures performances en terme de qualitĂ© de dĂ©bruitage. Cette premiĂšre Ă©tude a Ă©galement permis de donner des guides pour la conception d’une nouvelle loi de seuillage adaptĂ©e au dĂ©bruitage de la parole par ondelettes dans un environnement industriel bruitĂ©. Cette nouvelle loi de seuillage est prĂ©sentĂ©e et Ă©valuĂ©e dans le cadre d’une deuxiĂšme Ă©tude. Ses performances se sont avĂ©rĂ©es supĂ©rieures Ă  la mĂ©thode “classique” mise en Ă©vidence dans la premiĂšre Ă©tude pour des signaux de parole dont le rapport signal Ă  bruit est compris entre −10 dB et 15 dB
    corecore