1 research outputs found

    Phoneme Compression: processing of the speech signal and effects on speech intelligibility in hearing-Impaired listeners

    Get PDF
    Hearing-aid users often continue to have problems with poor speech understanding in difficult acoustical conditions. Another generally accounted problem is that certain sounds become too loud whereas other sounds are still not audible. Dynamic range compression is a signal processing technique that may be used in hearing aids to compensate for these remaining disabilities. Its main function is to provide sufficient amplification at low input levels without overloading the auditory system at high input levels. The time constants define the time needed by the compressor to realize a change in amplification. When using relatively large time constants, the compressor only reduces differences in overall level. This type of compression is known as Automatic Gain Control (AGC) or Automatic Volume Control (AVC).With short time constants the compressor also reduces the dynamic range of a fast-fluctuating signal like speech. This last type of system is therefore often called a syllabic or a phoneme compressor. The main goal of using phoneme compression is to optimize speech intelligibility by improving the detection of weak speech cues. We developed a phoneme compression system to improve the perception of high-frequency speech cues in hearing impaired listeners. The basic mechanism is a continuously changing balancing between low- and high-frequency amplification, steered by the input level of each speech part. As a consequence, the system should provide a relatively high amount of amplification to weak high-frequency speech cues. A specific configuration was developed to additionally reduce the negative effect of low-frequency amplification on the detection of high-frequency cues. This type of configuration is called anti-USOM processing as it is meant to compensate for “Upward-Spread-Of-Masking” (USOM) of high-frequency information by low-frequency signal parts. The main goal of the present thesis was to evaluate the effect of the different compression configurations on speech intelligibility in a group of hearing-impaired listeners with moderate-to-severe perceptive high-frequency losses (chapters 4 to 7). Additionally, we have investigated the effect of various types of compression on amplitude-modulated signals and speech(-like) signals (chapters 2 and 3). The acoustical measurements in chapters 2 and 3 provided a good insight in the effect of compression on modulating signals like speech. Speech can be considered as a stream of sounds with a continuously varying spectrum. These spectral differences lead to fluctuations of the envelope of the signal within individual frequency bands. The modulation depth is a measure for the amount of fluctuations. Phoneme compression will normally reduce the amount of fluctuations, resulting in a smaller modulation depth. By comparing the modulation depth in a signal before and after compression, the effective amount of compression can be obtained. This method was applied using an amplitude-modulated signal (chapter 2) and using speech(-like) signals (chapter 3). Another method compared the average level distributions of speech with and without compression (chapter 2). The results show that relatively short time constants were needed to affect the range of modulations that are relevant to speech intelligibility. Furthermore, an effective reduction of intensity differences within separate frequency channels was only possible if the compression was applied within independent frequency channels as well. Interestingly, the results were not only influenced by the compressor settings but also by the acoustical properties of the test signal. Intensity differences were reduced more effectively for speech in a stationary background noise compared to speech only. Chapters 4 and 6 describe the effects of different types of phoneme compression on speech intelligibility in hearing-impaired listeners. Phoneme scores were obtained in conditions with and without background noise. We evaluated the difference in performance between phoneme compression and a linear reference condition near comfortable presentation levels. This implies that the results could not be influenced by differences in overall level between the various conditions. The results described in chapter 4 show that hearing-impaired listeners may benefit from our type of phoneme compression in conditions without background noise. Consonant perception was improved by phoneme compression whereas the anti-USOM processing had an additional positive effect on vowel perception. Unfortunately, no such positive effects were found in conditions with background noise. Even substantially negative effects were found with the anti-USOM configuration that gave the best performance in quiet. The use of a more moderate type of anti-USOM in chapter 6 also resulted in a negative effect on phoneme recognition in background noise. No benefit was found for other types of phoneme compression in background noise. The use of a compression ratio of 4 resulted even in negative effects (chapter 4). This means that the performance in background noise gets poorer with an increasing amount of phoneme compression. The temporal behaviour of the background noise did not influence the results (chapter 6). We hoped to find positive effects from phoneme compression in a fluctuating background noise, but no such improvement was found. The results of chapter 5 can be used to understand the measured effects of compression on speech intelligibility. Two methods were used to analyse the perceptual confusions of chapter 4. INDSCAL was used to identify and visualise the most relevant differences in phoneme perception. However the interpretation of these differences was not always easy because the perceptual dimensions could be related to several perceptual features. Therefore, SINFA was used as a second method. The advantage of using this method was that the various effects could be separated for the different predefined articulatory features. In quiet, positive effects were found on the perception of features containing mainly high-frequency information. This is according to our original goal to improve the identification of high-frequency cues by phoneme compression. However, the perception of high-frequency cues appeared to be highly deteriorated at critical background noise conditions. As a consequence, the features containing low-frequency information had become of major importance. The use of anti-USOM processing removed low-frequency information that appeared to be relevant for the perception of low-frequency cues. Additionally, we evaluated three phoneme compression conditions in a small field study using an experimental body-worn hearing aid (chapter 7). The phoneme compression configurations were embedded in a slow-acting non-linear system to compensate for differences in overall level. The listeners used the system for a period of six weeks next to the own hearing aids. The performance with the various compression programs was measured every week. The main question was if the performance could be influenced by a frequent use of the system. In general, the results were similar to that in previous experiments. The performance in background noise tended to be poorer than the performance in quiet. Interestingly, the overall recognition score with phoneme compression improved over time. However, a large part of this improvement was also found for the reference condition. The tendency for a small additional improvement with phoneme compression may be attributed to acclimatization to the speech processing. The experiences of the hearing-impaired listeners with the phoneme compression programs differed between listeners and depended of the difference in performance with the own hearing aids. Generally they had no problems with the sound of the new programs.Hoortoesteldragers houden vaak problemen met het verstaan van spraak in lastige akoestische omstandigheden. Een ander bekend probleem is dat door de versterking van het hoortoestel bepaalde geluiden als te hard ervaren worden, terwijl andere belangrijke geluiden nog steeds niet worden gehoord. Ter compensatie van deze beperkingen kan dynamiekcompressie worden toegepast in het hoortoestel. Dit is een vorm van signaalbewerking die voor voldoende versterking zorgt bij lage niveaus, zonder het gehoor te overbelasten bij hoge signaalniveaus. Een compressiesysteem heeft tijd nodig om een verandering in versterking te realiseren. Deze is instelbaar via de zogenaamde tijdsconstanten. Bij hoge waarden van de tijdsconstanten reduceert de compressor alleen globale verschillen in signaalniveau. Deze vorm van compressie wordt Automatische Volume Controle (AVC) of Automatic Gain Control (AGC) genoemd. Indien de tijdsconstanten kort gehouden worden reduceert de compressor ook intensiteitsverschillen tussen opeenvolgende spraakklanken. Deze vorm van dynamiekcompressie wordt daarom vaak aangeduid met syllabische compressie of foneemcompressie. Het doel hiervan is het optimaliseren van spraakverstaan door een verbeterde detectie van zwakkere spraakklanken. In dit proefschrift wordt een vorm van foneemcompressie onderzocht die bedoeld is om de perceptie van hoogfrequente spraakklanken te verbeteren bij slechthorenden. Het systeem verandert continu de verhouding tussen laag- en hoogfrequente versterking, afhankelijk van de niveaus van de afzonderlijke spraakklanken. Dit leidt tot extra versterking van de zwakke klanken. Verder is een aparte configuratie ontwikkeld om de negatieve invloed van laagfrequente versterking te verminderen op de perceptie van hoogfrequente spraak (“anti-upward-spread-of-masking” of “anti-USOM” genoemd). Ons hoofddoel is om de effecten van deze vormen van foneemcompressie te evalueren op spraakverstaan bij slechthorenden (hoofdstukken 4 t/m 7). Tevens is onderzocht hoe het spraaksignaal beïnvloed wordt door verschillende vormen van compressie (hoofdstukken 2 en 3). De akoestische metingen in hoofdstukken 2 en 3 geven een goed inzicht in hoe spraak en andere snel fluctuerende signalen beïnvloed worden door compressie. Spraak kan beschouwd worden als een continue stroom geluiden met een variërend spectrum. Deze spectrale verschillen leiden tot fluctuaties in de omhullende van het spraaksignaal binnen verschillende frequentiebanden, ook wel modulaties genoemd. De sterkte van de modulaties wordt uitgedrukt door de modulatiediepte. Foneemcompressie zal, indien effectief toegepast, de modulatiediepte binnen het spraaksignaal verkleinen. De effectieve mate van compressie kan geschat worden door de modulatiediepte voor en na compressie met elkaar te vergelijken. Deze methode is toegepast voor “eenvoudige” amplitude-gemoduleerde signalen (hoofdstuk 2) en spraak(-achtige) signalen (hoofdstuk 3). Een andere methode bestaat uit het vergelijken van de niveauverdelingen binnen spraak voor en na compressie (hoofdstuk 2). De resultaten laten zien dat relatief korte tijdsconstanten nodig zijn om de voor het spraakverstaan relevante modulaties te beïnvloeden. Verder blijkt dat alleen compressie uitgevoerd in verschillende frequentiekanalen in staat is intensiteitsverschillen te reduceren in de afzonderlijke frequentiebanden. Opmerkelijk genoeg blijken niet alleen de instellingen van de compressor invloed te hebben op de mate van effectieve compressie, maar ook het gebruikte testsignaal. Voor spraak in stationaire ruis wordt een hogere mate van effectieve compressie gemeten dan voor spraak afzonderlijk. In hoofdstukken 4 en 6 worden de resultaten beschreven van spraaktesten bij slechthorenden met verschillende vormen van foneemcompressie. Er zijn foneemscores bepaald in condities met en zonder achtergrondruis. Hierbij is het verschil bekeken tussen de resultaten met foneemcompressie en een geoptimaliseerde referentieconditie aangeboden op het zelfde signaalniveau. De resultaten in hoofdstuk 4 laten zien dat slechthorenden in staat zijn te profiteren van foneemcompressie zolang er geen achtergrondgeluid wordt toegevoegd aan de spraak. Compressie blijkt vooral een positieve invloed te hebben op de herkenning van de beginmedeklinker. Daarnaast geeft anti-USOM een positief effect op de klinkerherkenning. De beste resultaten worden behaald met een combinatie van beide technieken. Helaas wordt er voor de condities met achtergrondgeluid juist negatieve effecten gevonden met deze configuratie. Ook met een meer gematigde vorm van anti-USOM blijft het resultaat negatief (hoofdstuk 6). Andere configuraties met foneemcompressie geven eveneens geen verbetering van spraakverstaan in achtergrondlawaai. Voor een grote mate van compressie wordt een verslechtering gevonden. Ook bij een fluctuerende achtergrondruis worden geen duidelijke voordelen gevonden van foneemcompressie. De resultaten in hoofdstuk 5 geven meer inzicht in de effecten van foneemcompressie op de perceptie van spraakklanken. De verwisselingen van spraakklanken in de spraaktesten met slechthorenden zijn onderzocht door middel van twee methoden. INDSCAL identificeert en visualiseert de meest relevante verschillen in foneemperceptie door het definiëren van onafhankelijke perceptuele dimensies. De interpretatie van deze dimensies in termen van fonetische kenmerken blijkt echter niet altijd even gemakkelijk. Als aanvulling is daarom SINFA gebruikt, met als voordeel dat de verschillende fonetische kenmerken hierbij vooraf gedefinieerd kunnen worden. Zowel foneemcompressie als anti-USOM blijken een positief effect te hebben op de perceptie van hoogfrequente spraakklanken. Met name de kenmerken fricatief en de hogere klinkerformanten worden beter doorgegeven. Dit klopt met de originele doelstelling. In de condities met achtergrondgeluid is de perceptie van hoogfrequente spraakklanken echter zodanig verstoord dat het gebruik van foneemcompressie geen uitkomst meer biedt. De laagfrequente spraakkenmerken worden nu belangrijker voor het spraakverstaan. Juist deze blijken te worden aangetast worden door het toepassen van anti-USOM, waarmee de in hoofdstukken 4 en 6 gevonden negatieve effecten verklaard kunnen worden. In een kleine veldstudie met experimentele digitale hoortoestellen zijn een drietal van de eerder geteste compressieconfiguraties geëvalueerd door slechthorenden (hoofdstuk 7). De foneemcompressor is opgenomen in een langzaam niet-lineair systeem waarmee de globale niveauverschillen gereduceerd kunnen worden. De programma’s zijn paarsgewijs getest over een periode van 6 weken. Vanwege praktische redenen was het toegestaan om ook de eigen hoortoestellen te blijven gebruiken. Wekelijks zijn er spraaktesten uitgevoerd, met als hoofdvraag of de prestaties beïnvloed worden door een regelmatig gebruik van de programma’s. Er worden opnieuw slechtere resultaten met compressie gevonden in achtergrondlawaai. Opmerkelijk is echter dat de spraakscores toenemen over de periode van 6 weken. Een groot deel van deze toename wordt ook gevonden voor de referentieconditie met alleen langzame compressie. Het gebruik van foneemcompressie lijkt tot een lichte extra stijging te leiden. Deze kan alleen verklaard worden door gewenning aan het luisteren met foneemcompressie. De ervaringen van de slechthorenden met de compressieprogramma’s zijn wisselend, afhankelijk van de prestaties ten opzichte van het eigen toestel. Het geluid wordt over het algemeen als positief ervaren
    corecore