27 research outputs found

    Influence of analyzed sequence length on parameters in laryngeal high-speed videoendoscopy

    Get PDF
    Laryngeal high-speed videoendoscopy (HSV) allows objective quantification of vocal fold vibratory characteristics. However, it is unknown how the analyzed sequence length affects some of the computed parameters. To examine if varying sequence lengths influence parameter calculation, 20 HSV recordings of healthy females during sustained phonation were investigated. The clinical prevalent Photron Fastcam MC2 camera with a frame rate of 4000 fps and a spatial resolution of 512 x 256 pixels was used to collect HSV data. The glottal area waveform (GAW), describing the increase and decrease of the area between the vocal folds during phonation, was extracted. Based on the GAW, 16 perturbation parameters were computed for sequences of 5, 10, 20, 50 and 100 consecutive cycles. Statistical analysis was performed using SPSS Statistics, version 21. Only three parameters (18.8%) were statistically significantly influenced by changing sequence lengths. Of these parameters, one changed until 10 cycles were reached, one until 20 cycles were reached and one, namely Amplitude Variability Index (AVI), changed between almost all groups of different sequence lengths. Moreover, visually observable, but not statistically significant, changes within parameters were observed. These changes were often most prominent between shorter sequence lengths. Hence, we suggest using a minimum sequence length of at least 20 cycles and discarding the parameter AVI

    Quantitative Bewertung von Heiserkeit mittels Machine Learning auf Basis von gehaltenen Vokalen

    No full text
    Hintergrund: Ziel des DFG-Projekts "Objektive Analyse funktioneller Dysphonie mittels klinischer Highspeed-Videoendoskopie (HSV)" ist die quantitative Bewertung funktioneller Stimmstörungen auf Basis von synchronen Video- und Audioaufnahmen wĂ€hrend der gehaltenen Phonation. In dieser Studie wurden gewöhnliche sowie HSV-synchrone Akustikaufnahmen zur Graduierung von Heiserkeit eingesetzt und hinsichtlich der QualitĂ€t der resultierenden Modelle verglichen.Material und Methoden: Im Rahmen der Analyse wurden drei DatensĂ€tze erstellt. Die DatensĂ€tze D1 und D2 beinhalten jeweils 635 akustische Aufnahmen des gehaltenen Vokals /a/ mit einer Phonationsdauer von 1 s bzw. 250 ms. Datensatz D3 umfasst 453 HSV-synchrone akustische Aufnahmen des gehaltenen Vokals /i/ mit einer Dauer von 250 ms. Probanden wurden als gesund bzw. gestört eingestuft, wenn sie eine RBH-Bewertung von H = 2 aufweisen. Zur Ermittlung relevanter Parameter wurde auf Grundlage von Datensatz D1 zunĂ€chst eine Parameterselektion durchgefĂŒhrt. Anschließend wurde fĂŒr jeden Datensatz ein separates Klassifikationsmodell (Logistische Regression) trainiert. Die resultierenden Modelle wurden im Hinblick auf ihre Korrelation mit den auditiv ermittelten Heiserkeitsstufen evaluiert.Ergebnisse: Im Zuge der Parameterselektion wurde aus 50 extrahierten Parametern eine relevante Teilmenge von 5 Parametern bestimmt. Die Klassifikationsmodelle erreichen eine Korrelation von 0,805 (D1), 0,752 (D2) sowie 0,561 (D3) mit den tatsĂ€chlichen Heiserkeitsstufen H [0,1,2,3] der Probanden.Diskussion: WĂ€hrend eine Reduktion der Phonationsdauer zu einer leichten Abnahme der Korrelation fĂŒhrte, resultierte die Verwendung von HSV-Stimmaufnahmen in einem deutlichen Verlust an Vorhersagegenauigkeit. Dieser QualitĂ€tsverlust ist auf die Messbedingungen der HSV-Untersuchung zurĂŒckzufĂŒhren. Das eingesetzte starre Endoskop kann die Probanden in ihrer Phonation einschrĂ€nken, wodurch resultierende Aufnahmen die Stimme bzw. Heiserkeit womöglich nicht akkurat widerspiegeln. DarĂŒber hinaus können HintergrundgerĂ€usche des Equipments (z.B. Kamera, Lichtquelle) die QualitĂ€t der Aufnahmen und somit auch der extrahierten Parameter beeintrĂ€chtigen.Fazit: Die vorliegenden Ergebnisse zeigen, dass eine quantitative Bewertung von Heiserkeit mittels gehaltener Phonation realisiert werden kann. Die Anwendung HSV-synchroner Akustikaufnahmen wird unter Einsatz verschiedener Post-Processing Methoden (z.B. Denoising, Outlier-Removal) weiter untersucht

    Objektive Analyse des akustischen Signals auf Basis gehaltener Vokale

    No full text
    Hintergrund: Ziel des DFG-Projekts "Objektive Analyse funktioneller Dysphonie mittels klinischer Highspeed-Videoendoskopie" ist die objektive Graduierung funktioneller Dysphonie auf Basis synchroner Video- und Audioaufnahmen wĂ€hrend der gehaltenen Phonation. Im Rahmen einer Voruntersuchung wurden Parameter aus Akustikaufnahmen des gehaltenen Vokals /a/ extrahiert und zur Unterscheidung von normalen und gestörten Stimmen eingesetzt. Hierbei lag besonders die Bestimmung relevanter quantitativer Parameter im Vordergrund.Material und Methoden: Insgesamt wurden 610 Aufnahmen von jeweils unterschiedlichen Probanden (366 normal, 244 gestört) verwendet. Probanden wurden als gesund bzw. gestört eingestuft, wenn sie eine RBH-Bewertung von H=2 aufweisen. Aus jeder Aufnahme wurden insgesamt 60 Parameter extrahiert, welche u.a. die PeriodizitĂ€t der Grundfrequenz, Signalamplitude und -energie (z.B. Mean Jitter), wie auch das Signal-Rausch-VerhĂ€ltnis (z.B. CPPS) beschreiben. Zur Bestimmung relevanter Parameter wurde eine Parameterselektion unter Verwendung eines Logistischen Regressors als Klassifikationsmodell durchgefĂŒhrt. Die verbliebenen Features wurden anschließend mit dem vollstĂ€ndigen Parametersatz hinsichtlich der KlassifikationsgĂŒte verglichen.Ergebnisse: Im Rahmen der Selektion konnte die Anzahl der Parameter von 60 auf 9 verringert werden. Der reduzierte Parametersatz besteht nahezu vollstĂ€ndig aus spektralen/cepstralen GrĂ¶ĂŸen, darunter u.a. die Smoothed Cepstral Peak Prominence und die spektrale Amplitudendifferenz H1A2. Durch die Reduktion der akustischen Parameter wurde ein Anstieg der Klassifikationsgenauigkeit von 78,3% (vollstĂ€ndig) auf 82,6% (reduziert) erreicht.Diskussion: Das Ergebnis der Parameterreduktion zeigt, dass viele der gelĂ€ufigen Akustikparameter keinen Mehrwert fĂŒr die Unterscheidung gesunder und gestörter Stimmen bieten. Grund dafĂŒr ist hĂ€ufig eine hohe Korrelation zwischen den einzelnen Parametern. Die erreichte Klassifikationsgenauigkeit von 82,6% stellt hinsichtlich der objektiven Bewertung funktioneller Dysphonie ein vielversprechendes Ergebnis dar.Fazit: Bereits mit wenigen akustischen Parametern kann eine hohe Genauigkeit in der objektiven Unterscheidung von normalen und gestörten Stimmen erreicht werden. Vor allem die BerĂŒcksichtigung weiterer spektraler/cepstraler Parameter sowie die Kombination akustischer Parameter mit Features aus HSV-Aufnahmen bieten hohes Potential, um die Klassifikationsgenauigkeit weiter zu steigern und eine Graduierung der Stimmstörung zu ermöglichen

    KI-gestĂŒtzte Quantifizierung von SchluckvorgĂ€ngen

    No full text
    Hintergrund: Die Quantifizierung von SchluckvorgĂ€ngen ist von großer Bedeutung fĂŒr die Diagnose und Behandlung von Schluckstörungen. In dieser Studie wird ein tiefes neuronales Netz zur automatischen Verfolgung des Bolus in videofluoroskopischen Aufnahmen entwickelt und evaluiert.Material und Methoden: Videofluoroskopische Aufnahmen von nicht beeintrĂ€chtigten SchluckvorgĂ€ngen wurden fĂŒr das Training des neuronalen Netzes verwendet. Nach dem Training wurde die Performance des Netzes auf Testdaten evaluaiert. Die SegmentierungsqualitĂ€t wurde anhand des Dice-Koeffizienten (DC) bewertet, der Werte zwischen 0 (schlecht) bis 1 (exzellent) annehmen kann. Daraufhin wurde der Bolus wĂ€hrend des Schluckvorgangs hinsichtlich der Form und seines Hauptweges untersucht.Ergebnisse: Das entwickelte tiefe neuronale Netz zeigte eine hohe Genauigkeit bei der Verfolgung des Bolus in den videofluoroskopischen Aufnahmen. Es war in der Lage, den Bolus ĂŒber verschiedene Phasen des Schluckvorgangs genau zu identifizieren und zu verfolgen. Der segmentierte Bereich wurde fĂŒr die Quantifizierung der Bolusform und dessen Kinematik verwendet. Die ExzentrizitĂ€t des Bolus ĂŒber die Zeit zeigte eine Korrelation zwischen der Bolusform und der aktuellen Schluckphase. ZusĂ€tzlich wurde der Massenschwerpunkt des Bolus von seinem ersten Auftreten im Mund bis zu seinem Abgleiten durch die Speiseröhre betrachtet. Die Analyse der Verlaufskurve des Bolus ĂŒber einzelne SchluckvorgĂ€nge und Probanden hinweg ist in sich konsistent.Diskussion: Die Anwendung eines tiefen neuronalen Netzes zur automatischen Verfolgung des Bolus in videofluoroskopischen Aufnahmen bietet eine effiziente und zuverlĂ€ssige Methode zur Quantifizierung von SchluckvorgĂ€ngen. Durch die Automatisierung des Prozesses kann eine schnelle und prĂ€zise Analyse großer Datenmengen erreicht werden. Die Ergebnisse legen nahe, dass das entwickelte neuronale Netz eine wertvolle UnterstĂŒtzung fĂŒr die klinische Bewertung von Schluckstörungen bieten kann.Fazit: Insgesamt zeigt diese Studie, dass ein tiefes neuronales Netz effektiv eingesetzt werden kann, um den Bolus in videofluoroskopischen Aufnahmen prĂ€zise zu verfolgen. ZusĂ€tzlich können die nachgeschalteten Analysen der Bolusform und -kinematik weitere Informationen zur Schluckphasen und -verhalten liefern, welche eine wichtige Grundlage fĂŒr eine umfassende Quantifizierung der Schluckphysiologie bilden. Weitere Forschung und Validierung sind jedoch erforderlich, um die Anwendbarkeit und ZuverlĂ€ssigkeit dieser Methode in klinischen Umgebungen zu bestĂ€tigen

    Projektfortsetzung: Objektive Analyse funktioneller Dysphonie mittels klinischer Highspeed-Videoendoskopie

    No full text
    Hintergrund: Die Highspeed-Videoendoskopie (HSV) ist eine vielversprechende Methode zur quantitativen Analyse funktioneller Dysphonien. Basierend auf HSV-Aufnahmen können horizontale Stimmlippenschwingungen durch die Segmentation der GlottisflĂ€che quantifiziert werden. Die zeitliche Änderung dieser FlĂ€che wird anschließend z.B. durch die glottale FlĂ€chenfunktion oder das Phonovibrogramm abgebildet. Aus diesen Signalen berechnete Parameter weisen z.T. klare ZusammenhĂ€nge mit funktionellen Stimmstörungen auf und bieten in Kombination mit akustischen und klinischen Parametern hohes Potential zur objektiven Graduierung funktioneller Dysphonie.Material und Methoden: Ziele dieses DFG-geförderten Projekts sind die Bestimmung eines Parametersatzes zur objektiven Graduierung funktioneller Stimmstörungen sowie die Analyse kausaler ZusammenhĂ€nge der zugrundeliegenden akustischen und HSV-Signale. FĂŒr die Graduierung werden sowohl berechnete Parameter aus HSV-Aufnahmen und synchron aufgezeichneten Audiosignalen als auch konventionelle klinische Merkmale berĂŒcksichtigt. Die gesammelten Parameter werden u.a. hinsichtlich ihrer klinischen Relevanz reduziert und anschließend mithilfe von Methoden des Maschinellen Lernens (z.B. Boosted Decision Trees) zur Bestimmung des Schweregrads funktioneller Dysphonie eingesetzt.Ergebnisse: Das erwartete klinische Ergebnis des Projekts ist die Realisierung einer quantitativen Bewertung funktioneller Dysphonien zur Ermöglichung einer objektiven Therapiebegleitung und -beurteilung.Diskussion: In Phase I des DFG-Projekts konnte im Rahmen vorlĂ€ufiger Klassifizierungen sowohl auf Basis von 4 klinischen Merkmalen (>91%) als auch mittels 12 HSV-Parametern (>74%) eine hohe Genauigkeit in der Unterscheidung von gesunden Probanden und Patienten mit funktioneller Dysphonie erreicht werden. Die BerĂŒcksichtigung weiterer HSV-Merkmale, die Hinzunahme von Parametern aus synchronen akustischen Aufnahmen sowie deren Kombination mit gĂ€ngigen klinischen Parametern zu einer multimodalen Datengrundlage ist somit vielversprechend.Fazit: Die innovativen wissenschaftlichen Aspekte des Projekts beinhalten: (1) den Einsatz von State-of-the-Art Deep Learning Methoden auf einen multimodalen Datensatz zur Quantifizierung funktioneller Dysphonien; (2) die Untersuchung von HSV- und Akustikparametern bezĂŒglich ihrer Robustheit und klinischen Relevanz; (3) Einblicke in die KausalitĂ€ten des Phonationsprozesses mittels zeitlicher Korrelations- und KohĂ€renzanalyse der gemessenen Signale

    AbhÀngigkeiten und Aussagekraft von Stimmanalyse-Parametern

    No full text
    Hintergrund: Um die Eigenschaften des akustischen Signals und der Stimmlippenvibrationen wĂ€hrend gehaltener Phonation zu bestimmen, wurden bereits viele Parameter vorgeschlagen. Einige dieser Parameter haben jedoch starke mathematische AbhĂ€ngigkeiten zueinander und andere sind schlecht konzipiert. Der Zweck dieser Studie ist es, mathematische AbhĂ€ngigkeiten zwischen diesen Parametern zu identifizieren, ihre Anzahl zu reduzieren und eine Empfehlung zu geben, welche dieser Parameter die Eigenschaften der glottalen FlĂ€chenfunktion (GAW) und des akustischen Signals am besten wiedergeben.Material und Methoden: In dieser Voruntersuchung werden 20 hĂ€ufig verwendete Parameter behandelt: 10 Parameter, die ausschließlich fĂŒr die GAW definiert sind, und 10 Parameter fĂŒr GAW und akustische Signale. Alle Parameter wurden bezĂŒglich ihres mathematischen Verhaltens und ihrer AbhĂ€ngigkeiten zueinander auf AuffĂ€lligkeiten hin untersucht.Ergebnisse: Die Ergebnisse legen nahe, dass 13 Parameter aufgrund mathematischer AbhĂ€ngigkeiten vernachlĂ€ssigt werden können. ZusĂ€tzlich zeigen 9 dieser Parameter problematische Merkmale, die von unerwartetem Verhalten bis hin zu unzureichender Definition reichen.Diskussion: Welche der Parameter verworfen und welche beibehalten werden sollten, ist nicht immer unumstritten. Um unsere VorschlĂ€ge zu untermauern, wurden verschiedene Eigenschaften unterschiedlicher Parameter herausgearbeitet, wobei einige dieser Merkmale auf schwerwiegende Designprobleme hinweisen. Der klinischen Forschung mĂŒssen diese MĂ€ngel der Parameter bekannt sein, damit sichergestellt ist, dass diese Parameter zur Vorhersage von Behandlungseffekten verwendet werden können und von einer Aufnahme zur nĂ€chsten vergleichbar sind.Fazit: Ein kleiner Satz standardisierter Parameter stellt einen wichtigen Schritt fĂŒr einen verbesserten Informationsaustausch in der Forschung dar und wird dazu beitragen die Aussagekraft der ausgewerteten Daten im klinischen Umfeld zu erhöhen. Die Redundanz bei anderen hĂ€ufig verwendeten Parametern in Stimmforschung und klinischer Anwendung wird in zukĂŒnftigen Studien untersucht werden

    Interdependencies between acoustic and high-speed videoendoscopy parameters.

    No full text
    In voice research, uncovering relations between the oscillating vocal folds, being the sound source of phonation, and the resulting perceived acoustic signal are of great interest. This is especially the case in the context of voice disorders, such as functional dysphonia (FD). We investigated 250 high-speed videoendoscopy (HSV) recordings with simultaneously recorded acoustic signals (124 healthy females, 60 FD females, 44 healthy males, 22 FD males). 35 glottal area waveform (GAW) parameters and 14 acoustic parameters were calculated for each recording. Linear and non-linear relations between GAW and acoustic parameters were investigated using Pearson correlation coefficients (PCC) and distance correlation coefficients (DCC). Further, norm values for parameters obtained from 250 ms long sustained phonation data (vowel /i/) were provided. 26 PCCs in females (5.3%) and 8 in males (1.6%) were found to be statistically significant (|corr.| ≄ 0.3). Only minor differences were found between PCCs and DCCs, indicating presence of weak non-linear dependencies between parameters. Fundamental frequency was involved in the majority of all relevant PCCs between GAW and acoustic parameters (19 in females and 7 in males). The most distinct difference between correlations in females and males was found for the parameter Period Variability Index. The study shows only weak relations between investigated acoustic and GAW-parameters. This indicates that the reduction of the complex 3D glottal dynamics to the 1D-GAW may erase laryngeal dynamic characteristics that are reflected within the acoustic signal. Hence, other GAW parameters, 2D-, 3D-laryngeal dynamics and vocal tract parameters should be further investigated towards potential correlations to the acoustic signal
    corecore