49 research outputs found

    Influence of analyzed sequence length on parameters in laryngeal high-speed videoendoscopy

    Get PDF
    Laryngeal high-speed videoendoscopy (HSV) allows objective quantification of vocal fold vibratory characteristics. However, it is unknown how the analyzed sequence length affects some of the computed parameters. To examine if varying sequence lengths influence parameter calculation, 20 HSV recordings of healthy females during sustained phonation were investigated. The clinical prevalent Photron Fastcam MC2 camera with a frame rate of 4000 fps and a spatial resolution of 512 x 256 pixels was used to collect HSV data. The glottal area waveform (GAW), describing the increase and decrease of the area between the vocal folds during phonation, was extracted. Based on the GAW, 16 perturbation parameters were computed for sequences of 5, 10, 20, 50 and 100 consecutive cycles. Statistical analysis was performed using SPSS Statistics, version 21. Only three parameters (18.8%) were statistically significantly influenced by changing sequence lengths. Of these parameters, one changed until 10 cycles were reached, one until 20 cycles were reached and one, namely Amplitude Variability Index (AVI), changed between almost all groups of different sequence lengths. Moreover, visually observable, but not statistically significant, changes within parameters were observed. These changes were often most prominent between shorter sequence lengths. Hence, we suggest using a minimum sequence length of at least 20 cycles and discarding the parameter AVI

    Development of Parameters towards Voice Bifurcations

    No full text
    Pathological vocal folds are known to exhibit multiple oscillation patterns, depending on tissue imbalance, subglottal pressure level, and other factors. This includes mid-phonation changes due to bifurcations in the underlying voice source system. Knowledge of when changes in oscillation patterns occur is helpful in the assessments of voice disorders, and the knowledge could be transformed into useful objective measures. Mid-phonation bifurcations can occur in rapid succession; hence, a fast classification of oscillation pattern is critical to minimize the averaging of data across bifurcations. This paper proposes frequency-ratio based short-term measures, named harmonic disturbance factor (HDF) and biphonic index (BI), towards the detection of the bifurcations. For the evaluation of HDF and BI, a frequency selection algorithm for glottal source signals is devised, and its efficacy is demonstrated with the glottal area waveforms of four cases, representing the wide range of oscillatory behaviors. The HDF and BI exhibit clear transitions when the voice bifurcations are apparent in the spectrograms. The presented proof-of-concept experiment’s outcomes warrant a larger scale study to formalize the parameters of the frequency selection algorithm

    Quantitative Bewertung von Heiserkeit mittels Machine Learning auf Basis von gehaltenen Vokalen

    No full text
    Hintergrund: Ziel des DFG-Projekts "Objektive Analyse funktioneller Dysphonie mittels klinischer Highspeed-Videoendoskopie (HSV)" ist die quantitative Bewertung funktioneller Stimmstörungen auf Basis von synchronen Video- und Audioaufnahmen während der gehaltenen Phonation. In dieser Studie wurden gewöhnliche sowie HSV-synchrone Akustikaufnahmen zur Graduierung von Heiserkeit eingesetzt und hinsichtlich der Qualität der resultierenden Modelle verglichen.Material und Methoden: Im Rahmen der Analyse wurden drei Datensätze erstellt. Die Datensätze D1 und D2 beinhalten jeweils 635 akustische Aufnahmen des gehaltenen Vokals /a/ mit einer Phonationsdauer von 1 s bzw. 250 ms. Datensatz D3 umfasst 453 HSV-synchrone akustische Aufnahmen des gehaltenen Vokals /i/ mit einer Dauer von 250 ms. Probanden wurden als gesund bzw. gestört eingestuft, wenn sie eine RBH-Bewertung von H = 2 aufweisen. Zur Ermittlung relevanter Parameter wurde auf Grundlage von Datensatz D1 zunächst eine Parameterselektion durchgeführt. Anschließend wurde für jeden Datensatz ein separates Klassifikationsmodell (Logistische Regression) trainiert. Die resultierenden Modelle wurden im Hinblick auf ihre Korrelation mit den auditiv ermittelten Heiserkeitsstufen evaluiert.Ergebnisse: Im Zuge der Parameterselektion wurde aus 50 extrahierten Parametern eine relevante Teilmenge von 5 Parametern bestimmt. Die Klassifikationsmodelle erreichen eine Korrelation von 0,805 (D1), 0,752 (D2) sowie 0,561 (D3) mit den tatsächlichen Heiserkeitsstufen H [0,1,2,3] der Probanden.Diskussion: Während eine Reduktion der Phonationsdauer zu einer leichten Abnahme der Korrelation führte, resultierte die Verwendung von HSV-Stimmaufnahmen in einem deutlichen Verlust an Vorhersagegenauigkeit. Dieser Qualitätsverlust ist auf die Messbedingungen der HSV-Untersuchung zurückzuführen. Das eingesetzte starre Endoskop kann die Probanden in ihrer Phonation einschränken, wodurch resultierende Aufnahmen die Stimme bzw. Heiserkeit womöglich nicht akkurat widerspiegeln. Darüber hinaus können Hintergrundgeräusche des Equipments (z.B. Kamera, Lichtquelle) die Qualität der Aufnahmen und somit auch der extrahierten Parameter beeinträchtigen.Fazit: Die vorliegenden Ergebnisse zeigen, dass eine quantitative Bewertung von Heiserkeit mittels gehaltener Phonation realisiert werden kann. Die Anwendung HSV-synchroner Akustikaufnahmen wird unter Einsatz verschiedener Post-Processing Methoden (z.B. Denoising, Outlier-Removal) weiter untersucht

    Influence of Analyzed Sequence Length on Parameters in Laryngeal High-Speed Videoendoscopy

    No full text
    Laryngeal high-speed videoendoscopy (HSV) allows objective quantification of vocal fold vibratory characteristics. However, it is unknown how the analyzed sequence length affects some of the computed parameters. To examine if varying sequence lengths influence parameter calculation, 20 HSV recordings of healthy females during sustained phonation were investigated. The clinical prevalent Photron Fastcam MC2 camera with a frame rate of 4000 fps and a spatial resolution of 512 × 256 pixels was used to collect HSV data. The glottal area waveform (GAW), describing the increase and decrease of the area between the vocal folds during phonation, was extracted. Based on the GAW, 16 perturbation parameters were computed for sequences of 5, 10, 20, 50 and 100 consecutive cycles. Statistical analysis was performed using SPSS Statistics, version 21. Only three parameters (18.8%) were statistically significantly influenced by changing sequence lengths. Of these parameters, one changed until 10 cycles were reached, one until 20 cycles were reached and one, namely Amplitude Variability Index (AVI), changed between almost all groups of different sequence lengths. Moreover, visually observable, but not statistically significant, changes within parameters were observed. These changes were often most prominent between shorter sequence lengths. Hence, we suggest using a minimum sequence length of at least 20 cycles and discarding the parameter AVI

    KI-gestützte Quantifizierung von Schluckvorgängen

    No full text
    Hintergrund: Die Quantifizierung von Schluckvorgängen ist von großer Bedeutung für die Diagnose und Behandlung von Schluckstörungen. In dieser Studie wird ein tiefes neuronales Netz zur automatischen Verfolgung des Bolus in videofluoroskopischen Aufnahmen entwickelt und evaluiert.Material und Methoden: Videofluoroskopische Aufnahmen von nicht beeinträchtigten Schluckvorgängen wurden für das Training des neuronalen Netzes verwendet. Nach dem Training wurde die Performance des Netzes auf Testdaten evaluaiert. Die Segmentierungsqualität wurde anhand des Dice-Koeffizienten (DC) bewertet, der Werte zwischen 0 (schlecht) bis 1 (exzellent) annehmen kann. Daraufhin wurde der Bolus während des Schluckvorgangs hinsichtlich der Form und seines Hauptweges untersucht.Ergebnisse: Das entwickelte tiefe neuronale Netz zeigte eine hohe Genauigkeit bei der Verfolgung des Bolus in den videofluoroskopischen Aufnahmen. Es war in der Lage, den Bolus über verschiedene Phasen des Schluckvorgangs genau zu identifizieren und zu verfolgen. Der segmentierte Bereich wurde für die Quantifizierung der Bolusform und dessen Kinematik verwendet. Die Exzentrizität des Bolus über die Zeit zeigte eine Korrelation zwischen der Bolusform und der aktuellen Schluckphase. Zusätzlich wurde der Massenschwerpunkt des Bolus von seinem ersten Auftreten im Mund bis zu seinem Abgleiten durch die Speiseröhre betrachtet. Die Analyse der Verlaufskurve des Bolus über einzelne Schluckvorgänge und Probanden hinweg ist in sich konsistent.Diskussion: Die Anwendung eines tiefen neuronalen Netzes zur automatischen Verfolgung des Bolus in videofluoroskopischen Aufnahmen bietet eine effiziente und zuverlässige Methode zur Quantifizierung von Schluckvorgängen. Durch die Automatisierung des Prozesses kann eine schnelle und präzise Analyse großer Datenmengen erreicht werden. Die Ergebnisse legen nahe, dass das entwickelte neuronale Netz eine wertvolle Unterstützung für die klinische Bewertung von Schluckstörungen bieten kann.Fazit: Insgesamt zeigt diese Studie, dass ein tiefes neuronales Netz effektiv eingesetzt werden kann, um den Bolus in videofluoroskopischen Aufnahmen präzise zu verfolgen. Zusätzlich können die nachgeschalteten Analysen der Bolusform und -kinematik weitere Informationen zur Schluckphasen und -verhalten liefern, welche eine wichtige Grundlage für eine umfassende Quantifizierung der Schluckphysiologie bilden. Weitere Forschung und Validierung sind jedoch erforderlich, um die Anwendbarkeit und Zuverlässigkeit dieser Methode in klinischen Umgebungen zu bestätigen

    Interdependencies between acoustic and high-speed videoendoscopy parameters.

    No full text
    In voice research, uncovering relations between the oscillating vocal folds, being the sound source of phonation, and the resulting perceived acoustic signal are of great interest. This is especially the case in the context of voice disorders, such as functional dysphonia (FD). We investigated 250 high-speed videoendoscopy (HSV) recordings with simultaneously recorded acoustic signals (124 healthy females, 60 FD females, 44 healthy males, 22 FD males). 35 glottal area waveform (GAW) parameters and 14 acoustic parameters were calculated for each recording. Linear and non-linear relations between GAW and acoustic parameters were investigated using Pearson correlation coefficients (PCC) and distance correlation coefficients (DCC). Further, norm values for parameters obtained from 250 ms long sustained phonation data (vowel /i/) were provided. 26 PCCs in females (5.3%) and 8 in males (1.6%) were found to be statistically significant (|corr.| ≥ 0.3). Only minor differences were found between PCCs and DCCs, indicating presence of weak non-linear dependencies between parameters. Fundamental frequency was involved in the majority of all relevant PCCs between GAW and acoustic parameters (19 in females and 7 in males). The most distinct difference between correlations in females and males was found for the parameter Period Variability Index. The study shows only weak relations between investigated acoustic and GAW-parameters. This indicates that the reduction of the complex 3D glottal dynamics to the 1D-GAW may erase laryngeal dynamic characteristics that are reflected within the acoustic signal. Hence, other GAW parameters, 2D-, 3D-laryngeal dynamics and vocal tract parameters should be further investigated towards potential correlations to the acoustic signal

    Objektive Analyse des akustischen Signals auf Basis gehaltener Vokale

    No full text
    Hintergrund: Ziel des DFG-Projekts "Objektive Analyse funktioneller Dysphonie mittels klinischer Highspeed-Videoendoskopie" ist die objektive Graduierung funktioneller Dysphonie auf Basis synchroner Video- und Audioaufnahmen während der gehaltenen Phonation. Im Rahmen einer Voruntersuchung wurden Parameter aus Akustikaufnahmen des gehaltenen Vokals /a/ extrahiert und zur Unterscheidung von normalen und gestörten Stimmen eingesetzt. Hierbei lag besonders die Bestimmung relevanter quantitativer Parameter im Vordergrund.Material und Methoden: Insgesamt wurden 610 Aufnahmen von jeweils unterschiedlichen Probanden (366 normal, 244 gestört) verwendet. Probanden wurden als gesund bzw. gestört eingestuft, wenn sie eine RBH-Bewertung von H=2 aufweisen. Aus jeder Aufnahme wurden insgesamt 60 Parameter extrahiert, welche u.a. die Periodizität der Grundfrequenz, Signalamplitude und -energie (z.B. Mean Jitter), wie auch das Signal-Rausch-Verhältnis (z.B. CPPS) beschreiben. Zur Bestimmung relevanter Parameter wurde eine Parameterselektion unter Verwendung eines Logistischen Regressors als Klassifikationsmodell durchgeführt. Die verbliebenen Features wurden anschließend mit dem vollständigen Parametersatz hinsichtlich der Klassifikationsgüte verglichen.Ergebnisse: Im Rahmen der Selektion konnte die Anzahl der Parameter von 60 auf 9 verringert werden. Der reduzierte Parametersatz besteht nahezu vollständig aus spektralen/cepstralen Größen, darunter u.a. die Smoothed Cepstral Peak Prominence und die spektrale Amplitudendifferenz H1A2. Durch die Reduktion der akustischen Parameter wurde ein Anstieg der Klassifikationsgenauigkeit von 78,3% (vollständig) auf 82,6% (reduziert) erreicht.Diskussion: Das Ergebnis der Parameterreduktion zeigt, dass viele der geläufigen Akustikparameter keinen Mehrwert für die Unterscheidung gesunder und gestörter Stimmen bieten. Grund dafür ist häufig eine hohe Korrelation zwischen den einzelnen Parametern. Die erreichte Klassifikationsgenauigkeit von 82,6% stellt hinsichtlich der objektiven Bewertung funktioneller Dysphonie ein vielversprechendes Ergebnis dar.Fazit: Bereits mit wenigen akustischen Parametern kann eine hohe Genauigkeit in der objektiven Unterscheidung von normalen und gestörten Stimmen erreicht werden. Vor allem die Berücksichtigung weiterer spektraler/cepstraler Parameter sowie die Kombination akustischer Parameter mit Features aus HSV-Aufnahmen bieten hohes Potential, um die Klassifikationsgenauigkeit weiter zu steigern und eine Graduierung der Stimmstörung zu ermöglichen
    corecore