68 research outputs found

    Objective evaluation of tracheo-esophageal substitute voice

    No full text
    Die tracheoösophageale Ersatzstimme ist heute "state of the art" der Stimmrehabilitation nach einer Laryngektomie. Gemeinhin wird angenommen, dass dies an ihrer Ähnlichkeit zur ursprünglichen Stimme des Betroffenen liegt. Dieses "weiche" Kriterium der Stimmbewertung sollte z.B. im Hinblick auf die Objektivierung eines Behandlungsbedarfs bzw. -fortschritts um objektiv-apparative Befunde ergänzt werden. Dies ist jedoch bisher nur für gehaltene Vokale und noch nicht für die Analyse fortlaufender Sprache möglich. In einer Pilotstudie an 18 Laryngektomierten mit einer tracheoösophagealen Ersatzstimme mittels Provox®-Stimmventilprothese wurde dazu ein andernorts bereits für Marktzwecke professionalisiertes automatisches Spracherkennungssystem erprobt. Zielkriterium war zunächst die Wortakkuratheit WA, die mit der nach einem an Schulnoten orientierten Stimmbewertung durch 5 Experten korreliert wurde. Danach liegt der Korrelationskoeffizient zwischen der WA und dem Expertenurteil insgesamt bei -0,84 (-0,81; -0,65; -0,81; -0,79; -0,55). Die Ergebnisse belegen, dass eine automatische Bewertung der tracheoösophagealen Ersatzstimme grundsätzlich möglich ist. Methodische Optimierungen werden zur Klinikreife des Systems führen

    Capturing and Visualizing Event Flow Graphs of MPI Applications

    No full text

    Machine Learning gestützte Analyse des Auditiven Motokontrollsystems der Sprache bei schwerhörigen Sprechern

    No full text
    Hintergrund: In dem von der DFG geförderten Projekt wird nicht nur untersucht wie sich Schwerhörigkeit (55-80db Hörverlust) auf das Einarbeiten gestörten auditiven Feedbacks während der Stimmproduktion auswirkt, sondern auch, ob die Störung dieses Feedbacks sich auf andere Teile des Motorkontrollsystem der Sprache (MdS) auswirkt.Material und Methoden: Wir planen das MdS der Stimme mithilfe des Pitch Shift Reflexes (PSR) zu untersuchen. In diesem Experiment phonieren Teilnehmende (40 schwerhörig, 40 normalhörig) einen Model Laut, während ihnen ihre Stimme über schallisolierende Kopfhörer mit 70dB SPL vorgespielt wird. Das somit erzeugte künstliche Signal überschattet das über Luft- und Knochenleitung übertragene auditive Feedback. Anschließend wird in zufälligen Intervallen das Spektrum des Signals um 200cents angehoben. Die Reaktion, PSR, wurde für Normalhörige bereits, sowohl in Tonhöhe (Shift folgend oder entgegengesetzt), EEG (Mismatch Negativity [MMN]) als auch endoskopischen Hochgeschwindigkeitsaufnahmen (HSV) der Glottis (Glottal Area Waveform [GAW]) experimentell beobachtet. Anschließend werden aus den Aufnahmen signalspezifische Parameter (SP), z.B. Cepstral Peak Prominence für die Stimme, MMN für EEG und GAW für HSV, berechnet. Anschließend werden die SP auf ihren Zusammenhang mit probandenspezifischen Parametern (PP), namentlich Grad, Fortschritt und Hörbereich der Schwerhörigkeit, Alter, Sprachverständlichkeit und differentielle Wahrnehmbarkeitsschwelle, durch lineare Regression, Korrelationsanalyse und Boosted Decision Stumps untersucht. Darüber hinaus werden Encoder-Decodernetzwerke angewandt um die Aufnahmen auf abstrakte Features (AF) zu reduzieren. Diese werden ebenfalls mit den PP korreliert um komplexere Zusammenhänge offen zu legen.Ergebnisse: Wir werden nach Durchführung der Studie den Einfluss jedes PP auf die bekannten und unbekannten Aspekte des MdS, dargestellt durch SP und AF, genau quantifizieren können.Diskussion: Die für das MdS als besonders einflussreich quantifizierten PP bieten somit neue Ziele für Hörversorgung und die SP für Sprachtherapie.Fazit: Die hohe Teilnehmerzahl von 80 Probanden, welche je 20-mal den Pitch Shift in einem Zeitfenster von 3,5s durchlaufen gepaart mit einer temporalen Auflösung von 20kHz wird zu einem umfangreichen Datensatz von hoher wissenschaftlicher Relevanz vor allem in Bezug auf maschinelles Lernen führen

    A category based approach for recognition of out-of-vocabulary words

    No full text
    In almost all applications of automatic speech recognition, especially in spontaneous speech tasks, the recognizer vocabulary cannot cover all occurring words. There is always a significant amount of out-of-vocabulary words even when the vocabulary size is very large. In this paper we present a new approach for the integration of out-of-vocabulary words into statistical language models. We use category information for all words in the training corpus to define a function that gives an approximation of the out-of-vocabulary word emission probability for each word category. This information is integrated into the language models. Although we use a simple acoustic model for out-of-vocabulary words, we achieve a 6% reduction of word error rate on spontaneous speech data with about 5% out-of-vocabulary rate. (orig.)SIGLEAvailable from TIB Hannover: RR 5221(132)+a / FIZ - Fachinformationszzentrum Karlsruhe / TIB - Technische InformationsbibliothekBundesministerium fuer Bildung, Wissenschaft, Forschung und Technologie, Bonn (Germany)DEGerman

    A frame and segment based approach for topic spotting

    No full text
    In this paper we present a new approach for topic spotting based on subword units (phonemes and feature vectors) instead of words. Classification of topics is done by running topic dependent polygram language models over these symbol sequences and deciding for the one with the best score. We trained and tested the two methods on three different corpora. The first is a part of a media corpus which contains data from TV shows for three different topics (IDS), the second is part of the Switchboard corpus, the third is a collection of human machine dialogs about train timetable information (EVAR corpus). The results on Switchboard are compared with phoneme based approaches which were made at CRIM (Montreal) and DRA (Malvern) and are presented as ROC curves; the results on IDS and EVAR are compared with a word based approach and presented as confusion tables. We show that a surprisingly little amount of recognition accuracy is lost when going from word to subword based topic spotting. (orig.)Appeared in proceedings EUROSPEECH '97, Rhodes (ZA), vol. 1, p. 275-278Available from TIB Hannover: RR 5221(217)+a / FIZ - Fachinformationszzentrum Karlsruhe / TIB - Technische InformationsbibliothekSIGLEBundesministerium fuer Bildung, Wissenschaft, Forschung und Technologie, Bonn (Germany)DEGerman

    SQEL: A Multilingual and Multifunctional Dialogue System

    No full text
    Within the EC-funded project SQEL, the German EVAR spoken dialogue system has been extended with respect to multilinguality and multifunctionality. The current demonstrator can handle four different languages and domains: German, Slovak, and Czech (and their national train connections), and Slovenian (European flights). The SQEL demonstrator can also access databases on the WWW, which enables users without an internet connection to meet their information needs by just using the phone. The system starts up with a German opening phrase and the user is free to use any of the implemented languages. Amultilingual word recognizer implicitly identifies the language, which is then associated with the appropriate domain and database. For the remainder of the dialogue, the corresponding monolingual recognizer is used instead. Experiments to date have shown that the multilingual and the (respective) monolingual recognizers attain comparable word accuracy rates, although the former is less efficient. The existence of language-independent task parameters, such as goal and source location, has meant that porting the system to a new language involves mainly the development of lexica and grammars (apart from the word recognizers) and not an extensive restructuring of the interpretation process within the Dialogue Manager. The latter is sufficiently flexible to switchbetween the different domains and languages

    Prosodische Information: Begriffsbestimmung und Nutzen fuer das Sprachverstehen

    No full text
    Also published by Wahl, Paulus (ed.), Mustererkennung, 1997, Informatik aktuell, Springer, Heidelberg (DE), 1997, p. 37-52Available from TIB Hannover: RR 5221(219)+a / FIZ - Fachinformationszzentrum Karlsruhe / TIB - Technische InformationsbibliothekSIGLEBundesministerium fuer Bildung, Wissenschaft, Forschung und Technologie, Bonn (Germany)DEGerman

    Topic spotting using subword units

    No full text
    In this paper we present a new approach for topic spotting based on subword units and feature vectors instead of words. In our first approach, we only use vector quantized feature vectors and polygram language models for topic representation. In the second approach, we use phonemes instead of the vector quantized feature vectors and model the topics again using polygram language models. We trained and tested the two methods on two different corpora. The first is a part of a media corpus which contains data form TV shows for three different topics. The second is the Verbmobil-corpus where we used 18 dialog acts as topics. Each corpus was splitted into disjunctive test and training sets. We achieved recognition rates up to 82% for the three topics of the media corpus and up to 64% using 18 dialog acts of the Verbmobil-corpus as topics. (orig.)SIGLEAvailable from TIB Hannover: RR 5221(205)+a / FIZ - Fachinformationszzentrum Karlsruhe / TIB - Technische InformationsbibliothekBundesministerium fuer Bildung, Wissenschaft, Forschung und Technologie, Bonn (Germany)DEGerman
    corecore