291 research outputs found

    Sensibilisierung von Lernenden für fremdsprachliche Prosodie

    Get PDF

    Robust semantic analysis for adaptive speech interfaces

    Get PDF
    The DUMAS project develops speech-based applications that are adaptable to different users and domains. The paper describes the project's robust semantic analysis strategy, used both in the generic framework for the development of multilingual speech-based dialogue systems which is the main project goal, and in the initial test application, a mobile phone-based e-mail interface

    Sprach-Suche in einer Musikbibliothek mit klassischer Musik mit der Spracherkennungsbibliothek Microsoft.Speech

    Get PDF
    Diese Bachelorarbeit befasst sich mit der Thematik der Sprachsuche in einer Musikbibliothek mit klassischer Musik. Klassische Musik hat eine Besonderheit im Gegensatz zu Musik aus anderen Genres. Während beispielsweise bei Rockmusik in der Regel die Band und der Name des Musikstückes die Aufführung bestimmt, spielen bei klassischer Musik durchaus mehrere Faktoren eine Rolle, welche die Aufführung definieren. Dazu gehören nicht nur der Titel des Stückes und die Musiker, in dem Fall das Orchester, sondern auch der Komponist, Solisten und der Dirigent. Diese Arbeit hat das Ziel zu zeigen, wie eine Sprachsuche für eine Musikdatenbank mit klassischer Musik gestaltet werden kann und wie sich diese praktisch realisieren lässt. Hierfür werden die Fähigkeiten der Spracherkennungstechnologie von Microsoft, die Microsoft Speech Platform, untersucht und Datenbanktechnologien besprochen, welche für das Erreichen dieses Ziels relevant sind

    Multi-session group scenarios for speech interface design

    Get PDF
    When developing adaptive speech-based multilingual interaction systems, we need representative data on the user's behaviour. In this paper we focus on a data collection method pertaining to adaptation in the user's interaction with the system. We describe a multi-session group scenario for Wizard of Oz studies with two novel features: firstly, instead of doing solo sessions with a static mailbox, our test users communicated with each other in a group of six, and secondly, the communication took place over several sessions in a period of five to eight days. The paper discusses our data collection studies using the method, concentrating on the usefulness of the method in terms of naturalness of the interaction and long-term developments

    Adaptive audio-visuelle Synthese : Automatische Trainingsverfahren für Unit-Selection-basierte audio-visuelle Sprachsynthese

    Get PDF
    In dieser Arbeit wurden Algorithmen und Verfahren entwickelt und angewendet, die es ermöglichen eine video-realistische audio-visuelle Synthese durchzuführen. Das generierte audio-visuelle Signal zeigt einen Talking-Head, der aus zuvor aufgenommenen Videodaten und einem zugrunde liegenden TTS-System konstruiert wurde. Die Arbeit gliedert sich in drei Teile: statistische Lernverfahren Verfahren, konkatenative Sprachsynthese sowie video-realistische audio-visuelle Synthese. Bei dem entwickelten Sprachsynthese System wird die Verkettung natürlichsprachlicher Einheiten verwendet. Die ist gemeinhin als Unit-Selection-basierte Text-to-Speech bekannt. Das Verfahren der Auswahl und Konkatenation wird ebenso für die visuelle Synthese verwendet, wobei hier auf natürliche Videosequenzen zurückgegriffen wird. Als statistische Lernverfahren werden vor allem Graphen-basierte Verfahren entwickelt und angewendet. Hier ist der Einsatz von Hidden-Markov Modellen und bedingten Zufallsfeldern (Conditional-Random-Fields) hervorgehoben, die zur Auswahl der geeigneten Sprachrepresentationseinheiten dienen. Bei der visuellen Synthese kommt ein Prototypen-basiertes Lernverfahren zum Einsatz, welches weithin als K-Nächster-Nachbar Algorithmus bekannt ist. Das Training des Systems benötigt ein annotiertes Sprachdatenkorpus, sowie ein annotiertes Videodatenkorpus. Zur Evaluation der eingesetzten Verfahren wurde eine video-realistische audio-visuelle Synthese Software entwickelt, welche vollautomatisch die Texteingabe in die gewünschte Videosequenz umsetzt. Alle Schritte bis zur Signalausgabe bedürfen keinerlei manuellen Eingriffs

    VoiceXML - Technologie der Wahl für telefonbasierte Sprachdialogportale?

    Get PDF
    Im Zeitalter der ständig wachsenden Mobilitätsanforderungen kommt dem flexiblen, dezentralen Zugriff auf Datenbestände aller Art eine immer größere Bedeutung zu. Steht ein Zugang via Internet nicht zur Verfügung, so bietet sich als Alternative die Verwendung eines Mobiltelefons an. Auf der Grundlage des WAP-Protokolls konnen elementare grafische Zugriffsschnittstellen geschaffen werden; deren Möglichkeiten sind jedoch begrenzt: Im Vergleich zu stationären Computerterminals ist die Displaygröße i.d.R. gering; entsprchend aufwändig verlauft das Browsing. Die gegenwärtige Technologie verfügt über eine geringe Bandbreite. die Navigation über Tasten wird vom Benutzer als umständlich empfunden. Es gibt Einsatzkontexte, die eine tastaturbasierte Interaktion a priori ausschließen. Als Alternative bieten sich gesprochensprachige Schnittstellen an, in denen der Benutzer einen Mensch-Maschine-Dialog mit einem telefonbasierten Sprachportal führt. Die Grundlage derartiger Anwendungen bietet Hardware- bzw. Software-Technologie zu Computer-Telefonie-Integration, Spracherkennung, Sprachsynthese. Mit diesen technologischen Basiskomponenten alleine ist es jedoch noch nicht getan: In Abhängigkeit von den spezifischen Erfordernissen der jeweiligen Anwendung sind geeignete Vorgaben zu spezifizieren, die den Computer in die Lage versetzen, den Dialog mit seinem menschlichen Gegenüber in problemadaquater Weise zu führen. Wichtige Anforderungen sind: Natürlichkeit: Ausgestaltung der sprachlichen Interaktion in einer Weise, die den Erwartungen des Anwenders hinsichtlich des jeweiligen Anwendungsfalls entsprechen; Flexibilität: Anpassung an die Eigenarten des jeweiligen Nutzers (Novize oder geübter Anwender etc.); 2 Robustheit: geeignetes Handling von Missverständnissen, unvollständigem Benutzer-Input sowie Unzulänglichkeiten der maschinellen Sprachverarbeitung (insbesondere Fehler in der Spracherkennung) etc. Formale Spezifikationen des maschinellen Dialogverhaltens werden als Dialogmodelle bezeichnet. Hinsichtlich der generischen Wiederverwendbarkeit der Dialogsoftware ist es sinnvoll, derartige Beschreibungen in einem standardisierten Formalismus, einer Dialogmodellierungssprache abzufassen, die sich somit in erster Näherung als eine "Programmiersprache" für eine generische Dialogmaschine auffassen lässt. Folglich stellt sich die Frage, wie eine geeignete Dialogmodellierungssprache aussehen könnte. In Bezug auf webbasierte Sprachportale wurde vom W3C die XML-basierte Dialogmodellierungssprache VoiceXML als Standardisierungsvorschlag erarbeitet ([7]). Im vorliegenden Dokument sollen zunächst Reichweite und Grenzen der Sprache VoiceXML evaluiert werden. Auf der Grundlage der Evaluation sollen strategischen Empfehlungen fur Unternehmen abgeleitet werden, die sich als Anwendungsentwickler auf dem Innovationsmarkt der telefonbasierten Sprachportale betätigen wollen. Die zentralen Fragen lauten: 1. Welches sind die zentralen Probleme der Entwicklung telefonbasierter Sprachportale? 2. Inwieweit löst VoiceXML diese Probleme? 3. Inwiefern lohnt es sich somit, (z.B. zwecks Herausbildung eines Alleinstellungsmerkmals) auf die Technologie VoiceXML zu setzen? 4. Welche Alternativen existieren? In welchen anderen Bereichen sollte man ggf. Kernkompetenzen herausbilden

    Automatische Analyse von Rechtschreibfähigkeit auf Basis von Speech-Processing-Technologien

    Full text link
    Der vorliegende Beitrag stellt ein interdisziplinäres Forschungsprojekt zur Entwicklung eines Instruments zur automatisierten Rechtschreibanalyse in frei verfassten Lernertexten vor. Mit diesem Instrument kann dem bekannten Dilemma der \u27ökonomischen vs. Differenzierten Rechtschreibdiagnostik\u27 begegnet werden, da binnen kürzester Zeit große Datenmengen orthographisch detailliert analysiert werden können. Der innovative Ansatz basiert auf der Analyse der Lernerschreibungen unter Einbezug ihrer automatisch generierten Aussprache. Erkenntnisse der automatischen Spracherkennung und -synthese erlauben eine automatisierte Gegenüberstellung aus fehlerhaftem Text und einer auf Basis von assoziierten Wahrscheinlichkeiten ermittelten korrekten Version des Textes. Rechtschreibfehler und Richtigschreibungen können dann automatisch annotiert und klassifiziert werden. Das Instrument wird hier zunächst in seiner Anlage erklärt, dann werden die Ergebnisse aus der Anwendung auf 120 Lernertexte aus Kl. 1 bis 4 vorgestellt. Der Vergleich von automatischer und manueller Analyse zeigt, dass die Machbarkeit dieses Ansatzes sowie die Wege, die begangen werden müssen, um zu einem vollständig autonom agierenden Verfahren zu gelangen. (DIPF/Orig.)The interdisciplinary research presented in this paper introduces a prototype for an automatic mechanism of analyzing and classifying spelling errors in freely written text by learners of the German writing system. Know-how from didactics and computer linguistics and automatic speech processing is combined to close the gap between economic and detailed analysis of spelling by automating the process. Large amounts f data can now be processed and analyzed without additional effort. This innovative approach is based on the connection between writing and pronunciation in addition to the usual study of grapheme-sequences. Know-how from automatic speech recognition and synthesis is leveraged to derive an alignment between grapheme and phoneme for both incorrect and correct spelling. Using this alignment, a detailed spectrum of error-types is detected and classified. This paper will detail the system setup and then proceed to apply it to data consisting of 120 texts collected from elementary school kids in grades 1 through 4. A comparison of hand-labeled and automatic procedure in terms of accuracy is carried out, showing that the approach is viable. Finally, the necessary steps to obtain a fully interconnected version are discussed

    Fast Speech in Unit Selection Speech Synthesis

    Get PDF
    Moers-Prinz D. Fast Speech in Unit Selection Speech Synthesis. Bielefeld: Universität Bielefeld; 2020.Speech synthesis is part of the everyday life of many people with severe visual disabilities. For those who are reliant on assistive speech technology the possibility to choose a fast speaking rate is reported to be essential. But also expressive speech synthesis and other spoken language interfaces may require an integration of fast speech. Architectures like formant or diphone synthesis are able to produce synthetic speech at fast speech rates, but the generated speech does not sound very natural. Unit selection synthesis systems, however, are capable of delivering more natural output. Nevertheless, fast speech has not been adequately implemented into such systems to date. Thus, the goal of the work presented here was to determine an optimal strategy for modeling fast speech in unit selection speech synthesis to provide potential users with a more natural sounding alternative for fast speech output

    A mixed inventory structure for German concatenative synthesis

    Get PDF
    In speech synthesis by unit concatenation a major point is the definition of the unit inventory. Diphone or demisyllable inventories are widely used but both unit types have their drawbacks. This paper describes a mixed inventory structure which is syllable oriented but does not demand a definite decision about the position of a syllable boundary. In the definition process of the inventory the results of a comprehensive investigation of coarticulatory phenomena at syllable boundaries were used as well as a machine readable pronunciation dictionary. An evaluation comparing the mixed inventory with a demisyllable and a diphone inventory confirms that speech generated with the mixed inventory is superior regarding general acceptance. A segmental intelligibility test shows the high intelligibility of the synthetic speech
    corecore