328 research outputs found

    Der Einsatz von Sprachtechnologie in Oral-History-Sammlungen

    Get PDF
    This book chapter presents an overview of the techniques from the field of automatic speech recognition that can contribute to the enhanced accessibility of online oral history interview collections

    Konzeption und Entwicklung eines auf DeepSpeech basierenden Open Source Editors zur Transkription von Audio- und Videomaterial

    Get PDF
    More and more often, spoken information must and should be available in written form. For this purpose, various transcription programs try to support the user with various conveniences when transcribing the source material. A variety of online services go one step further and provide a ready-to-use, automatically generated transcription for a fee. Since the fees can be very expensive for the individual user and the online services may not always be used for privacy reasons, the goal of this work is to implement an open offline alternative. This alternative should be an open source editor based on the open speech-to-text-engine DeepSpeech and should on one hand provide the user with an offline transcription and on the other hand support him in correcting it. To achieve this goal, first the traditional speech recognition and eventually DeepSpeech will be described. This is followed by the conception and implementation of the editor. Since this project is explicitly intended to be an open source project, the last part will take a closer look at the release

    Automatisches Spracherkennungssystem zur Quantifizierung der Nase und Nasennebenhöhlen auf die Sprachverständlichkeit

    Get PDF

    Untersuchungen zur Etikettierung prosodischer Einheiten

    Get PDF
    Insgesamt sind die Übereinstimmungen zwischen den Transkribenten mit ca. 80% schon recht hoch, vor allem, wenn man bedenkt, dass sie keinerlei Transkriptionserfahrung hatten. Durch Training lässt sich die Konsistenz vermutlich noch weiter verbessern. Das Inventar prosodischer Etiketten und Anweisungen können bei den folgenden Versuchen beibehalten werden. Die Versuche sollen für weiteres Material und mit mehr Transkribenten wiederholt werden. Insbesondere muss noch untersucht werden, wie aus mehreren parallelen Etikettierungen eine verlässliche prosodische Referenzetikettierung erzeugt werden kann

    Prosodische Etikettierung und Segmentierung deutscher Spontansprache

    Get PDF
    Es wird ein Experimentalsystem zur automatischen prosodischen Etikettierung und Segmentierung deutscher Spontansprache vorgestellt. Das System wird eingesetzt, um eine prototypische Beschreibung prosodischer Eigenschaften (Akzentuierung und Phrasierung) einer Äußerung zu generieren. Die beschriebenen Verfahren basieren auf einer datengetriebenen statistischen Analyse der Transliteration und des zugehörigen Sprachsignals

    Steuerung sprechernormalisierender Abbildungen durch künstliche neuronale Netzwerke

    Get PDF
    Im Sinne dieser Arbeit bedeutet Sprechernormalisierung eine Vorverarbeitung bzw. Filterung der aufbereiteten Eingangssignale eines automatischen Spracherkennungssystems mit dem Ziel, die Variation in den Signalen analoger Äußerungen verschiedener Sprecher zu reduzieren. Dies bewirkt eine Verminderung von Mehrdeutigkeit und dadurch eine Verbesserung der Erkennungsleistung durch den anschließenden Klassifikator.In dieser Arbeit werden Normalisierungen durch ein auf einer Hauptkomponentenanalyse der Barkspektrogramme basierendes Verfahren und durch die Abbildungen der Spektrogramme vermittels ein- und mehrschichtiger Perzeptrone untersucht. Besondere Aufmerksamkeit erfährt hierbei die Interpolierbarkeit von Nachbarschaftsbeziehungen zwischen verschiedenen Sprechern. Hierbei wird speziell darauf eingegangen, wie diese Interpolation unter Verwendung weiterer Perzeptrone ebenfalls automatisch erreicht werden kann. Die hierfür notwendige Information wird wiederum durch Barkspektrogramme sowie durch - ebenfalls aus dem Sprachsignal ermittelte - artikulatorische Parameter bereitgestellt

    Topic spotting using subword units

    Get PDF
    In this paper we present a new approach for topic spotting based on subword units and feature vectors instead of words. In our first approach, we only use vector quantized feature vectors and polygram language models for topic representation. In the second approach, we use phonemes instead of the vector quantized feature vectors and model the topics again using polygram language models. We trained and tested the two methods on two different corpora. The first is a part of a media corpus which contains data from TV shows for three different topics. The second is the VERBMOBIL-corpus where we used 18 dialog acts as topics. Each corpus was splitted into disjunctive test and training sets. We achieved recognition rates up to 82% for the three topics of the media corpus and up to 64% using 18 dialog acts of the VERBMOBIL-corpus as topics

    Prosodische Etikettierung des Deutschen mit ToBI

    Get PDF
    corecore