11 research outputs found

    Multi-Task Self-Supervised Learning for Disfluency Detection

    Full text link
    Most existing approaches to disfluency detection heavily rely on human-annotated data, which is expensive to obtain in practice. To tackle the training data bottleneck, we investigate methods for combining multiple self-supervised tasks-i.e., supervised tasks where data can be collected without manual labeling. First, we construct large-scale pseudo training data by randomly adding or deleting words from unlabeled news data, and propose two self-supervised pre-training tasks: (i) tagging task to detect the added noisy words. (ii) sentence classification to distinguish original sentences from grammatically-incorrect sentences. We then combine these two tasks to jointly train a network. The pre-trained network is then fine-tuned using human-annotated disfluency detection training data. Experimental results on the commonly used English Switchboard test set show that our approach can achieve competitive performance compared to the previous systems (trained using the full dataset) by using less than 1% (1000 sentences) of the training data. Our method trained on the full dataset significantly outperforms previous methods, reducing the error by 21% on English Switchboard

    Analyse und Korrektur von Disfluenzen in gesprochener Sprache

    Get PDF
    Disfluenzen sind ein wesentlicher Bestandteil von spontan gesprochenen Äußerungen. Bei Disfluenzen handelt es sich um Unterbrechungen des normalen Sprechflusses, die durch Fehler, Wortwiederholungen, Füllwörter oder ähnliche andere Wörter entstanden sind. Sie erschweren die Bearbeitung einer Äußerung und müssen daher korrigiert werden. Eine automatisierte Korrektur dieser Disfluenzen erweist sich jedoch aufgrund des unregelmäßigen Aufbaus solcher Disfluenzen als schwierig. Deshalb wird in dieser Arbeit die Erkennung und Korrektur von Disfluenzen in natürlichsprachlichen Äußerungen erarbeitet. Hierzu wird mit Hilfe eines maschinellen Lernverfahrens ein Klassifikator entwickelt, der diese Disfluenzen erkennt und korrigiert. Das maschinelle Lernverfahren basiert auf einem rekurrenten neuronalen Netzwerk mit langen Kurzzeitgedächtnis (engl. long short-term memory - LSTM). Die Funktionalität des entworfenen Werkzeugs wird anhand von händischen Transkriptionen sowie einem Testdatensatz des Switchboard-Korpus getestet. Auf diesen beiden Datensätzen wird entsprechend ein F1-Wert von 0,710 beziehungsweise 0,792 erreicht
    corecore