3 research outputs found

    Production and Perception of Fast Speech

    Get PDF
    This thesis reports on a series of experiments investigating how speakers produce and listeners perceive fast speech. The main research question is how the perception of naturally produced fast speech compares to the perception of artificially time-compressed speech. Research has shown that listeners can understand speech at much faster rates than they can produce themselves. The current study attempts to answer for this discrepancy and addresses the following questions: Why is speech intelligibility relatively unaffected by time compression? How do segmental intelligibility, prosodic patterns and other sources of information contribute? Does the intelligibility of synthetic speech suffer more from time compression than that of natural speech, and if so, why? Several intelligibility experiments were set up to answer these questions. Whereas artificial time compression of speech is normally conducted in a linear way, production studies on normal and fast-rate speech have shown that speakers compress some parts more than others. When speakers speed up, unstressed syllables are shortened more, relatively, than stressed syllables. Thus, the prosodic pattern of fast-rate speech is even more pronounced than that at a normal speech rate. This raises the question whether this natural non-linear way of speeding up might reflect a communicative strategy in order to save the stressed syllables, which are the most informative ones. Speakers are claimed to tailor their speech to the needs of the listener. Furthermore, prosodic patterns are known to be an important source of information under adverse listening conditions. Therefore, this study investigates whether modelling the temporal pattern of artificially time-compressed speech in accordance with the temporal pattern of natural fast speech improves intelligibility and ease of processing over linear compression. Secondly, it is investigated whether listeners find artificially time-compressed speech more difficult to process than naturally produced fast speech. It turns out that both the changed temporal pattern of naturally produced fast speech, and its increased slurring, or reduced articulation, make naturally produced fast speech more difficult to process than artificially time-compressed speech. This means that both the temporal and the segmental changes that speakers apply when speeding up their speech rate do not make perception easier for the listener, but are due to speakers s inability to speed up otherwise. The findings are considered in relation to current models of speech production and perception. This study is of interest to phoneticians, phonologists, and psycholinguists, as well as researchers working in the domain of speech technolog

    Computergestützte Inhaltsanalyse von digitalen Videoarchiven

    Full text link
    Der Übergang von analogen zu digitalen Videos hat in den letzten Jahren zu großen Veränderungen innerhalb der Filmarchive geführt. Insbesondere durch die Digitalisierung der Filme ergeben sich neue Möglichkeiten für die Archive. Eine Abnutzung oder Alterung der Filmrollen ist ausgeschlossen, so dass die Qualität unverändert erhalten bleibt. Zudem wird ein netzbasierter und somit deutlich einfacherer Zugriff auf die Videos in den Archiven möglich. Zusätzliche Dienste stehen den Archivaren und Anwendern zur Verfügung, die erweiterte Suchmöglichkeiten bereitstellen und die Navigation bei der Wiedergabe erleichtern. Die Suche innerhalb der Videoarchive erfolgt mit Hilfe von Metadaten, die weitere Informationen über die Videos zur Verfügung stellen. Ein großer Teil der Metadaten wird manuell von Archivaren eingegeben, was mit einem großen Zeitaufwand und hohen Kosten verbunden ist. Durch die computergestützte Analyse eines digitalen Videos ist es möglich, den Aufwand bei der Erzeugung von Metadaten für Videoarchive zu reduzieren. Im ersten Teil dieser Dissertation werden neue Verfahren vorgestellt, um wichtige semantische Inhalte der Videos zu erkennen. Insbesondere werden neu entwickelte Algorithmen zur Erkennung von Schnitten, der Analyse der Kamerabewegung, der Segmentierung und Klassifikation von Objekten, der Texterkennung und der Gesichtserkennung vorgestellt. Die automatisch ermittelten semantischen Informationen sind sehr wertvoll, da sie die Arbeit mit digitalen Videoarchiven erleichtern. Die Informationen unterstützen nicht nur die Suche in den Archiven, sondern führen auch zur Entwicklung neuer Anwendungen, die im zweiten Teil der Dissertation vorgestellt werden. Beispielsweise können computergenerierte Zusammenfassungen von Videos erzeugt oder Videos automatisch an die Eigenschaften eines Abspielgerätes angepasst werden. Ein weiterer Schwerpunkt dieser Dissertation liegt in der Analyse historischer Filme. Vier europäische Filmarchive haben eine große Anzahl historischer Videodokumentationen zur Verfügung gestellt, welche Anfang bis Mitte des letzten Jahrhunderts gedreht und in den letzten Jahren digitalisiert wurden. Durch die Lagerung und Abnutzung der Filmrollen über mehrere Jahrzehnte sind viele Videos stark verrauscht und enthalten deutlich sichtbare Bildfehler. Die Bildqualität der historischen Schwarz-Weiß-Filme unterscheidet sich signifikant von der Qualität aktueller Videos, so dass eine verlässliche Analyse mit bestehenden Verfahren häufig nicht möglich ist. Im Rahmen dieser Dissertation werden neue Algorithmen vorgestellt, um eine zuverlässige Erkennung von semantischen Inhalten auch in historischen Videos zu ermöglichen

    Exploring benefits of non-linear time compression

    No full text
    In comparison to text, audio-video content is much more challenging to browse. Time-compression has been suggested as a key technology that can support browsing – time compression speeds up the playback of audio-video content without causing the pitch to change. Simple forms of time-compression are starting to appear in commercial streaming-media products from Microsoft and Real Networks. In this paper we explore the potential benefits of more recent and advanced types of time compression, called non-linear time compression. The most advanced of these algorithms exploit fine-grain structure of human speech (e.g., phonemes) to differentially speedup segments of speech, so that the overall speedup can be higher. In this paper we explore what are the actual gains achieved by end-users from these advanced algorithms. Our results indicate that the gains are actually quite small in common cases and come with significant system complexity and some audio/video synchronization issues
    corecore