Search CORE

4 research outputs found

Deliverable D4.5 Content and Concept Filter v2

Author: et al.
Stein D. (Daniel)
Publication venue
Publication date: 13/11/2013
Field of study

Content annotation and enrichment within LinkedTV produces arbitrarily large amounts of quality links to the web, which on the one hand shows the potential of the involved algorithms, but on the other hand can be overwhelming for a single user if not filtered and priorized beforehand. In this deliverable, we present our approaches to rank and filter these links based on a user’s interest. We offer solutions for implicitly learned interests, and for explicitely given preferences, by exploiting the user-centered ontologies as defined in Deliverable D4.4. Further, we explore ranking mechanisms directly based on the entities derived in the annotation and enrichment process. Finally, we offer quantitative and qualitative experiments and assessments on data drawn from the news broadcast scenario

CWI's Institutional Repository

DiSCo - A German evaluation corpus for challenging problems in the broadcast domain

Author: Baum Doris
Köhler Joachim
Samlowski Barbara
Schneider Daniel
Schwenninger Jochen
Winkler Thomas
Publication venue
Publication date: 01/01/2010
Field of study

Baum D, Schneider D, Schwenninger J, Samlowski B, Winkler T, Köhler J. DiSCo - A German evaluation corpus for challenging problems in the broadcast domain. In: LREC 2010. 2010: 1695-1699

Publications at Bielefeld University

Holistic Vocabulary Independent Spoken Term Detection

Author: Schneider Daniel
Publication venue: Universitäts- und Landesbibliothek Bonn
Publication date
Field of study

Within this thesis, we aim at designing a loosely coupled holistic system for Spoken Term Detection (STD) on heterogeneous German broadcast data in selected application scenarios. Starting from STD on the 1-best output of a word-based speech recognizer, we study the performance of several subword units for vocabulary independent STD on a linguistically and acoustically challenging German corpus. We explore the typical error sources in subword STD, and find that they differ from the error sources in word-based speech search. We select, extend and combine a set of state-of-the-art methods for error compensation in STD in order to explicitly merge the corresponding STD error spaces through anchor-based approximate lattice retrieval. Novel methods for STD result verification are proposed in order to increase retrieval precision by exploiting external knowledge at search time. Error-compensating methods for STD typically suffer from high response times on large scale databases, and we propose scalable approaches suitable for large corpora. Highest STD accuracy is obtained by combining anchor-based approximate retrieval from both syllable lattice ASR and syllabified word ASR into a hybrid STD system, and pruning the result list using external knowledge with hybrid contextual and anti-query verification.Die vorliegende Arbeit beschreibt ein lose gekoppeltes, ganzheitliches System zur Sprachsuche auf heterogenenen deutschen Sprachdaten in unterschiedlichen Anwendungsszenarien. Ausgehend von einer wortbasierten Sprachsuche auf dem Transkript eines aktuellen Wort-Erkenners werden zunächst unterschiedliche Subwort-Einheiten für die vokabularunabhängige Sprachsuche auf deutschen Daten untersucht. Auf dieser Basis werden die typischen Fehlerquellen in der Subwort-basierten Sprachsuche analysiert. Diese Fehlerquellen unterscheiden sich vom Fall der klassichen Suche im Worttranskript und müssen explizit adressiert werden. Die explizite Kompensation der unterschiedlichen Fehlerquellen erfolgt durch einen neuartigen hybriden Ansatz zur effizienten Ankerbasierten unscharfen Wortgraph-Suche. Darüber hinaus werden neuartige Methoden zur Verifikation von Suchergebnissen vorgestellt, die zur Suchzeit verfügbares externes Wissen einbeziehen. Alle vorgestellten Verfahren werden auf einem umfangreichen Satz von deutschen Fernsehdaten mit Fokus auf ausgewählte, repräsentative Einsatzszenarien evaluiert. Da Methoden zur Fehlerkompensation in der Sprachsuchforschung typischerweise zu hohen Laufzeiten bei der Suche in großen Archiven führen, werden insbesondere auch Szenarien mit sehr großen Datenmengen betrachtet. Die höchste Suchleistung für Archive mittlerer Größe wird durch eine unscharfe und Anker-basierte Suche auf einem hybriden Index aus Silben-Wortgraphen und silbifizierter Wort-Erkennung erreicht, bei der die Suchergebnisse mit hybrider Verifikation bereinigt werden

bonndoc – Der Publikationsserver der Universität Bonn