8,203 research outputs found

    Beyond catch-up: VoD interfaces, ITV Hub and the repositioning of television online

    Get PDF
    The past 5 years have seen a rapid acceleration in the development of online television in the United Kingdom and beyond, with rise in ownership of Internet-connected television sets, smartphones and tablets, increased access to broadband and the growing penetration of transaction and subscription video-on-demand (VoD) services. This article asks how free-to-air terrestrial broadcasters are adapting to a media marketplace in which, according to Ofcom, on-demand television is becoming mass market, through an analysis of ITV Hub – the VoD player for the United Kingdom’s largest free-to-air advertiser-funded broadcaster. Focusing on the mature UK VoD market and the broadcaster whose business model is most threatened by online television, the article combines trade press and textual analysis to demonstrate how ITV has developed a VoD service highly structured by the logics of broadcasting. Centering its analysis on the interface for ITV Hub, the article argues that this increasingly quotidian form of television ephemera offers a vital site through which to understand the changing nature of television as a medium. The article concludes that with contemporary developments in VoD, the distinctions between linear/broadcast and non-linear/on-demand television (flow vs. file, passive viewer vs. interactive user) are breaking down in ways that challenge prevailing arguments that on-demand television can be understood as offering a distinctly different (and more empowered and interactive) experience for viewers. </jats:p

    Empreintes audio et stratégies d'indexation associées pour l'identification audio à grande échelle

    Get PDF
    N this work we give a precise definition of large scale audio identification. In particular, we make a distinction between exact and approximate matching. In the first case, the goal is to match two signals coming from one same recording with different post-processings. In the second case, the goal is to match two signals that are musically similar. In light of these definitions, we conceive and evaluate different audio-fingerprint models.Dans cet ouvrage, nous définissons précisément ce qu’est l’identification audio à grande échelle. En particulier, nous faisons une distinction entre l’identification exacte, destinée à rapprocher deux extraits sonores provenant d’un même enregistrement, et l’identification approchée, qui gère également la similarité musicale entre les signaux. A la lumière de ces définitions, nous concevons et examinons plusieurs modèles d’empreinte audio et évaluons leurs performances, tant en identification exacte qu’en identificationapprochée

    Segmentation, Diarization and Speech Transcription: Surprise Data Unraveled

    Get PDF
    In this thesis, research on large vocabulary continuous speech recognition for unknown audio conditions is presented. For automatic speech recognition systems based on statistical methods, it is important that the conditions of the audio used for training the statistical models match the conditions of the audio to be processed. Any mismatch will decrease the accuracy of the recognition. If it is unpredictable what kind of data can be expected, or in other words if the conditions of the audio to be processed are unknown, it is impossible to tune the models. If the material consists of `surprise data' the output of the system is likely to be poor. In this thesis methods are presented for which no external training data is required for training models. These novel methods have been implemented in a large vocabulary continuous speech recognition system called SHoUT. This system consists of three subsystems: speech/non-speech classification, speaker diarization and automatic speech recognition. The speech/non-speech classification subsystem separates speech from silence and unknown audible non-speech events. The type of non-speech present in audio recordings can vary from paper shuffling in recordings of meetings to sound effects in television shows. Because it is unknown what type of non-speech needs to be detected, it is not possible to train high quality statistical models for each type of non-speech sound. The speech/non-speech classification subsystem, also called the speech activity detection subsystem, does not attempt to classify all audible non-speech in a single run. Instead, first a bootstrap speech/silence classification is obtained using a standard speech activity component. Next, the models for speech, silence and audible non-speech are trained on the target audio using the bootstrap classification. This approach makes it possible to classify speech and non-speech with high accuracy, without the need to know what kinds of sound are present in the audio recording. Once all non-speech is filtered out of the audio, it is the task of the speaker diarization subsystem to determine how many speakers occur in the recording and exactly when they are speaking. The speaker diarization subsystem applies agglomerative clustering to create clusters of speech fragments for each speaker in the recording. First, statistical speaker models are created on random chunks of the recording and by iteratively realigning the data, retraining the models and merging models that represent the same speaker, accurate speaker models are obtained for speaker clustering. This method does not require any statistical models developed on a training set, which makes the diarization subsystem insensitive for variation in audio conditions. Unfortunately, because the algorithm is of complexity O(n3)O(n^3), this clustering method is slow for long recordings. Two variations of the subsystem are presented that reduce the needed computational effort, so that the subsystem is applicable for long audio recordings as well. The automatic speech recognition subsystem developed for this research, is based on Viterbi decoding on a fixed pronunciation prefix tree. Using the fixed tree, a flexible modular decoder could be developed, but it was not straightforward to apply full language model look-ahead efficiently. In this thesis a novel method is discussed that makes it possible to apply language model look-ahead effectively on the fixed tree. Also, to obtain higher speech recognition accuracy on audio with unknown acoustical conditions, a selection from the numerous known methods that exist for robust automatic speech recognition is applied and evaluated in this thesis. The three individual subsystems as well as the entire system have been successfully evaluated on three international benchmarks. The diarization subsystem has been evaluated at the NIST RT06s benchmark and the speech activity detection subsystem has been tested at RT07s. The entire system was evaluated at N-Best, the first automatic speech recognition benchmark for Dutch

    Resource management in cable access networks

    Get PDF
    Een kabelnetwerk is tegenwoordig niet meer alleen een medium waarover analoge TV-signalen vanuit een centraal punt, kopstation genaamd, naar de aangesloten huizen worden gestuurd. Sinds enkele jaren is het mogelijk om thuis data digitaal te versturen en te ontvangen. Deze data gaat via een kabelmodem thuis en het kopstation, dat in verbinding staat met andere netwerken. Op deze wijze zijn kabelnetwerken onderdeel geworden van het wereldwijde Internet en kunnen computers thuis hier mee verbonden worden. Door aan zo’n kopstation een digitaal videosysteem met duizenden films te koppelen, ontstaat er de mogelijkheid een video-op-verzoek dienst aan te bieden: Via de computer of zelfs de TV thuis kunnen films worden besteld en direct bekeken, of worden opgeslagen in de computer. Om dit te bewerkstelligen is meer nodig dan alleen een netwerk: Voor de transmissie van video data dient er zorg voor te worden gedragen dat deze zonder hinderende interrupties kan geschieden, omdat dergelijke gebeurtenissen door de gebruiker direct te zien zijn in de vorm van een stilstaand of zwart beeld. Verder is ook de reactiesnelheid van het systeem van belang voor het ondersteunen van operaties door de gebruiker, zoals het bestellen van een film, maar ook het vooruit- of terugspoelen, pauzeren, enzovoorts. Binnen deze context beschrijven en analyseren we in dit proefschrift zes problemen. Vier daarvan houden verband met de transmissie van data over het kabelnetwerk en de overige twee houden verband met het opslaan van video data op een harde schijf. In twee van de vier problemen uit de eerste categorie analyseren we de vertraging die data ondervindt wanneer die vanuit een modem wordt gestuurd naar het kopstation. Deze vertraging bepaalt met name de reactiesnelheid van het systeem. Karakteristiek voor dataverkeer in deze richting is dat pakketten van verschillende modems tegelijkertijd mogen worden verstuurd en daardoor verloren gaan. Met name de vereiste hertransmissies zorgen voor vertraging. Meer concreet beschouwen we een variant op het bekende ALOHA protocol, waarbij we uitgaan van een kanaalmodel dat afwijkt van het conventionele model. Het afwijkende model is van toepassing wanneer een modem een eerste contact probeert te leggen met het kopstation na te zijn opgestart. Met name na een stroomuitval, wanneer een groot aantal modems tegelijkertijd opnieuw opstart, kunnen de vertragingen aanzienlijk zijn. Daarnaast beschouwen we modems tijdens normale operatie en analyseren wij de verbetering in vertraging wanneer pakketten die vanuit ´e´en modem moeten worden verstuurd, worden verpakt in een groter pakket. In beide studies worden wiskundige resultaten vergeleken met simulaties die re¨ele situaties nabootsen. In de andere twee van de vier problemen richten wij ons op de transmissie van video data in de andere richting, namelijk van het kopstation naar de modems. Hierbij spelen stringente tijdsrestricties een voorname rol, zoals hierboven reeds is beschreven. Meer specifiek presenteren we een planningsalgoritme dat pakketten voor een aantal gebruikers op een kanaal zodanig na elkaar verstuurt dat de variatie in de vertraging die de verschillende pakketten ondervinden, minimaal is. Op deze wijze wordt zo goed mogelijk een continue stroom van data gerealiseerd die van belang is voor het probleemloos kunnen bekijken van een film. Daarnaast analyseren we een bestaand algoritme om een film via een aantal kanalen periodiek naar de aangesloten huizen te versturen. In dit geval ligt de nadruk op de wachttijd die een gebruiker ondervindt na het bestellen van een film. In deze analyse onderbouwen we een in het algoritme gebruikte heuristiek en brengen hierin verdere verbeteringen aan. Daarnaast bewijzen we dat het algoritme asymptotisch optimaal is, iets dat reeds langer werd aangenomen, maar nooit rigoreus bewezen was. Bij de laatste twee problemen, die verband houden met het opslaan van video data op een harde schijf, analyseren we hoe deze data zodanig kan worden opgeslagen dat die er nadien efficient van kan worden teruggelezen. In het ene probleem beschouwen we een bestaand planningsalgoritme om pakketten van verschillende videostromen naar een harde schijf te schrijven en passen dit aan om ervoor te zorgen dat het teruglezen van de stroom met bijvoorbeeld een andere pakketgrootte mogelijk wordt zonder daarbij de schijf onnodig te belasten. In het andere probleem analyseren we hoe we effectief gebruik kunnen maken van het gegeven dat data aan de buitenkant van de schijf sneller gelezen kan worden dan aan de binnenkant. We bewijzen dat het probleem van het zo efficient mogelijk opslaan van een gegeven aantal video files NPlastig is en presenteren een eenvoudige heuristiek die, hoewel voor bijzondere instanties een bewijsbaar slechte prestatie levert, in de praktijk in het algemeen goede prestaties levert. Hierbij maken we met name gebruik van het verschil in populariteit van de verschillende films

    Flexible Supervised Autonomy for Exploration in Subterranean Environments

    Full text link
    While the capabilities of autonomous systems have been steadily improving in recent years, these systems still struggle to rapidly explore previously unknown environments without the aid of GPS-assisted navigation. The DARPA Subterranean (SubT) Challenge aimed to fast track the development of autonomous exploration systems by evaluating their performance in real-world underground search-and-rescue scenarios. Subterranean environments present a plethora of challenges for robotic systems, such as limited communications, complex topology, visually-degraded sensing, and harsh terrain. The presented solution enables long-term autonomy with minimal human supervision by combining a powerful and independent single-agent autonomy stack, with higher level mission management operating over a flexible mesh network. The autonomy suite deployed on quadruped and wheeled robots was fully independent, freeing the human supervision to loosely supervise the mission and make high-impact strategic decisions. We also discuss lessons learned from fielding our system at the SubT Final Event, relating to vehicle versatility, system adaptability, and re-configurable communications.Comment: Field Robotics special issue: DARPA Subterranean Challenge, Advancement and Lessons Learned from the Final
    corecore