566 research outputs found

    MediaSync: Handbook on Multimedia Synchronization

    This book provides an approachable overview of the most recent advances in the fascinating field of media synchronization (mediasync), gathering contributions from the most representative and influential experts. Understanding the challenges of this field in the current multi-sensory, multi-device, and multi-protocol world is not an easy task. The book revisits the foundations of mediasync, including theoretical frameworks and models, highlights ongoing research efforts, like hybrid broadband broadcast (HBB) delivery and users' perception modeling (i.e., Quality of Experience or QoE), and paves the way for the future (e.g., towards the deployment of multi-sensory and ultra-realistic experiences). Although many advances around mediasync have been devised and deployed, this area of research is getting renewed attention to overcome remaining challenges in the next-generation (heterogeneous and ubiquitous) media ecosystem. Given the significant advances in this research area, its current relevance and the multiple disciplines it involves, the availability of a reference book on mediasync becomes necessary. This book fills the gap in this context. In particular, it addresses key aspects and reviews the most relevant contributions within the mediasync research space, from different perspectives. Mediasync: Handbook on Multimedia Synchronization is the perfect companion for scholars and practitioners that want to acquire strong knowledge about this research area, and also approach the challenges behind ensuring the best mediated experiences, by providing the adequate synchronization between the media elements that constitute these experiences

    Semantic Management of Location-Based Services in Wireless Environments

    En los últimos años el interés por la computación móvil ha crecido debido al incesante uso de dispositivos móviles (por ejemplo, smartphones y tablets) y su ubicuidad. El bajo coste de dichos dispositivos unido al gran número de sensores y mecanismos de comunicación que equipan, hace posible el desarrollo de sistemas de información útiles para sus usuarios. Utilizando un cierto tipo especial de sensores, los mecanismos de posicionamiento, es posible desarrollar Servicios Basados en la Localización (Location-Based Services o LBS en inglés) que ofrecen un valor añadido al considerar la localización de los usuarios de dispositivos móviles para ofrecerles información personalizada. Por ejemplo, se han presentado numerosos LBS entre los que se encuentran servicios para encontrar taxis, detectar amigos en las cercanías, ayudar a la extinción de incendios, obtener fotos e información de los alrededores, etc. Sin embargo, los LBS actuales están diseñados para escenarios y objetivos específicos y, por lo tanto, están basados en esquemas predefinidos para el modelado de los elementos involucrados en estos escenarios. Además, el conocimiento del contexto que manejan es implícito; razón por la cual solamente funcionan para un objetivo específico. Por ejemplo, en la actualidad un usuario que llega a una ciudad tiene que conocer (y comprender) qué LBS podrían darle información acerca de medios de transporte específicos en dicha ciudad y estos servicios no son generalmente reutilizables en otras ciudades. Se han propuesto en la literatura algunas soluciones ad hoc para ofrecer LBS a usuarios pero no existe una solución general y flexible que pueda ser aplicada a muchos escenarios diferentes. Desarrollar tal sistema general simplemente uniendo LBS existentes no es sencillo ya que es un desafío diseñar un framework común que permita manejar conocimiento obtenido de datos enviados por objetos heterogéneos (incluyendo datos textuales, multimedia, sensoriales, etc.) y considerar situaciones en las que el sistema tiene que adaptarse a contextos donde el conocimiento cambia dinámicamente y en los que los dispositivos pueden usar diferentes tecnologías de comunicación (red fija, inalámbrica, etc.). Nuestra propuesta en la presente tesis es el sistema SHERLOCK (System for Heterogeneous mobilE Requests by Leveraging Ontological and Contextual Knowledge) que presenta una arquitectura general y flexible para ofrecer a los usuarios LBS que puedan serles interesantes. SHERLOCK se basa en tecnologías semánticas y de agentes: 1) utiliza ontologías para modelar la información de usuarios, dispositivos, servicios, y el entorno, y un razonador para manejar estas ontologías e inferir conocimiento que no ha sido explicitado; 2) utiliza una arquitectura basada en agentes (tanto estáticos como móviles) que permite a los distintos dispositivos SHERLOCK intercambiar conocimiento y así mantener sus ontologías locales actualizadas, y procesar peticiones de información de sus usuarios encontrando lo que necesitan, allá donde esté. El uso de estas dos tecnologías permite a SHERLOCK ser flexible en términos de los servicios que ofrece al usuario (que son aprendidos mediante la interacción entre los dispositivos), y de los mecanismos para encontrar la información que el usuario quiere (que se adaptan a la infraestructura de comunicación subyacente)

    Inférence de la grammaire structurelle d’une émission TV récurrente à partir du contenu

    TV program structuring raises as a major theme in last decade for the task of high quality indexing. In this thesis, we address the problem of unsupervised TV program structuring from the point of view of grammatical inference, i.e., discovering a common structural model shared by a collection of episodes of a recurrent program. Using grammatical inference makes it possible to rely on only minimal domain knowledge. In particular, we assume no prior knowledge on the structural elements that might be present in a recurrent program and very limited knowledge on the program type, e.g., to name structural elements, apart from the recurrence. With this assumption, we propose an unsupervised framework operating in two stages. The first stage aims at determining the structural elements that are relevant to the structure of a program. We address this issue making use of the property of element repetitiveness in recurrent programs, leveraging temporal density analysis to filter out irrelevant events and determine valid elements. Having discovered structural elements, the second stage is to infer a grammar of the program. We explore two inference techniques based either on multiple sequence alignment or on uniform resampling. A model of the structure is derived from the grammars and used to predict the structure of new episodes. Evaluations are performed on a selection of four different types of recurrent programs. Focusing on structural element determination, we analyze the effect on the number of determined structural elements, fixing the threshold applied on the density function as well as the size of collection of episodes. For structural grammar inference, we discuss the quality of the grammars obtained and show that they accurately reflect the structure of the program. We also demonstrate that the models obtained by grammatical inference can accurately predict the structure of unseen episodes, conducting a quantitative and comparative evaluation of the two methods by segmenting the new episodes into their structural components. Finally, considering the limitations of our work, we discuss a number of open issues in structure discovery and propose three new research directions to address in future work.Dans cette thèse, on aborde le problème de structuration des programmes télévisés de manière non supervisée à partir du point de vue de l'inférence grammaticale, focalisant sur la découverte de la structure des programmes récurrents à partir une collection homogène. On vise à découvrir les éléments structuraux qui sont pertinents à la structure du programme, et à l’inférence grammaticale de la structure des programmes. Des expérimentations montrent que l'inférence grammaticale permet de utiliser minimum des connaissances de domaine a priori pour atteindre la découverte de la structure des programmes

    Linux-Box: DVB and VoD streaming over local area networks

    Aquest treball tracta sobre un projecte comú anomenat Linux-Box portat a terme per diferents persones al departament de Telecomunicacions (IET) de la Universitat de Pisa. Linux-Box és un sistema dotat amb targetes TDT (DVB-T) i de televisió per satèl·lit (DVB-S) que permet transmetre aquests senyals fins a un àmbit domèstic. Més endavant podria ser utilitzat en àmbits privats com les cases de clients o en institucions públiques com escoles, universitats, biblioteques i també seria possible en àmbits empresarials. El projecte està dividit en 4 apartats: 1. Ubuntu 6.06 LTS. Explica perquè s’utilitza Ubuntu en el projecte. A més també s’explica de forma breu que és Linux i les distribucions més utilitzades. 2. Multimedia Network Protocols: s’expliquen els diferents protocols desde la capa de xarxa fins la capa d’aplicació que s’utilitzen en el projecte Linux-Box. Aquests protocols són utilitzats tant en streaming, com en anunciació, unicast/multicast, encapsulat de vídeo i codecs. Els diversos temes tractats aquí es fan amb el propòsit de comparar i no només com a recerca teòrica. A la fi es veuen els programes utilitzats en el projecte per analitzar el tràfic de la xarxa. 3. Linux-Box: s’explica el funcionament i els objectius globals del projecte. Es dedica un sub-apartat a “VideoLan - VLC” part important a nivell de sofware. Més endavant es parla de les característiques de la Linux-Box de forma acurada: streaming de VoD i senyals de TV i s’analitzen els problemes coneguts i les seves solucions proposades. A la fi s’enumeren els llenguatges de programació utilitzats al projecte i en quina part s’utilitzen. Observarem que és una aplicació on diversos llenguatges de programació estan contínuament solapats. 4. Developed Part: es posa en pràctica la teoria estudiada a la resta del treball. Està dividida en 4 seccions: Desenvolupar una aplicació en codi C per convertir la llista de Canals (tant terrestre com de satèl·lit) en format XML. Una secció dedicada al streaming de Canals de TV a la pàgina web principal. Un anàlisis profund dels paquets creats per la Linux-Box i la seva activitat a la xarxa. Finalment s’analitzen els diferents scripts i les seves configuracions. Alguns són útils per a un futur desenvolupament i d’altres s’utilitzen en seccions prèvies. 5. Conclusions: conté les conclusions i línies futures. El projecte compta amb diverses opcions que encara poden ser implementades i estudiades. Aquí exposem les nostres interpretacions i possibles línies futures d’estudi

    Deliverable D2.2 Specification of lightweight metadata models for multimedia annotation

    This deliverable presents a state-of-art and requirements analysis report for the LinkedTV metadata model as part of the WP2 of the LinkedTV project. More precisely, we first provide a comprehensive overview of numerous multimedia metadata formats and standards that have been proposed by various communities: broadcast industry, multimedia analysis industry, news and photo industry, web community, etc. Then, we derive a number of requirements for a LinkedTV metadata model. Next, we present what will be the LinkedTV metadata ontology, a set of built-in classes and properties added to a number of well-used vocabularies for representing the different metadata dimensions used in LinkedTV, namely: legacy metadata covering both broadcast information in the wide sense and content metadata and multimedia analysis results at a very fine grained level. We finally provide a set of useful SPARQL queries that have been evaluated in order to show the usefulness and expressivity of our proposed ontology

    More playful user interfaces:interfaces that invite social and physical interaction

    Multi-sensor human action recognition with particular application to tennis event-based indexing

    The ability to automatically classify human actions and activities using vi- sual sensors or by analysing body worn sensor data has been an active re- search area for many years. Only recently with advancements in both fields and the ubiquitous nature of low cost sensors in our everyday lives has auto- matic human action recognition become a reality. While traditional sports coaching systems rely on manual indexing of events from a single modality, such as visual or inertial sensors, this thesis investigates the possibility of cap- turing and automatically indexing events from multimodal sensor streams. In this work, we detail a novel approach to infer human actions by fusing multimodal sensors to improve recognition accuracy. State of the art visual action recognition approaches are also investigated. Firstly we apply these action recognition detectors to basic human actions in a non-sporting con- text. We then perform action recognition to infer tennis events in a tennis court instrumented with cameras and inertial sensing infrastructure. The system proposed in this thesis can use either visual or inertial sensors to au- tomatically recognise the main tennis events during play. A complete event retrieval system is also presented to allow coaches to build advanced queries, which existing sports coaching solutions cannot facilitate, without an inordi- nate amount of manual indexing. The event retrieval interface is evaluated against a leading commercial sports coaching tool in terms of both usability and efficiency

    Video Vortex reader : responses to Youtube

    The Video Vortex Reader is the first collection of critical texts to deal with the rapidly emerging world of online video – from its explosive rise in 2005 with YouTube, to its future as a significant form of personal media. After years of talk about digital convergence and crossmedia platforms we now witness the merger of the Internet and television at a pace no-one predicted. These contributions from scholars, artists and curators evolved from the first two Video Vortex conferences in Brussels and Amsterdam in 2007 which focused on responses to YouTube, and address key issues around independent production and distribution of online video content. What does this new distribution platform mean for artists and activists? What are the alternatives

    Multimedia Retrieval

