267 research outputs found

    International workshop on socially-aware multimedia (SAM'12)

    Full text link

    Browse-to-search

    Full text link
    This demonstration presents a novel interactive online shopping application based on visual search technologies. When users want to buy something on a shopping site, they usually have the requirement of looking for related information from other web sites. Therefore users need to switch between the web page being browsed and other websites that provide search results. The proposed application enables users to naturally search products of interest when they browse a web page, and make their even causal purchase intent easily satisfied. The interactive shopping experience is characterized by: 1) in session - it allows users to specify the purchase intent in the browsing session, instead of leaving the current page and navigating to other websites; 2) in context - -the browsed web page provides implicit context information which helps infer user purchase preferences; 3) in focus - users easily specify their search interest using gesture on touch devices and do not need to formulate queries in search box; 4) natural-gesture inputs and visual-based search provides users a natural shopping experience. The system is evaluated against a data set consisting of several millions commercial product images. © 2012 Authors

    Deliverable D7.3 LinkedTV Dissemination and Standardisation Report v1

    Get PDF
    This deliverable presents the LinkedTV dissemination and standardisation report for the first 18 months of the project

    Deliverable D9.3 Final Project Report

    Get PDF
    This document comprises the final report of LinkedTV. It includes a publishable summary, a plan for use and dissemination of foreground and a report covering the wider societal implications of the project in the form of a questionnaire

    Enriching unstructured media content about events to enable semi-automated summaries, compilations, and improved search by leveraging social networks

    Get PDF
    (i) Mobile devices and social networks are omnipresent Mobile devices such as smartphones, tablets, or digital cameras together with social networks enable people to create, share, and consume enormous amounts of media items like videos or photos both on the road or at home. Such mobile devices "by pure definition" accompany their owners almost wherever they may go. In consequence, mobile devices are omnipresent at all sorts of events to capture noteworthy moments. Exemplary events can be keynote speeches at conferences, music concerts in stadiums, or even natural catastrophes like earthquakes that affect whole areas or countries. At such events" given a stable network connection" part of the event-related media items are published on social networks both as the event happens or afterwards, once a stable network connection has been established again. (ii) Finding representative media items for an event is hard Common media item search operations, for example, searching for the official video clip for a certain hit record on an online video platform can in the simplest case be achieved based on potentially shallow human-generated metadata or based on more profound content analysis techniques like optical character recognition, automatic speech recognition, or acoustic fingerprinting. More advanced scenarios, however, like retrieving all (or just the most representative) media items that were created at a given event with the objective of creating event summaries or media item compilations covering the event in question are hard, if not impossible, to fulfill at large scale. The main research question of this thesis can be formulated as follows. (iii) Research question "Can user-customizable media galleries that summarize given events be created solely based on textual and multimedia data from social networks?" (iv) Contributions In the context of this thesis, we have developed and evaluated a novel interactive application and related methods for media item enrichment, leveraging social networks, utilizing the Web of Data, techniques known from Content-based Image Retrieval (CBIR) and Content-based Video Retrieval (CBVR), and fine-grained media item addressing schemes like Media Fragments URIs to provide a scalable and near realtime solution to realize the abovementioned scenario of event summarization and media item compilation. (v) Methodology For any event with given event title(s), (potentially vague) event location(s), and (arbitrarily fine-grained) event date(s), our approach can be divided in the following six steps. 1) Via the textual search APIs (Application Programming Interfaces) of different social networks, we retrieve a list of potentially event-relevant microposts that either contain media items directly, or that provide links to media items on external media item hosting platforms. 2) Using third-party Natural Language Processing (NLP) tools, we recognize and disambiguate named entities in microposts to predetermine their relevance. 3) We extract the binary media item data from social networks or media item hosting platforms and relate it to the originating microposts. 4) Using CBIR and CBVR techniques, we first deduplicate exact-duplicate and near-duplicate media items and then cluster similar media items. 5) We rank the deduplicated and clustered list of media items and their related microposts according to well-defined ranking criteria. 6) In order to generate interactive and user-customizable media galleries that visually and audially summarize the event in question, we compile the top-n ranked media items and microposts in aesthetically pleasing and functional ways

    Sensing and awareness of 360º immersive videos on the move

    Get PDF
    Tese de mestrado em Engenharia Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2013Ao apelar a vários sentidos e transmitir um conjunto muito rico de informação, o vídeo tem o potencial para causar um forte impacto emocional nos espectadores, assim como para a criação de uma forte sensação de presença e ligação com o vídeo. Estas potencialidades podem ser estendidas através de percepção multimídia, e da flexibilidade da mobilidade. Com a popularidade dos dispositivos móveis e a crescente variedade de sensores e actuadores que estes incluem, existe cada vez mais potencial para a captura e visualização de vídeo em 360º enriquecido com informação extra (metadados), criando assim as condições para proporcionar experiências de visualização de vídeo mais imersivas ao utilizador. Este trabalho explora o potencial imersivo do vídeo em 360º. O problema é abordado num contexto de ambientes móveis, assim como num contexto da interação com ecrãs de maiores dimensões, tirando partido de second screens para interagir com o vídeo. De realçar que, em ambos os casos, o vídeo a ser reproduzido é aumentado com vários tipos de informação. Foram assim concebidas várias funcionalidades para a captura, pesquisa, visualização e navegação de vídeo em 360º. Os resultados confirmaram a existência de vantagens no uso de abordagens multisensoriais como forma de melhorar as características imersivas de um ambiente de vídeo. Foram também identificadas determinadas propriedades e parâmetros que obtêm melhores resultados em determinadas situações. O vídeo permite capturar e apresentar eventos e cenários com grande autenticidade, realismo e impacto emocional. Para além disso, tem-se vindo a tornar cada vez mais pervasivo no quotidiano, sendo os dispositivos pessoais de captura e reprodução, a Internet, as redes sociais, ou a iTV exemplos de meios através dos quais o vídeo chega até aos utilizadores (Neng & Chambel, 2010; Noronha et al, 2012). Desta forma, a imersão em vídeo tem o potencial para causar um forte impacto emocional nos espectadores, assim como para a criação de uma forte sensação de presença e ligação com o vídeo (Douglas & Hargadon, 2000; Visch et al, 2010). Contudo, no vídeo tradicional a experiência dos espectadores é limitada ao ângulo para o qual a câmara apontava durante a captura do vídeo. A introdução de vídeo em 360º veio ultrapassar essa restrição. Na busca de melhorar ainda mais as capacidades imersivas do vídeo podem ser considerados tópicos como a percepção multimídia e a mobilidade. Os dispositivos móveis têm vindo a tornar-se cada vez mais omnipresentes na sociedade moderna, e, dada a grande variedade de sensores e actuadores que incluem, oferecem um largo espectro de oportunidades de captura e reprodução de vídeo em 360º enriquecido com informação extra (metadados), tendo portanto o potencial para melhorar o paradigma de interação e providenciar suporte a experiências de visualização de vídeo mais ponderosas e imersivas. Contudo, existem desafios relacionados com o design de ambientes eficazes que tirem partido deste potencial de imersão. Ecrãs panorâmicos e CAVEs são exemplos de ambientes que caminham na direção da imersão total e providenciam condições privilegiadas no que toca à reprodução de vídeo imersivo. Porém, não são muito convenientes e, especialmente no caso das CAVEs, não são facilmente acessíveis. Por outro lado, a flexibilidade associada aos dispositivos móveis poderia permitir que os utilizadores tirassem partido dos mesmos usando-os, por exemplo, como uma janela (móvel) para o vídeo no qual estariam imersos. Mais do que isso, seguindo esta abordagem os utilizadores poderiam levar estas experiências de visualização consigo para qualquer lugar. Como second screens, os dispositivos móveis podem ser usados como auxiliares de navegação relativamente aos conteúdos apresentados no ecrã principal (seja este um ecrã panorâmico ou uma CAVE), representando também uma oportunidade para fazer chegar informação adicional ao utilizador, eliminando do ecrã principal informação alheia ao conteúdo base, o que proporciona uma melhor sensação de imersão e flexibilidade. Este trabalho explora o potencial imersivo do vídeo em 360º em ambientes móveis aumentado com vários tipos de informação. Nesse sentido, e estendendo um trabalho anterior (Neng, 2010; Noronha, 2012; Álvares, 2012) que incidiu maioritariamente na dimensão participativa de imersão, a presente abordagem centrou-se na dimensão perceptual de imersão. Neste âmbito, foram concebidas, desenvolvidas e testadas várias funcionalidades, agrupadas numa aplicação de visualização de vídeo em 360º – Windy Sight Surfers. Considerando a crescente popularidade dos dispositivos móveis na sociedade e as características que os tornam numa oportunidade para melhorar a interação homem-máquina e, mais especificamente, suportar experiências de visualização de vídeo mais imersivas, a aplicação Windy Sight Surfers está fortemente relacionada com ambientes móveis. Considerando as possibilidades de interação que o uso de second screens introduz, foi concebida uma componente do Windy Sight Surfers relacionada com a interação com ecrãs de maiores dimensões. Os vídeos utilizados no Windy Sight Surfers são vídeos em 360º, aumentados com uma série de informações registadas a partir do Windy Sight Surfers durante a sua captura. Isto é, enquanto a câmara captura os vídeos, a aplicação regista informação adicional – metadados – obtida a partir de vários sensores do dispositivo, que complementa e enriquece os vídeos. Nomeadamente, são capturadas as coordenadas geográficas e a velocidade de deslocamento a partir do GPS, a orientação do utilizador a partir da bússola digital, os valores relativos às forças-G associadas ao dispositivo através do acelerómetro, e são recolhidas as condições atmosféricas relativas ao estado do tempo através de um serviço web. Quando capturados, os vídeos, assim como os seus metadados, podem ser submetidos para o sistema. Uma vez capturados e submetidos, os vídeos podem ser pesquisados através do mais tradicional conjunto de palavras chave, de filtros relacionados com a natureza da aplicação (ex. velocidade, período do dia, condições atmosféricas), ou através de um mapa, o que introduz uma componente geográfica ao processo de pesquisa. Os resultados podem ser apresentados numa convencional lista, no formato de uma cover-flow, ou através do mapa. No que respeita à visualização dos vídeos, estes são mapeados em torno de um cilindro, que permite representar a vista dos 360º e transmitir a sensação de estar parcialmente rodeado pelo vídeo. Uma vez que a visualização de vídeos decorre em dispositivos móveis, os utilizadores podem deslocar continuamente o ângulo de visão do vídeo 360º para a esquerda ou direita ao mover o dispositivo em seu redor, como se o dispositivo se tratasse de uma janela para o vídeo em 360º. Adicionalmente, os utilizadores podem alterar o ângulo de visualização arrastando o dedo pelo vídeo, uma vez que todo o ecrã consiste numa interface deslizante durante a visualização de vídeos em 360º. Foram ainda incorporadas na aplicação várias funcionalidades que pretendem dar um maior realismo à visualização de vídeos. Nomeadamente, foi desenvolvido um acessório de vento na plataforma Arduino que leva em conta os metadados de cada vídeo para produzir vento e assim dar uma sensação mais realista do vento e da velocidade do deslocamento durante a visualização dos vídeos. De referir que o algoritmo implementado leva em conta não só a velocidade de deslocamento, como também o estado do tempo em termos de vento (força e orientação) aquando da captura do vídeo, e a orientação do utilizador de acordo com o ângulo do vídeo a ser visualizado durante a reprodução do vídeo. Considerando a componente áudio dos vídeos, neste sistema, o áudio de cada vídeo é mapeado num espaço sonoro tridimensional, que pode ser reproduzido num par de auscultadores estéreo. Neste espaço sonoro, a posição das fontes sonoras está associada ao ângulo frontal do vídeo e, como tal, muda de acordo com o ângulo do vídeo a ser visualizado. Isto é, se o utilizador estiver a visualizar o ângulo frontal do vídeo, as fontes sonoras estarão localizadas diante da cabeça do utilizador; se o utilizador estiver a visualizar o ângulo traseiro do vídeo, as fontes sonoras estarão localizadas por de trás da cabeça do utilizador. Uma vez que os vídeos têm 360º, a posição das fontes sonoras varia em torno de uma circunferência à volta da cabeça do utilizador, sendo o intuito o de dar uma orientação adicional no vídeo que está a ser visualizado. Para aumentar a sensação de movimento através do áudio, foi explorado o Efeito de Doppler. Este efeito pode ser descrito como a alteração na frequência observada de uma onda, ocorrendo quando a fonte ou o observador se encontram em movimento entre si. Devido ao facto deste efeito ser associado à noção de movimento, foi conduzida uma experiência com o intuito de analisar se o uso controlado do Efeito de Doppler tem o potencial de aumentar a sensação de movimento durante a visualização dos vídeos. Para isso, foi adicionada uma segunda camada sonora cuja função é reproduzir o Efeito de Doppler ciclicamente e de forma controlada. Esta reprodução foi relacionada com a velocidade de deslocamento do vídeo de acordo seguinte proporção: quanto maior a velocidade, maior será a frequência com que este efeito é reproduzido. Estas funcionalidades são relativas à procura de melhorar as capacidades imersivas do sistema através da estimulação sensorial dos utilizadores. Adicionalmente, o Windy Sight Surfers inclui um conjunto de funcionalidades cujo objectivo se centra em melhorar as capacidades imersivas do sistema ao providenciar ao utilizador informações que consciencializem o utilizador do contexto do vídeo, permitindo assim que este se aperceba melhor do que se está a passar no vídeo. Mais especificamente, estas funcionalidades estão dispostas numa camada por cima do vídeo e disponibilizam informações como a velocidade atual, a orientação do ângulo do vídeo a ser observado, ou a força-G instantânea. A acrescentar que as diferentes funcionalidades se dividem numa categoria relativa a informação que é disponibilizada permanentemente durante a reprodução de vídeos, e numa segunda categoria (complementar da primeira) relativa a informação que é disponibilizada momentaneamente, sendo portanto relativa a determinadas porções do vídeo. Procurando conceber uma experiência mais envolvente para o utilizador, foi incorporado um reconhecedor emocional baseado em reconhecimento de expressões faciais no Windy Sight Surfers. Desta forma, as expressões faciais dos utilizadores são analisadas durante a reprodução de vídeos, sendo os resultados desta análise usados em diferentes funcionalidades da aplicação. Presentemente, a informação emocional tem três aplicações no ambiente desenvolvido, sendo usada em: funcionalidades de catalogação e pesquisa de vídeos; funcionalidades que influenciam o controlo de fluxo da aplicação; e na avaliação do próprio sistema. Considerando o contexto do projeto de investigação ImTV (url-ImTV), e com o intuito de tornar a aplicação o mais flexível possível, o Windy Sight Surfers tem uma componente second screen, permitindo a interação com ecrãs mais amplos, como por exemplo televisões. Desta forma, é possível utilizar os dois dipositivos em conjunto por forma a retirar o melhor proveito de cada um com o objectivo de aumentar as capacidades imersivas do sistema. Neste contexto, os vídeos passam a ser reproduzidos no ecrã conectado, ao passo que a aplicação móvel assume as funcionalidades de controlar o conteúdo apresentado no ecrã conectado e disponibilizar um conjunto de informações adicionais, tais como um minimapa, onde apresenta uma projeção planar dos 360º do vídeo, e um mapa da zona geográfica associada ao vídeo onde se representa o percurso em visualização em tempo real e percursos adicionais que sejam respeitantes a vídeos associados à mesma zona geográfica do vídeo a ser visualizado no momento. Foi efectuada uma avaliação de usabilidade com utilizadores, tendo como base o questionário USE e o Self-Assessment Manikin (SAM) acoplado de dois parâmetros adicionais relativos a presença e realismo. Com base na observação durante a realização de tarefas por parte dos utilizadores, foram realizadas entrevistas onde se procurou obter comentários, sugestões ou preocupações sobre as funcionalidades testadas. Adicionalmente, a ferramenta de avaliação emocional desenvolvida foi utilizada de forma a registar quais as emoções mais prevalentes durante a utilização da aplicação. Por fim, as potencialidades imersivas globais do Windy Sight Surfers foram avaliadas através da aplicação do Immersive Tendencies Questionnaire (ITQ) e de uma versão adaptada do Presence Questionnaire (PQ). Os resultados confirmaram a existência de vantagens no uso de abordagens multisensoriais como forma de melhorar as características imersivas de um ambiente de vídeo. Para além disso, foram identificadas determinadas propriedades e parâmetros que obtêm melhores resultados e são mais satisfatórios em determinadas condições, podendo assim estes resultados servir como diretrizes para futuros ambientes relacionados com vídeo imersivo.By appealing to several senses and conveying very rich information, video has the potential for a strong emotional impact on viewers, greatly influencing their sense of presence and engagement. This potential may be extended even further with multimedia sensing and the flexibility of mobility. Mobile devices are commonly used and increasingly incorporating a wide range of sensors and actuators with the potential to capture and display 360º video and metadata, thus supporting more powerful and immersive video user experiences. This work was carried out in the context of the ImTV research project (url-ImTV), and explores the immersion potential of 360º video. The matter is approached in a mobile environment context, and in a context of interaction with wider screens, using second screens in order to interact with video. It must be emphasized that, in both situations, the videos are augmented with several types of information. Therefore, several functionalities were designed regarding the capture, search, visualization and navigation of 360º video. Results confirmed advantages in using a multisensory approach as a means to increase immersion in a video environment. Furthermore, specific properties and parameters that worked better in different conditions have been identified, thus enabling these results to serve as guidelines for future environments related to immersive video

    Multimedia Development of English Vocabulary Learning in Primary School

    Get PDF
    In this paper, we describe a prototype of web-based intelligent handwriting education system for autonomous learning of Bengali characters. Bengali language is used by more than 211 million people of India and Bangladesh. Due to the socio-economical limitation, all of the population does not have the chance to go to school. This research project was aimed to develop an intelligent Bengali handwriting education system. As an intelligent tutor, the system can automatically check the handwriting errors, such as stroke production errors, stroke sequence errors, stroke relationship errors and immediately provide a feedback to the students to correct themselves. Our proposed system can be accessed from smartphone or iPhone that allows students to do practice their Bengali handwriting at anytime and anywhere. Bengali is a multi-stroke input characters with extremely long cursive shaped where it has stroke order variability and stroke direction variability. Due to this structural limitation, recognition speed is a crucial issue to apply traditional online handwriting recognition algorithm for Bengali language learning. In this work, we have adopted hierarchical recognition approach to improve the recognition speed that makes our system adaptable for web-based language learning. We applied writing speed free recognition methodology together with hierarchical recognition algorithm. It ensured the learning of all aged population, especially for children and older national. The experimental results showed that our proposed hierarchical recognition algorithm can provide higher accuracy than traditional multi-stroke recognition algorithm with more writing variability

    From intangibility to materiality and back again: preserving Portuguese performance artworks from the 1970s

    Get PDF
    Performance art has seen growing incorporation in museum collections in the last decade, and yet Conservation is still struggling to find methods to conserve these artworks, which resist acts of containement. In the context of the present research, three problems hampering progress in the conservation of performance art were identified: (1) Conservation’s scope is often seen in opposition to the nature of performance artworks, (2) there is a lack of an epistemological analysis of Conservation’s documentation methodologies, and (3) there are difficulties in managing the artwork’s networks in institutional contexts. The third problem is beyond the scope of this thesis, as this project was undertaken outside an institutional setting. This thesis therefore sheds light on the first two issues by drawing on agential realism (Karen Barad 2007), an epistemological lens which considers that every act of knowing implies material and discursive entanglements within every agent involved. To answer the first problem, a relational ontology of Conservation, which considers that Conservation practice, instead of being associated only with tangible objects, constitutes and is coconstituted by material-discursive practices, is proposed. Following this reasoning the act of conservation is then presented as a set of decisions, which vary in scale and produce materialisations of artistic manifestations. This thesis argues that cultural heritage works, including performance art, are thus always intangible until being materialised by heritage practices, which are characterised by specific ways of seeing, or measurements. In this sense it will be demonstrated that performance art, instead of existing only in the present, exists in various material ways, which are recursively disseminated over time through practices of memorialisation. To understand the second problem, two performance artworks created in the 1970s by Portuguese artists have been documented for the first time in this thesis. The case study analyses demonstrate how current methodologies are focused on perfomance-based art’s materials instead of its materiality and how that process increases the number of exclusions in the documentation process. Exclusions are then explained as acts of affirmation of the dominant cultural and political discourse and, in that sense, contribute to the invisibility of counter-narratives which not only co-constitute but are an intentional part of the fabric of performance artworks. Aside from implying a constant delimitation in the materialisation of these works, exclusions also immortalise social injustices in the form of, for example, community misrecognition. Participation, understood in the broad sense as an act of yielding authority, is proposed as a way to materialise performance artworks while reducing the exclusions that occur in every documentation process. This thesis argues that a dislocation of authority to peripheral stakeholders is not a loss of authorial power, but a way to multiply the instances of the work in multiple body-archives. An outcome of this dissertation, is a proposal and detailed outline for an innovative methodology for documenting performance art works

    Measuring Expressive Music Performances: a Performance Science Model using Symbolic Approximation

    Get PDF
    Music Performance Science (MPS), sometimes termed systematic musicology in Northern Europe, is concerned with designing, testing and applying quantitative measurements to music performances. It has applications in art musics, jazz and other genres. It is least concerned with aesthetic judgements or with ontological considerations of artworks that stand alone from their instantiations in performances. Musicians deliver expressive performances by manipulating multiple, simultaneous variables including, but not limited to: tempo, acceleration and deceleration, dynamics, rates of change of dynamic levels, intonation and articulation. There are significant complexities when handling multivariate music datasets of significant scale. A critical issue in analyzing any types of large datasets is the likelihood of detecting meaningless relationships the more dimensions are included. One possible choice is to create algorithms that address both volume and complexity. Another, and the approach chosen here, is to apply techniques that reduce both the dimensionality and numerosity of the music datasets while assuring the statistical significance of results. This dissertation describes a flexible computational model, based on symbolic approximation of timeseries, that can extract time-related characteristics of music performances to generate performance fingerprints (dissimilarities from an ‘average performance’) to be used for comparative purposes. The model is applied to recordings of Arnold Schoenberg’s Phantasy for Violin with Piano Accompaniment, Opus 47 (1949), having initially been validated on Chopin Mazurkas.1 The results are subsequently used to test hypotheses about evolution in performance styles of the Phantasy since its composition. It is hoped that further research will examine other works and types of music in order to improve this model and make it useful to other music researchers. In addition to its benefits for performance analysis, it is suggested that the model has clear applications at least in music fraud detection, Music Information Retrieval (MIR) and in pedagogical applications for music education

    Emotion and Stress Recognition Related Sensors and Machine Learning Technologies

    Get PDF
    This book includes impactful chapters which present scientific concepts, frameworks, architectures and ideas on sensing technologies and machine learning techniques. These are relevant in tackling the following challenges: (i) the field readiness and use of intrusive sensor systems and devices for capturing biosignals, including EEG sensor systems, ECG sensor systems and electrodermal activity sensor systems; (ii) the quality assessment and management of sensor data; (iii) data preprocessing, noise filtering and calibration concepts for biosignals; (iv) the field readiness and use of nonintrusive sensor technologies, including visual sensors, acoustic sensors, vibration sensors and piezoelectric sensors; (v) emotion recognition using mobile phones and smartwatches; (vi) body area sensor networks for emotion and stress studies; (vii) the use of experimental datasets in emotion recognition, including dataset generation principles and concepts, quality insurance and emotion elicitation material and concepts; (viii) machine learning techniques for robust emotion recognition, including graphical models, neural network methods, deep learning methods, statistical learning and multivariate empirical mode decomposition; (ix) subject-independent emotion and stress recognition concepts and systems, including facial expression-based systems, speech-based systems, EEG-based systems, ECG-based systems, electrodermal activity-based systems, multimodal recognition systems and sensor fusion concepts and (x) emotion and stress estimation and forecasting from a nonlinear dynamical system perspective
    corecore