Search CORE

4 research outputs found

Generating natural language tags for video information management

Author: BZ Yao
J Pustejovsky
JF Allen
MP Marcus
MUG Khan
Muhammad Usman Ghani Khan
P Baiget
RR Vallacher
W Kim
WC Hu
Y Yang
Yoshihiko Gotoh
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 14/02/2017
Field of study

This exploratory work is concerned with generation of natural language descriptions that can be used for video retrieval applications. It is a step ahead of keyword-based tagging as it captures relations between keywords associated with videos. Firstly, we prepare hand annotations consisting of descriptions for video segments crafted from a TREC Video dataset. Analysis of this data presents insights into human’s interests on video contents. Secondly, we develop a framework for creating smooth and coherent description of video streams. It builds on conventional image processing techniques that extract high-level features from individual video frames. Natural language description is then produced based on high-level features. Although feature extraction processes are erroneous at various levels, we explore approaches to putting them together to produce a coherent, smooth and well-phrased description by incorporating spatial and temporal information. Evaluation is made by calculating ROUGE scores between human-annotated and machine-generated descriptions. Further, we introduce a task-based evaluation by human subjects which provides qualitative evaluation of generated descriptions

Crossref

White Rose Research Online

A framework for creating natural language descriptions of video streams

Author: Baiget
Bolle
Everingham
Kim
Kuchi
Maglogiannis
Metze
Muhammad Usman Ghani Khan
Nouf Al Harbi
Reiter
Ryoo
Salton
Schirra
Yao
Yoshihiko Gotoh
Publication venue: 'Elsevier BV'
Publication date: 01/05/2015
Field of study

This contribution addresses generation of natural language descriptions for important visual content present in video streams. The work starts with implementation of conventional image processing techniques to extract high-level visual features such as humans and their activities. These features are converted into natural language descriptions using a template-based approach built on a context free grammar, incorporating spatial and temporal information. The task is challenging particularly because feature extraction processes are erroneous at various levels. In this paper we explore approaches to accommodating potentially missing information, thus creating a coherent description. Sample automatic annotations are created for video clips presenting humans’ close-ups and actions, and qualitative analysis of the approach is made from various aspects. Additionally a task-based scheme is introduced that provides quantitative evaluation for relevance of generated descriptions. Further, to show the framework’s potential for extension, a scalability study is conducted using video categories that are not targeted during the development

Crossref

White Rose Research Online

Kone avuksi sisällönkuvailuun? Ylen automaattisen sisällönkuvailun hanke

Author: Honkajuuri Matilda
Publication venue
Publication date: 15/05/2018
Field of study

Tässä tutkielmassa käsitellään Ylen automaattisen sisällönkuvailun hanketta vuodelta 2016. Ylellä on mittavat multimedialliset kokoelmat, joiden omatuotantoinen osa on lakiin perustuen arkistoitava pysyvästi riittävin metatiedoin. Jotta arkistointi takaisi multimediallisten aineistojen mahdollisimman laajan jälleenkäyttöarvon, aineistoille tehdään manuaalisesti sisällönkuvailu. Sisällönkuvailu tehdään luonnollisella kielellä kokonaisia lauseita käyttäen. Ihmistyönä tehtävä sisällönkuvailu on hidasta ja kallista. Osittain tämän vuoksi Ylessä aloitettiin hanke, jonka tarkoituksena oli koettaa tehostaisiko ja helpottaisiko automaattinen sisällönkuvailu sisällönkuvailijoiden työtä. Automaattisen sisällönkuvailun ohjelman Ylen hankkeeseen tuotti Valossa Labs Oy. Valossa Labs Oy:n testaukseen tuottama ohjelma oli vasta kehityksessä oleva sovellus, eikä valmis automaattisen sisällönkuvailun ohjelma. Hankkeen aikana ohjelmaa testattiin Ylen puolelta, käyttäen testauksessa Ylen aineistoja. Tutkielma keskittyy sisällönkuvailun ammattilaisten käyttäjäkokemuksiin hankkeen ajalta. Ylen automaattisen sisällönkuvailun hanketta on tässä tutkielmassa tarkasteltu käyttäjälähtöisten menetelmien avulla. Tutkielmassa selvitetään, miten sisällönkuvailijat kokevat sisällönkuvailun, joka tehdään manuaalisesti ja miten he kokivat automaattisen sisällönkuvailun mahdollisena osana työtään. Tulosten perusteella voidaan sanoa, että automaattinen sisällönkuvailu ei vielä tuota Ylen tarpeisiin riittävän laadukasta sisällönkuvailua. Automaattinen sisällönkuvailu ei ole sillä tasolla, että se tehostaisi sisällönkuvailijoiden työtä. Kuitenkin voidaan esittää oletus siitä, että automaattinen sisällönkuvailu saattaisi tuottaa sellaista metadataa, jolle varsinkin julkaisu- tai tiedonhakutilanteissa olisi tarvetta. Automaattinen sisällönkuvailu ei kykene tuottamaan semanttista kuvailua, joka riittäisi Ylen tarpeisiin, mutta se voisi tuottaa lisäarvoa tiedonhakuun. Johtopäätös on se, että automaattisen sisällönkuvailun ja ihmislähtöisen sisällönkuvailun yhdistäminen tuottaisi monipuolista ja semanttisesti rikasta sisällönkuvailua

Trepo - Institutional Repository of Tampere University