4 research outputs found

    Generating natural language tags for video information management

    Get PDF
    This exploratory work is concerned with generation of natural language descriptions that can be used for video retrieval applications. It is a step ahead of keyword-based tagging as it captures relations between keywords associated with videos. Firstly, we prepare hand annotations consisting of descriptions for video segments crafted from a TREC Video dataset. Analysis of this data presents insights into human’s interests on video contents. Secondly, we develop a framework for creating smooth and coherent description of video streams. It builds on conventional image processing techniques that extract high-level features from individual video frames. Natural language description is then produced based on high-level features. Although feature extraction processes are erroneous at various levels, we explore approaches to putting them together to produce a coherent, smooth and well-phrased description by incorporating spatial and temporal information. Evaluation is made by calculating ROUGE scores between human-annotated and machine-generated descriptions. Further, we introduce a task-based evaluation by human subjects which provides qualitative evaluation of generated descriptions

    A framework for creating natural language descriptions of video streams

    Get PDF
    This contribution addresses generation of natural language descriptions for important visual content present in video streams. The work starts with implementation of conventional image processing techniques to extract high-level visual features such as humans and their activities. These features are converted into natural language descriptions using a template-based approach built on a context free grammar, incorporating spatial and temporal information. The task is challenging particularly because feature extraction processes are erroneous at various levels. In this paper we explore approaches to accommodating potentially missing information, thus creating a coherent description. Sample automatic annotations are created for video clips presenting humans’ close-ups and actions, and qualitative analysis of the approach is made from various aspects. Additionally a task-based scheme is introduced that provides quantitative evaluation for relevance of generated descriptions. Further, to show the framework’s potential for extension, a scalability study is conducted using video categories that are not targeted during the development

    Kone avuksi sisällönkuvailuun? Ylen automaattisen sisällönkuvailun hanke

    Get PDF
    Tässä tutkielmassa käsitellään Ylen automaattisen sisällönkuvailun hanketta vuodelta 2016. Ylellä on mittavat multimedialliset kokoelmat, joiden omatuotantoinen osa on lakiin perustuen arkistoitava pysyvästi riittävin metatiedoin. Jotta arkistointi takaisi multimediallisten aineistojen mahdollisimman laajan jälleenkäyttöarvon, aineistoille tehdään manuaalisesti sisällönkuvailu. Sisällönkuvailu tehdään luonnollisella kielellä kokonaisia lauseita käyttäen. Ihmistyönä tehtävä sisällönkuvailu on hidasta ja kallista. Osittain tämän vuoksi Ylessä aloitettiin hanke, jonka tarkoituksena oli koettaa tehostaisiko ja helpottaisiko automaattinen sisällönkuvailu sisällönkuvailijoiden työtä. Automaattisen sisällönkuvailun ohjelman Ylen hankkeeseen tuotti Valossa Labs Oy. Valossa Labs Oy:n testaukseen tuottama ohjelma oli vasta kehityksessä oleva sovellus, eikä valmis automaattisen sisällönkuvailun ohjelma. Hankkeen aikana ohjelmaa testattiin Ylen puolelta, käyttäen testauksessa Ylen aineistoja. Tutkielma keskittyy sisällönkuvailun ammattilaisten käyttäjäkokemuksiin hankkeen ajalta. Ylen automaattisen sisällönkuvailun hanketta on tässä tutkielmassa tarkasteltu käyttäjälähtöisten menetelmien avulla. Tutkielmassa selvitetään, miten sisällönkuvailijat kokevat sisällönkuvailun, joka tehdään manuaalisesti ja miten he kokivat automaattisen sisällönkuvailun mahdollisena osana työtään. Tulosten perusteella voidaan sanoa, että automaattinen sisällönkuvailu ei vielä tuota Ylen tarpeisiin riittävän laadukasta sisällönkuvailua. Automaattinen sisällönkuvailu ei ole sillä tasolla, että se tehostaisi sisällönkuvailijoiden työtä. Kuitenkin voidaan esittää oletus siitä, että automaattinen sisällönkuvailu saattaisi tuottaa sellaista metadataa, jolle varsinkin julkaisu- tai tiedonhakutilanteissa olisi tarvetta. Automaattinen sisällönkuvailu ei kykene tuottamaan semanttista kuvailua, joka riittäisi Ylen tarpeisiin, mutta se voisi tuottaa lisäarvoa tiedonhakuun. Johtopäätös on se, että automaattisen sisällönkuvailun ja ihmislähtöisen sisällönkuvailun yhdistäminen tuottaisi monipuolista ja semanttisesti rikasta sisällönkuvailua
    corecore