thesis

Separació de shots de vídeo amb anàlisis multimodal

Abstract

La indexació i la recuperació de vídeo en format digital és una de les àrees del tractament digital de senyals audiovisuals en les quals s’està desenvolupant una gran activitat. La quantitat d’informació audiovisual digital disponible en bases de dades està creixent de forma espectacular gràcies al desenvolupament tecnològic en la societat de la informació i la comunicació en els últims anys. Per aquesta raó, l’accés a les dades audiovisuals ha de ser el més senzill i ràpid possible per a estalviar temps i recursos. Per això es necessiten eines automàtiques de segmentació, que separin una seqüència de vídeo en els seus shots elementals. S’han implementat dos descriptors de color basats en histogrames definits en l’estàndard MPEG-7, el Scalable Color Descriptor (SCD), que extreu els bins de l’histograma de l’espai de color HSV, i el Group-of-Frames Descriptor (GoF), que s’utilitza per a representar el contingut de cada shot detectat mitjançant l’acumulació de tres histogrames diferents. Una vegada extretes les característiques de color, es calculen mesures de distància L2 entre frames consecutius que proporcionen la informació necessària per a, aplicant algorismes basats en llindars temporals adaptatius, detectar els shots (hard cuts) d’una seqüència de vídeo. Es presenten un conjunt de resultats per a tots els gèneres de vídeo inclosos en la base de dades segmentada manualment. Aquests resultats s’avaluen a partir de la mesura de distància L2 entre frames consecutius per als paràmetres estadístics μ i σ del canal HSV i, per altra banda, a partir de la mesura de distància L2 entre frames consecutius per als bins de l’histograma extret pel SCD. Recall i Precision mesuren la qualitat de les deteccions. Per a la valoració global del gènere de vídeo s’obtenen els següents resultats: Recallbins (97,29%) > Recall μ, σ (92,69%) Precisionbins (78,92%) < Precision μ, σ (86,51%

    Similar works