11 research outputs found

    A Review: Movie Character Identification Based on Graph Matching

    Get PDF
    With the rapid development of movie and television industry a huge amount of movie and television data is being generated every day. To manage this data, efficient and effective technique is required, which understand the video contents and organize it properly, Character identification of movie is challenging problem due to huge variation in the appearance of each character and complex background, large motion, non-rigid deformation, occlusion, huge pose, expression, wearing, clothing, even makeup and hairstyle changes and other uncontrolled condition make the result of face detection and face tracking unreliable

    Recent Trends in Computing

    Get PDF
    ABSTRACT Huge amount of video data is being generated every day, with enormous growth of security and surveillance system. It is immensely challengeable for researcher to search and retrieve accurate human face of interest from video with utmost speed. The proposed work is stimulated from the same concern. It would be the future demand for searching, browsing, and retrieving human face of interest from video database for several applications. This paper proposes the novel algorithm for human face retrieval from video database based on holistic approach. The Viola and Jones frontal face detector detect the face region. The next stage is face extraction which have input for grouping individual faces. The individual group of faces has converted into single normalized mean face using PCA. The final face group contains single face for each person occurred in video. After the pre-processing of normalized faces, recognition is performed on the basis of query face image

    Tensor-based Intrinsic Subspace Representation Learning for Multi-view Clustering

    Full text link
    As a hot research topic, many multi-view clustering approaches are proposed over the past few years. Nevertheless, most existing algorithms merely take the consensus information among different views into consideration for clustering. Actually, it may hinder the multi-view clustering performance in real-life applications, since different views usually contain diverse statistic properties. To address this problem, we propose a novel Tensor-based Intrinsic Subspace Representation Learning (TISRL) for multi-view clustering in this paper. Concretely, the rank preserving decomposition is proposed firstly to effectively deal with the diverse statistic information contained in different views. Then, to achieve the intrinsic subspace representation, the tensor-singular value decomposition based low-rank tensor constraint is also utilized in our method. It can be seen that specific information contained in different views is fully investigated by the rank preserving decomposition, and the high-order correlations of multi-view data are also mined by the low-rank tensor constraint. The objective function can be optimized by an augmented Lagrangian multiplier based alternating direction minimization algorithm. Experimental results on nine common used real-world multi-view datasets illustrate the superiority of TISRL

    Nommage non-supervisé des personnes dans les émissions de télévision: une revue du potentiel de chaque modalité

    Get PDF
    National audienceersons identification in TV broadcast is a valuable tool for indexing these videos. But the use of biometric models is an unsustainable option without a priori knowledge of people present in the videos. The names pronounced or written on the screen can provide us a list of hypotheses names. We propose a comparison of the potential of these two modalities (names pronounced or written) to extract the true names of the speakers and/or faces. The names pro- nounced offer many instance of citation but transcription and detection errors of these names halved the potential of this modality. The names written benefits of the video quality improve- ment and there are easy to find. The affiliation to speakers/faces of names written is simpler than for names pronounced.L'identification de personnes dans les émissions de télévision est un outil précieux pour l'indexation de ce type de vidéos. Mais l'utilisation de modèles biométriques n'est pas une op- tion viable sans connaissance a priori des personnes présentes dans les vidéos. Les noms cités à l'oral ou écrits à l'écran peuvent nous fournir une liste de noms hypothèses. Nous proposons une comparaison du potentiel de ces deux modalités (noms cités ou écrits) afin d'extraire le nom des personnes parlant et/ou apparaissant. Les noms cités à l'oral proposent un plus grand nombre d'occurrences de citation mais les erreurs de transcriptions et de détections de ces noms réduisent de moitié le potentiel de cette modalité. Les noms écrits à l'écran bénéficient d'une amélioration croissante de la qualité des vidéos et sont plus facilement détectés. L'affiliation aux locuteurs/visages des noms écrits reste plus simple que pour les noms cités à l'oral

    Multimodal Learning from TV Drama using Deep Hypernetworks

    Get PDF
    학위논문 (석사)-- 서울대학교 대학원 : 컴퓨터공학부, 2017. 2. 장병탁.최근 인터넷기술의 발전과 딥 러닝 연구의 활성화를 통해 인공지능 연구에 관련된 데이터가 급격히 증가하고 있다. ImageNet, WordNet과 같은 정형화된 단일 모달리티 데이터는 물론, Flickr 8K, Flickr 30K, Microsoft COCO와 같은 대표적인 멀티모달 데이터들도 있다. 이러한 정적 데이터로부터 학습된 인공지능 기술은 이미지 검색, 시각-언어 번역 등 많은 분야에서 성공사례들을 보이고 있다. 하지만 실세계에서 더욱 다양한 문제를 다루기 위해서는 동적 멀티모달 데이터를 효율적으로 학습할 수 있는 인공지능 기술이 필요하다. TV드라마는 인간 사회의 엄청난 지식을 포함하고 있는 대용량 데이터이다. 이러한 비디오 데이터는 자유로운 스토리 전개를 통해 인물들 간의 관계뿐만 아니라 경제, 정치, 문화 등 다양한 지식을 사람들에게 전달해주고 있다. 특히 다양한 장소에서 인간의 대화 습성과 행동 패턴은 사회관계를 분석하는데 있어서 아주 중요한 정보이다. 하지만 TV드라마의 멀티모달과 동적인 특성으로 인해 학습모델이 비디오로부터 자동으로 지식을 습득하기에는 아직 많은 어려움이 있다. 이러한 문제점들을 해결하려면 효과적인 동적 멀티모달 데이터 학습 기술과 다양한 영상처리 기술들이 필요하다. 본 논문에서는 TV드라마의 지식을 자동으로 학습하고 분석하는 딥 하이퍼네트워크(Deep hypernetworks) 기반 멀티모달 학습 방법론을 제안한다. 딥 하이퍼네트워크는 계층적 구조를 이용하여 다양한 단계의 추상화를 통해 데이터로부터 지식을 학습한다. 이러한 특징으로 인해 모델이 복잡한 멀티모달 학습을 효율적으로 진행할 수 있다. 기존의 고정된 신경망 모델의 구조와는 달리 딥 하이퍼네트워크의 구조는 유동적으로 변할 수 있어 동적인 정보를 다루기에 적합하다. 제안된 방법론을 통해 본 논문에서는 TV드라마를 분석하였다. 실험을 위해 183편 에피소드, 총 4400분 분량의 TV드라마 'Friends'를 사용했고 다양한 영상처리 기법을 통해 장소와 등장인물 등 시각 정보를 추출하였다. 본 논문에서는 딥 하이퍼네트워크 모델을 통해 자동으로 소셜 네트워크를 생성하여 TV드라마에서 출현하는 다양한 장면에서의 인물 관계 변화를 분석하였다. 이러한 소셜 네트워크 분석으로부터 제안된 방법이 멀티모달 학습을 할 수 있음을 알 수 있었다. 또한 스토리의 전개에 따른 인물관계 변화로부터 동적 멀티모달 데이터를 학습할 수 있었음을 확인하였다. 모델의 학습정도를 평가하기 위해 본 논문에서는 데이터로부터 학습된 지식을 활용하여 시각-언어 번역 실험을 진행하였다. 실험결과로부터 멀티모달 학습을 통해 추출된 지식이 시각-언어 번역 정확도에 기여하였음을 알 수가 있고 스토리의 축적에 따라 정확도가 높아졌음을 확인하였다.I. 서 론 1 1. 연구 배경 및 목적 1 2. 논문 구성 4 II. 관련 연구 5 1. 딥 네트워크 기반 멀티모달 학습 연구 5 2. 멀티모달 데이터 분석 연구 7 2.1. 소셜 미디어의 정보 추출 7 2.2. 비디오 데이터의 소셜 정보 분석 8 3. 시각-언어 번역 연구 9 III. 딥 하이퍼네트워크 11 1. 하이퍼네트워크 11 1.1. 하이퍼네트워크 구조 11 1.2. 하이퍼네트워크 학습 14 2. 딥 하이퍼네트워크 15 2.1. 딥 하이퍼네트워크 구조 15 2.2. 딥 하이퍼네트워크 학습 18 IV. 데이터 전처리 23 1. TV드라마 시각 정보의 추출 23 1.1. 등장인물 인식 방법 23 1.2. 장소 분류 방법 26 2. 데이터 전처리 및 실험 설정 28 V. 결과 및 논의 30 1. 소셜 네트워크 분석 30 1.1. 인물 중심 네트워크 시각화 기법 30 1.2. 장소 기반 네트워크의 정량적 평가 34 2. 시각-언어 번역 38 VI. 결 론 42 참고문헌 43 영문요약 51Maste

    Multimodal Character Representation for Visual Story Understanding

    Full text link
    Stories are one of the main tools that humans use to make sense of the world around them. This ability is conjectured to be uniquely human, and concepts of agency and interaction have been found to develop during childhood. However, state-of-the-art artificial intelligence models still find it very challenging to represent or understand such information about the world. Over the past few years, there has been a lot of research into building systems that can understand the contents of images, videos, and text. Despite several advances made, computers still struggle to understand high-level discourse structures or how visuals and language are organized to tell a coherent story. Recently, several efforts have been made towards building story understanding benchmarks. As characters are the key component around which the story events unfold, character representations are crucial for deep story understanding such as their names, appearances, and relations to other characters. As a step towards endowing systems with a richer understanding of characters in a given narrative, this thesis develops new techniques that rely on the vision, audio and language channels to address three important challenges: i) speaker recognition and identification, ii) character representation and embedding, and iii) temporal modeling of character relations. We propose a multi-modal unsupervised model for speaker naming in movies, a novel way to represent movie character names in dialogues, and a multi-modal supervised character relation classification model. We also show that our approach improves systems ability to understand narratives, which is measured using several tasks such as their ability to answer questions about stories on several benchmarks.PHDComputer Science & EngineeringUniversity of Michigan, Horace H. Rackham School of Graduate Studieshttps://deepblue.lib.umich.edu/bitstream/2027.42/153444/1/mazab_1.pd

    Agrupamento de faces em vídeos digitais.

    Get PDF
    Faces humanas são algumas das entidades mais importantes frequentemente encontradas em vídeos. Devido ao substancial volume de produção e consumo de vídeos digitais na atualidade (tanto vídeos pessoais quanto provenientes das indústrias de comunicação e entretenimento), a extração automática de informações relevantes de tais vídeos se tornou um tema ativo de pesquisa. Parte dos esforços realizados nesta área tem se concentrado no uso do reconhecimento e agrupamento facial para auxiliar o processo de anotação automática de faces em vídeos. No entanto, algoritmos de agrupamento de faces atuais ainda não são robustos às variações de aparência de uma mesma face em situações de aquisição típicas. Neste contexto, o problema abordado nesta tese é o agrupamento de faces em vídeos digitais, com a proposição de nova abordagem com desempenho superior (em termos de qualidade do agrupamento e custo computacional) em relação ao estado-da-arte, utilizando bases de vídeos de referência da literatura. Com fundamentação em uma revisão bibliográfica sistemática e em avaliações experimentais, chegou-se à proposição da abordagem, a qual é constituída por módulos de pré-processamento, detecção de faces, rastreamento, extração de características, agrupamento, análise de similaridade temporal e reagrupamento espacial. A abordagem de agrupamento de faces proposta alcançou os objetivos planejados obtendo resultados superiores (no tocante a diferentes métricas) a métodos avaliados utilizando as bases de vídeos YouTube Celebrities (KIM et al., 2008) e SAIVT-Bnews (GHAEMMAGHAMI, DEAN e SRIDHARAN, 2013).Human faces are some of the most important entities frequently encountered in videos. As a result of the currently high volumes of digital videos production and consumption both personal and profissional videos, automatic extraction of relevant information from those videos has become an active research topic. Many efforts in this area have focused on the use of face clustering and recognition in order to aid with the process of annotating faces in videos. However, current face clustering algorithms are not robust to variations of appearance that a same face may suffer due to typical changes in acquisition scenarios. Hence, this thesis proposes a novel approach to the problem of face clustering in digital videos which achieves superior performance (in terms of clustering quality and computational cost) in comparison to the state-of-the-art, using reference video databases according to the literature. After performing a systematic literature review and experimental evaluations, the current approach has been proposed, which has the following modules: preprocessing, face detection, tracking, feature extraction, clustering, temporal similarity analysis, and spatial reclustering. The proposed approach for face clustering achieved the planned objectives obtaining better results (according to different metrics) than those presented by methods evaluated on the YouTube Celebrities videos dataset (KIM et al., 2008) and SAIVT-Bnews videos dataset (GHAEMMAGHAMI, DEAN e SRIDHARAN, 2013)
    corecore