4 research outputs found

    Detecção de pornografia em vídeos através de técnicas de aprendizado profundo e informações de movimento

    Get PDF
    Orientadores: Anderson de Rezende Rocha, Vanessa TestoniDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: Com o crescimento exponencial de gravações em vídeos disponíveis online, a moderação manual de conteúdos sensíveis, e.g, pornografia, violência e multidões, se tornou impra- ticável, aumentando a necessidade de uma filtragem automatizada. Nesta linha, muitos trabalhos exploraram o problema de detecção de pornografia, usando abordagens que vão desde a detecção de pele e nudez, até o uso de características locais e sacola de pala- vras visuais. Contudo, essas técnicas sofrem com casos ambíguos (e.g., cenas em praia, luta livre), produzindo muitos falsos positivos. Isto está possivelmente relacionado com o fato de que essas abordagens estão desatualizadas, e de que poucos autores usaram a informação de movimento presente nos vídeos, que pode ser crucial para a desambi- guação visual dos casos mencionados. Indo adiante para superar estas questões, neste trabalho, nós exploramos soluções de aprendizado em profundidade para o problema de detecção de pornografia em vídeos, levando em consideração tanto a informação está- tica, quanto a informação de movimento disponível em cada vídeo em questão. Quando combinamos as características estáticas e de movimento, o método proposto supera as soluções existentes na literatura. Apesar de as abordagens de aprendizado em profun- didade, mais especificamente as Redes Neurais Convolucionais (RNC), terem alcançado resultados impressionantes em outros problemas de visão computacional, este método tão promissor ainda não foi explorado suficientemente no problema detecção de pornografia, principalmente no que tange à incorporação de informações de movimento presente no vídeo. Adicionalmente, propomos novas formas de combinar as informações estáticas e de movimento usando RNCs, que ainda não foram exploradas para detecção de pornografia, nem em outras tarefas de reconhecimento de ações. Mais especificamente, nós exploramos duas fontes distintas de informação de movimento: Campos de deslocamento de Fluxo Óptico, que tem sido tradicionalmente usados para classificação de vídeos; e Vetores de Movimento MPEG. Embora Vetores de Movimento já tenham sido utilizados pela litera- tura na tarefa de detecção de pornografia, neste trabalho nós os adaptamos, criando uma representação visual apropriada, antes de passá-los a uma rede neural convolucional para aprendizado e extração de características. Nossos experimentos mostraram que, apesar de a técnica de Vetores de Movimento MPEG possuir uma performance inferior quando utilizada de forma isolada, quando comparada à técnica baseada em Fluxo Óptico, ela consegue uma performance similar ao complementar a informação estática, com a van- tagem de estar presente, por construção, nos vídeos, enquanto se decodifica os frames, evitando a necessidade da computação mais cara do Fluxo Óptico. Nossa melhor aborda- gem proposta supera os métodos existentes na literatura em diferentes datasets. Para o dataset Pornography 800, o método consegue uma acurácia de classificação de 97,9%, uma redução do erro de 64,4% quando comparado com o estado da arte (94,1% de acu- rácia neste dataset). Quando consideramos o dataset Pornography 2k, mais desafiador, nosso melhor método consegue um acurácia de 96,4%, reduzindo o erro de classificação em 14,3% em comparação ao estado da arte (95,8%)Abstract: With the exponential growth of video footage available online, human manual moderation of sensitive scenes, e.g., pornography, violence and crowd, became infeasible, increasing the necessity for automated filtering. In this vein, a great number of works has explored the pornographic detection problem, using approaches ranging from skin and nudity de- tection, to local features and bag of visual words. Yet, these techniques suffer from some ambiguous cases (e.g., beach scenes, wrestling), producing too much false positives. This is possibly related to the fact that these approaches are somewhat outdated, and that few authors have used the motion information present in videos, which could be crucial for the visual disambiguation of these cases. Setting forth to overcome these issues, in this work, we explore deep learning solutions to the problem of pornography detection in videos, tak- ing into account both the static and the motion information available for each questioned video. When incorporating the static and motion complementary features, the proposed method outperforms the existing solutions in the literature. Although Deep Learning ap- proaches, more specifically Convolutional Neural Networks (CNNs), have achieved striking results on other vision-related problems, such promising methods are still not sufficiently explored in pornography detection while incorporating motion information. We also pro- pose novel ways for combining the static and the motion information using CNNs, that have not been explored in pornography detection, nor in other action recognition tasks before. More specifically, we explore two distinct sources of motion information herein: Optical Flow displacement fields, which have been traditionally used for video classifica- tion; and MPEG Motion Vectors. Although Motion Vectors have already been used for pornography detection tasks in the literature, in this work, we adapt them, by finding an appropriate visual representation, before feeding a convolution neural network for feature learning and extraction. Our experiments show that although the MPEG Motion Vectors technique has an inferior performance by itself, than when using its Optical Flow coun- terpart, it yields a similar performance when complementing the static information, with the advantage of being present, by construction, in the video while decoding the frames, avoiding the need for the more expensive Optical Flow calculations. Our best approach outperforms existing methods in the literature when considering different datasets. For the Pornography 800 dataset, it yields a classification accuracy of 97.9%, an error re- duction of 64.4% when compared to the state of the art (94.1% in this dataset). Finally, considering the more challenging Pornography 2k dataset, our best method yields a clas- sification accuracy of 96.4%, reducing the classification error in 14.3% when compared to the state of the art (95.8% in the same dataset)MestradoCiência da ComputaçãoMestre em Ciência da ComputaçãoFuncampCAPE

    Análise de vídeo sensível

    Get PDF
    Orientadores: Anderson de Rezende Rocha, Siome Klein GoldensteinTese (doutorado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: Vídeo sensível pode ser definido como qualquer filme capaz de oferecer ameaças à sua audiência. Representantes típicos incluem ¿ mas não estão limitados a ¿ pornografia, violência, abuso infantil, crueldade contra animais, etc. Hoje em dia, com o papel cada vez mais pervasivo dos dados digitais em nossa vidas, a análise de conteúdo sensível representa uma grande preocupação para representantes da lei, empresas, professores, e pais, devido aos potenciais danos que este tipo de conteúdo pode infligir a menores, estudantes, trabalhadores, etc. Não obstante, o emprego de mediadores humanos, para constantemente analisar grandes quantidades de dados sensíveis, muitas vezes leva a ocorrências de estresse e trauma, o que justifica a busca por análises assistidas por computador. Neste trabalho, nós abordamos este problema em duas frentes. Na primeira, almejamos decidir se um fluxo de vídeo apresenta ou não conteúdo sensível, à qual nos referimos como classificação de vídeo sensível. Na segunda, temos como objetivo encontrar os momentos exatos em que um fluxo começa e termina a exibição de conteúdo sensível, em nível de quadros de vídeo, à qual nos referimos como localização de conteúdo sensível. Para ambos os casos, projetamos e desenvolvemos métodos eficazes e eficientes, com baixo consumo de memória, e adequação à implantação em dispositivos móveis. Neste contexto, nós fornecemos quatro principais contribuições. A primeira é uma nova solução baseada em sacolas de palavras visuais, para a classificação eficiente de vídeos sensíveis, apoiada na análise de fenômenos temporais. A segunda é uma nova solução de fusão multimodal em alto nível semântico, para a localização de conteúdo sensível. A terceira, por sua vez, é um novo detector espaço-temporal de pontos de interesse, e descritor de conteúdo de vídeo. Finalmente, a quarta contribuição diz respeito a uma base de vídeos anotados em nível de quadro, que possui 140 horas de conteúdo pornográfico, e que é a primeira da literatura a ser adequada para a localização de pornografia. Um aspecto relevante das três primeiras contribuições é a sua natureza de generalização, no sentido de poderem ser empregadas ¿ sem modificações no passo a passo ¿ para a detecção de tipos diversos de conteúdos sensíveis, tais como os mencionados anteriormente. Para validação, nós escolhemos pornografia e violência ¿ dois dos tipos mais comuns de material impróprio ¿ como representantes de interesse, de conteúdo sensível. Nestes termos, realizamos experimentos de classificação e de localização, e reportamos resultados para ambos os tipos de conteúdo. As soluções propostas apresentam uma acurácia de 93% em classificação de pornografia, e permitem a correta localização de 91% de conteúdo pornográfico em fluxo de vídeo. Os resultados para violência também são interessantes: com as abordagens apresentadas, nós obtivemos o segundo lugar em uma competição internacional de detecção de cenas violentas. Colocando ambas em perspectiva, nós aprendemos que a detecção de pornografia é mais fácil que a de violência, abrindo várias oportunidades de pesquisa para a comunidade científica. A principal razão para tal diferença está relacionada aos níveis distintos de subjetividade que são inerentes a cada conceito. Enquanto pornografia é em geral mais explícita, violência apresenta um espectro mais amplo de possíveis manifestaçõesAbstract: Sensitive video can be defined as any motion picture that may pose threats to its audience. Typical representatives include ¿ but are not limited to ¿ pornography, violence, child abuse, cruelty to animals, etc. Nowadays, with the ever more pervasive role of digital data in our lives, sensitive-content analysis represents a major concern to law enforcers, companies, tutors, and parents, due to the potential harm of such contents over minors, students, workers, etc. Notwithstanding, the employment of human mediators for constantly analyzing huge troves of sensitive data often leads to stress and trauma, justifying the search for computer-aided analysis. In this work, we tackle this problem in two ways. In the first one, we aim at deciding whether or not a video stream presents sensitive content, which we refer to as sensitive-video classification. In the second one, we aim at finding the exact moments a stream starts and ends displaying sensitive content, at frame level, which we refer to as sensitive-content localization. For both cases, we aim at designing and developing effective and efficient methods, with low memory footprint and suitable for deployment on mobile devices. In this vein, we provide four major contributions. The first one is a novel Bag-of-Visual-Words-based pipeline for efficient time-aware sensitive-video classification. The second is a novel high-level multimodal fusion pipeline for sensitive-content localization. The third, in turn, is a novel space-temporal video interest point detector and video content descriptor. Finally, the fourth contribution comprises a frame-level annotated 140-hour pornographic video dataset, which is the first one in the literature that is appropriate for pornography localization. An important aspect of the first three contributions is their generalization nature, in the sense that they can be employed ¿ without step modifications ¿ to the detection of diverse sensitive content types, such as the previously mentioned ones. For validation, we choose pornography and violence ¿ two of the commonest types of inappropriate material ¿ as target representatives of sensitive content. We therefore perform classification and localization experiments, and report results for both types of content. The proposed solutions present an accuracy of 93% in pornography classification, and allow the correct localization of 91% of pornographic content within a video stream. The results for violence are also compelling: with the proposed approaches, we reached second place in an international competition of violent scenes detection. Putting both in perspective, we learned that pornography detection is easier than its violence counterpart, opening several opportunities for additional investigations by the research community. The main reason for such difference is related to the distinct levels of subjectivity that are inherent to each concept. While pornography is usually more explicit, violence presents a broader spectrum of possible manifestationsDoutoradoCiência da ComputaçãoDoutor em Ciência da Computação1572763, 1197473CAPE

    Pornography detection using bossanova video descriptor

    No full text
    In certain environments or for certain publics, porno-graphic content may be considered inappropriate, generating the need to be detected and filtered. Most works regarding pornography detection are based on the detection of human skin. However, a shortcoming of these kind of approaches is related to the high false positive rate in contexts like beach shots or sports. Considering the development of low-level local features and the emergence of mid-level representations, we introduce a new video descriptor, which employs local binary descriptors in conjunction with BossaNova, a recent mid-level representation. Our proposed method outperforms the state-of-the-art on the Pornography dataset.In certain environments or for certain publics, porno-graphic content may be considered inappropriate, generating the need to be detected and filtered. Most works regarding pornography detection are based on the detection of human skin. However, a shortco16811685CNPQ - CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICOCAPES - COORDENAÇÃO DE APERFEIÇOAMENTO DE PESSOAL DE NÍVEL SUPERIORFAPEMIG - FUNDAÇÃO DE AMPARO À PESQUISA DO ESTADO DE MINAS GERAISsem informaçãosem informaçãosem informaçãoCord, M., Cunningham, P., Machine learning tech-niques for multimedia: Case studies on organization and retrieval (2008) Cognitive Technologies, , SpringerRies, C., Lienhart, R., A survey on visual adult im-age recognition (2012) MTA, pp. 1-28Fleck, M., Forsyth, D., Bregler, C., Finding naked people (1996) ECCV, pp. 593-602Jones, M., Rehg, J., Statistical color models with application to skin detection (2002) IJCV, pp. 81-96Lee, J.-S., Kuo, Y.-M., Chung, P.-C., Chen, E.-L., Naked image detection based on adaptive and exten-sible skin color model (2007) Pattern Recognition, 40 (8), pp. 2261-2270Zuo, H., Hu, W., Wu, O., Patch-based skin color detection and its application to pornography image fil-tering (2010) WWW, pp. 1227-1228Deselaers, T., Pimenidis, L., Ney, H., Bag-of-visual-words models for adult image classification and filter-ing (2008) ICPR, pp. 1-4Lopes, A., Avila, S., Peixoto, A., Oliveira, R., A bag-of-features approach based on hue-sift descriptor for nude detection (2009) EUSIPCO, pp. 1552-1556Lopes, A., Avila, S., Peixoto, A., Oliveira, R., Coelho, M., Nude detection in video using bag-of-visual-features (2009) SIBGRAPI, pp. 224-236. , 10. 1109/SIBGRAPI. 2009. 32Avila, S., Thome, N., Cord, M., Valle, E., Pooling in image representation: The visual codeword point of view (2013) CVIU, 117 (5), pp. 453-465Caetano, C., Avila, S., Guimaraes, S., Representing local binary des-criptors with bossanova for visual recognition (2014) ACM SAC, pp. 49-54Valle, E., Avila, S., Da Luz, A., Souza, F., Coelho, M., Content-based filtering for video sharing social networks (2011) CoRR, , arXiv: 1101. 2427Endeshaw, T., Garcia, J., Jakobsson, A., Classifi-cation of indecent videos by low complexity repetitive motion detection (2008) AIPR, pp. 1-7Jansohn, C., Ulges, A., Breuel, T., Detecting porno-graphic video content by combining image features with motion information (2009) ACM MM, pp. 601-604Liu, Y., Wang, X., Zhang, Y., Tang, S., Fusing audio-words with visual features for pornographic video de-tection (2011) TrustCom, pp. 1488-1493Lowe, D., Distinctive image features from scale-invariant keypoints (2004) IJCV, pp. 91-110Sivic, J., Zisserman, A., Video google: A text re-trieval approach to object matching in videos (2003) ICCV, pp. 1-8Calonder, M., Lepetit, V., Strecha, C., Fua, P., BRIEF: Binary robust independent elementary fea-tures (2010) ECCV, pp. 778-792Rublee, E., Rabaud, V., Konolige, K., Bradski, G., ORB: An efficient alternative to sift or surf (2011) ICCV, pp. 2564-2571Leutenegger, S., Chli, M., Siegwart, R., BRISK: Binary robust invariant scalable keypoints (2011) ICCV, pp. 2548-2555Ortiz, R., FREAK: Fast retina keypoint (2012) CVPR, pp. 510-517Lepetit, V., Trzcinski, T., Christoudias, M., Fua, P., Boosting binary keypoint descriptors (2013) CVPR, pp. 2874-2881Avila, S., Thome, N., Cord, M., Valle, E., BOSSA: Extended bow formalism for image classification (2011) ICIP, pp. 2909-2912Avila, S., Thome, N., Cord, M., Valle, E., BossaNova at imageclef 2012 flickr photo annotation task (2012) Working Notes of the CLEF, pp. 1-6Bradski, G., The opencv library (2000) Dr. Dobb's Jour-nal of Software ToolsEveringham, M., Gool, L.-V., Williams, C., Winn, J., Zisserman, A., (2007) The PASCAL Visual Object Classes Challenge 2007 (VOC2007) ResultsJain, R., (1991) The Art of Computer Systems Performance Anal-ysis, , John Wiley &Sons, Inc22nd European Signal Processing Conference (EUSIPCO
    corecore