7,338 research outputs found

    Human action recognition in image sequences based on a two-stream convolutional neural network classifier

    Get PDF
    Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2017.A evolução tecnológica nas últimas décadas contribuiu para a melhoria de computadores com excelente capacidade de processamento, armazenamento e câmeras com maior qualidade digital. Os dispositivos de geração de vídeo têm sido mais fáceis de manipular, mais portáteis e com preços mais baixos. Isso permitiu a geração, armazenamento e transmissão de grandes quantidades de vídeos, o que demanda uam forma de análise automática de informações, independente de assistência humana para avaliação e busca exaustiva de vídeos. Existem várias aplicações que podem se beneficiar de técnicas de inteligência computacional, tais como realidade virtual, robótica, telemedicina, interface homemmáquina, tele-vigilância e assistência aos idosos em acompanhamento constante. Este trabalho descreve um método para o Reconhecimento de Ações Humanas em sequências de imagens usando duas Redes (canais) Neurais Convolutivas (RNCs). O Canal Espacial é treinado usando quadros de uma sequência de imagens com técnicas de transferência de aprendizagem a partir da rede VGG16 (pré-treinada para classificação de objetos). O outro canal, Canal Temporal, recebe pilhas de Fluxo Óptico Denso (FOD) como entrada e é treinado com pesos inicais aleatórios. A técnica foi testada em dois conjuntos de dados públicos de ações humanas: Weizmann e UCF Sports. Na abordagem do Canal Espacial, conseguimos 84,44% de precisão no conjunto de dados Weizmann e 78,46% no conjunto de dados UCF Sports. Com os canais temporal e espacial combinados, obtivemos uma taxa de precisão de 91,11% para o conjunto de dados Weizmann. Mostramos que quadros estáticos pertencentes a uma certa sequência de imagens curiosamente possibilitam classificar a ação realizada em tal seqüência. Acreditamos que, uma vez que a rede VGG16 foi pré-treinada para um conjunto de dados de 1000 classes de objetos diferentes e algumas ações estão associadas a certos tipos de objetos, isso contribuiu significativamente para a aprendizagem da rede espacial. Isso indica que a técnica de transferência de aprendizado foi usada de forma eficiente para reconhecer ações humanas, usando uma rede previamente treinada para reconhecer objetos.The technological evolution in the last decades has contributed to the improvement of computers with excellent processing and storage capacity and cameras with higher digital quality. Nowadays, video generation devices are simpler to manipulate, more portable and with lower prices. This allowed easy generation, storage and transmission of large amounts of videos, which demands a form of automatic analysis, independent of human assistance for evaluation and exhaustive search of videos. There are several applications that can benefit from such techniques such as virtual reality, robotics, tele-medicine, humanmachine interface, tele-surveillance and assistance to the elderly in timely caregiving. This work describes a method for human action recognition in a sequence of images using two convolutional neural networks (CNNs). The Spatial network stream is trained 1using frames from a sequence of images with transfer learning techniques from the VGG16 network (pre-trained for classification of objects). The other stream channel, Temporal stream, receives stacks of Dense Optical Flow (DOF) as input and it is trained from scratch. The technique was tested in two public action video datasets: Weizmann and UCF Sports. In the Spatial stream approach we achieve 84.44% of accuracy on Weizmann dataset and 78.46% on UCF Sports dataset. With the Temporal and Spatial streams combined, we obtained an accuracy rate of 91.11% for the Weizmann dataset. We showed that still frames belonging to a certain sequence of images curiously make it possible to classify the action performed in such a sequence. We believe that, since the VGG16 network was pre-trained for a dataset of 1000 classes of different objects and some actions are associated with certain types of objects, this contributed significantly to the learning of the spatial network. This indicates that the transfer learning technique was used efficiently to recognize human actions, using a previously trained network to recognize objects

    Rate-Accuracy Trade-Off In Video Classification With Deep Convolutional Neural Networks

    Get PDF
    Advanced video classification systems decode video frames to derive the necessary texture and motion representations for ingestion and analysis by spatio-temporal deep convolutional neural networks (CNNs). However, when considering visual Internet-of-Things applications, surveillance systems and semantic crawlers of large video repositories, the video capture and the CNN-based semantic analysis parts do not tend to be co-located. This necessitates the transport of compressed video over networks and incurs significant overhead in bandwidth and energy consumption, thereby significantly undermining the deployment potential of such systems. In this paper, we investigate the trade-off between the encoding bitrate and the achievable accuracy of CNN-based video classification models that directly ingest AVC/H.264 and HEVC encoded videos. Instead of retaining entire compressed video bitstreams and applying complex optical flow calculations prior to CNN processing, we only retain motion vector and select texture information at significantly-reduced bitrates and apply no additional processing prior to CNN ingestion. Based on three CNN architectures and two action recognition datasets, we achieve 11%-94% saving in bitrate with marginal effect on classification accuracy. A model-based selection between multiple CNNs increases these savings further, to the point where, if up to 7% loss of accuracy can be tolerated, video classification can take place with as little as 3 kbps for the transport of the required compressed video information to the system implementing the CNN models
    corecore