611 research outputs found

    A Survey of Deep Learning Solutions for Anomaly Detection in Surveillance Videos

    Get PDF
    Deep learning has proven to be a landmark computing approach to the computer vision domain. Hence, it has been widely applied to solve complex cognitive tasks like the detection of anomalies in surveillance videos. Anomaly detection in this case is the identification of abnormal events in the surveillance videos which can be deemed as security incidents or threats. Deep learning solutions for anomaly detection has outperformed other traditional machine learning solutions. This review attempts to provide holistic benchmarking of the published deep learning solutions for videos anomaly detection since 2016. The paper identifies, the learning technique, datasets used and the overall model accuracy. Reviewed papers were organised into five deep learning methods namely; autoencoders, continual learning, transfer learning, reinforcement learning and ensemble learning. Current and emerging trends are discussed as well

    Preventing School-bullying through Automated Video Analysis

    Get PDF
    Currently, humanity strives to prevent discrimination, whether through offensive words or violent attitudes. Most teenagers who suffer bullying in school have difficulties in the learning process and consequently low grades. Most of the recent studies carried out by professionals in the health department show that the marks left by events of this type can bring illnesses such as depression, low self-esteem, and self-destructive behaviors. To address this problem non-profit institutions appear to prevent this kind of action through sensibility campaigns. However, these institutions have limitations that make it impossible to diagnose most of these occurrences, creating a lack of assistance for the victim. These reasons motivate us to search for new solutions with the help of automated systems that will make it possible to detect, at the exact moment, the persons involved in bullying actions in school property. With the help of a Portuguese non-profit bullying organization, a study was made to collect information about the most known behaviors of persons involved in bullying actions and their effects on society to have good guidelines to identify this events. Next, we carried out an investigation about technologies used in computer vision and artificial intelligence that allow the analysis of videos captured by surveillance cameras and can predict which type of action is inhered in each one. We present a variety of architectures since the first model capable to classify human behavior on videos, until the current times, where state-of-the art architectures, composed by two 3D convolutions streams, able to extract spatial and temporal features were developed. To search previous studies in the deep learning area related to bullying recognition in school videos, three scientific papers were found that already had investigated this kind of problem. Our analysis derived by the studies shows us the need to create a novel dataset able to represent all types of existing bullying actions and a new model architecture capable of identifying these events with high accuracy. Following the previous studies made in Chapter 2 and 3, a few guidelines were created to mimic bullying behavior on school grounds with a group of teenagers. Three hundred fifty clips were shot in bathrooms, classrooms, hallways, and canteens with five kids aged 7 to 18 years old. Another 200 films were acquired from the Internet and categorized alongside the recorded videos, producing a balanced dataset of 550 trimmed videos. The data cleaning process removed audio and black sidebars. The Kinetics 400 was downloaded and applied for fine-tuning deep learning pipelines. In terms of models, the SlowFast, I3D, C2D, and FGN architectures were used to construct the application. The FGN was the only model that produced plausible results when trained from scratch, finishing the training process with an accuracy on the test dataset of around 70%. However, when the ideal threshold is employed, this value drops to around 51%. Following the successful training from scratch with the FGN, a training strategy known as K-Fold Cross Validation was implemented, which divided the dataset into ten pieces to test the entire dataset. The final result is the average of the ten models, which attained an accuracy of 65.67%. When trained from scratch, the other three models could not converge to a minimum and only got satisfying performance when fine-tuned using the Kinetics 400 weights. These three models do not perform well when trained from scratch since they contain numerous parameters that must be changed, signaling that more extensive datasets are required. The SlowFast model obtained approximately 83% when selecting the class with highest probability. However, this score was maintained when adopting the optimum threshold. The I3D model scored 81% on the test dataset, when considered the class with highest probability. However, determining the appropriate threshold achieved the best accuracy of approximately 87%. Finally, the C2D model obtained approximately 77% accuracy on the test dataset. This model maintained this performance when computed and utilizing the optimum threshold. These thresholds were determined using the ROC Curve, which looked for the best threshold with the highest number of true positives and the lowest amount of false positives. Ultimately, this study offered a unique bullying dataset with activities that highlight the bullying theme and have more attributes than well-known conflict datasets. After cleaning and labeling the dataset, 550 bullying and non-bullying trimming films were produced. Due to the sensitivity of the topic and the requirement for authorization from the student’s responsible entity, the filming procedure of the movies, getting the school locations and students, was challenging. It was suggested for future work to use network compression techniques through knowledge distillation, teaching a student model with a smaller size with knowledge derived from a huge model, to reduce the number of parameters and thus the number of computing resources while maintaining accuracy. This approach has advantages since it allows the model to be performed in inference mode on IoT devices rather than transferring data over the Internet to large data centers. This method provides an additional security layer to an application because of the sensitive bullying topic and school video information. Another enhancement proposal is to record new bullying and non-bullying films to offer more features and variation to the dataset.Atualmente, a humanidade luta contra a discriminação, seja ela praticada através de palavras ofensivas ou atitudes violentas. Muitos dos adolescentes que sofrem de bullying na escola têm dificuldades no processo de aprendizagem e consequentemente resultados negativos. Os mais recentes estudos feitos por profissionais da área de saúde mostram que o bullying pode deixar marcas na vida dos adolescentes através do surgimento de doenças tais como depressão, baixa autoestima, comportamentos auto-destrutivos, entre outras. Obviamente, estes problemas reduzem drasticamente a qualidade de vida da pessoa, uma vez que podem despoletar traumas socais, físicos e psicológicos na vítima. Foram criadas organizações sem fins lucrativos com o intuito de prevenir a ocorrência de ações de bullying nas escolas através de campanhas de sensibilização. Mas para além dessas campanhas, as instituições têm dificuldade em identificar esses acontecimentos, o que impede que se possa dar um correto e rápido suporte à vitima. Estes fatores levam-nos a procurar novas soluções com ajuda de sistemas automáticos, capazes de detetar, no exato momento, a ocorrência de um ato de bullying numa escola e consequentemente as pessoas envolvidas no mesmo. Com a ajuda de uma associação sem fins lucrativos portuguesa, foi realizado um estudo que procura identificar os comportamentos mais comuns nas pessoas que se encontram envolvidas nestes atos, e os efeitos que podem trazer para a sociedade, com o objetivo de tornar claro os padrões intrínsecos aos atos de bullying, possibilitando desta forma reconhecer com maior facilidade estas ações. De seguida, foi realizado um estudo aprofundado acerca das tecnologias e ferramentas utilizadas na área de visão computacional e inteligência artificial, que possibilitam a análise de vídeos capturados em câmaras de vigilância, e consequentemente identificam os tipos de ações humanas existentes. Este estudo começa com as abordagens clássicas de aprendizagem profunda, redes neuronais convolucionais 2D e termina com a utilização de redes avançadas onde são implementadas duas redes neuronais convolucionais 3D, cada uma com funções diferentes, uma responsável pela extração de características estáticas e a outra responsável pela análise do movimento. Antes de se prosseguir para o desenvolvimento, foi realizado um estudo científico em vários trabalhos já efetuados, que abordaram o tema de bullying, no contexo das tecnologias de aprendizagem profunda. Foram encontrados três artigos que estudaram a possibilidade de utilizar diversas arquiteturas de redes convolucionais e diferentes conjuntos de dados para abordar o problema. Com a leitura e análise desses documentos, concluí-se que existe a necessidade de criar um conjunto de dados que caracterizem o problema através de um grande leque de videos com ações de bullying, e a necessidade de desenvolver um modelo que consiga identificar com uma grande taxa de acerto estas ações em vídeos capturados em cenários realistas. Depois do estudo realizado nos dois capítulos anteriores, foram criados vários guiões para planear cenários encenados de ações de bullying e não-bullying com estudantes em propriedade escolar. As gravções originaram 350 videos, tendo como cenário casas de banho, salas de aula, cantinas e parques exteriores. Outros 200 vídeos foram transferidos da Internet através do site World Star HipHop. Posteriormente, os 550 videos sofreram um processo de limpeza onde foi removido som e as barras pretas presentes nas laterais. O processo de anotação criou vídeos com sequências de tempo entre os 5s e os 12s. O dataset Kinetics 400 também foi transferido e utilizado para os métodos de destilação de conhecimento e ajuste dos pesos com o dataset YNF. Em relação aos modelos utilizados na fase de desenvolvimento, foram implementadas as arquiteturas SlowFast, I3D, C2D, e FGN. FGN foi o único modelo capaz de convergir para um mínimo quando treinado com pesos incializados aleatoriamente. No final do processo de treino e validação o modelo atingiu uma taxa de acerto no conjunto de teste perto dos 70%, sofrendo uma redução significativa para os 51% quando utilizado o valor de separação ótimo entre as duas classes. Esta redução ocorreu devido à taxa de acerto inicial ter sido calculada com base no valor de separação de 0.5, enquanto que o valor que garante o maior número de verdadeiros positivos e o menor número de falsos positivos é de aproximadamente 0.87. Uma vez que o conjunto de dados recolhido é de apenas 550 videos, o que implica um reduzido número de instâncias de teste, foi implementada a técnica de treino K-Fold Cross Validation, no modelo FGN. Este processo atingiu uma taxa de acerto de 65.67%. Os restantes 3 modelos foram incializados com os pesos do conjunto de dados Kinetics 400 e sofreram um ajuste dos pesos atráves do processo de treino com o conjunto de dados YNF. O facto de estes modelos terem um grande número de parâmetros para atualizar ao longo do treino, implica o uso de grandes conjuntos de dados para convergir para um mínimo quando treinados com pesos inicializados aleatoriamente. O facto de o conjunto de dados recolhido ter apenas 550 vídeos impediu que estes atingissem um bom desempenho quando treinados sem qualquer conhecimento prévio. A arquitetura de rede SlowFast atingiu uma taxa de acerto de aproximadamente 83%, quando utilizado o valor de separação entre as duas classes de 0.5. A taxa de acerto no conjunto de teste foi igual quando utilizado o valor ótimo de separação através da métrica ROC Curve. O segundo modelo, I3D atingiu uma taxa de acerto de 81% no conjunto de teste e quando contabilizado o valor de separação ótimo, aumentou o desempenho para aproximadamente 87%. O último modelo treinado, C2D atingiu uma taxa de acerto no conjunto de teste de aproximadamente 77%, acabando por manter a mesma taxa de acerto quando contabilizado o valor ótimo de separação entre classes. Os valores ótimos de separação foram calculados atráves da métrica ROC Curve, que procurou o melhor valor de forma a reduzir o número de instâncias falsas positivas e aumentar o número de instâncias verdadeiras positivas. Em conclusão, este trabalho apresentou um conjunto de dados que expressa várias ações de bullying e não-bullying entre estudantes em propriedade escolar. Este foi criado devido à inexistência de dados que retratem o problema de bullying na sua totalidade, para além de violência física, focando-se em situações de gozo, roubo e intimidação. Com o conjunto de dados anotado e limpo, foram utilizados no processo de treino e validação de 5 modelos de aprendizagem profunda para análise de vídeo com o intuito de criar uma aplicação capaz de diferenciar ações de bullying e não-bullying. O modelo que foi capaz de realizar essa distinção com a melhor taxa de acerto foi a arquitetura I3D, inicializado com os pesos do conjunto de dados Kinetics 400, atingindo 87 % no conjunto de teste, com o valor ótimo de separação entre classes. Para trabalho futuro é mencionada a técnica de destilação de conhecimento utilizada para reduzir o tamanho das redes profundas, diminuindo consequentemente os recursos computacionais necessários para executar os modelos. Uma das vantagens do uso desta técnica é a possibilidade de fazer o desenvolvimento de aplicações de inteligência artificial em dispositivos IoT com poucos recursos de energia e processamento, mantendo a mesma taxa de acerto adquirida com modelos de maiores dimensões. Devido à sensibilidade da comunidade relativamente ao tema de bullying e partilha de dados visuais relativos a crianças menores de idade em escolas, a possibilidade de realizar inferência sem enviar dados pela Internet para grandes data-centers, adiciona uma camada de segurança às aplicações. Outra das sugestões para melhorar o desempenho da aplicação apresentada nesta dissertação é a gravação de novos vídeos, aumentando substancialmente a variedade de ações

    Automotive Interior Sensing - Anomaly Detection

    Get PDF
    Com o surgimento dos veículos autónomos partilhados não haverá condutores nos veículos capazes de manter o bem-estar dos passageiros. Por esta razão, é imperativo que exista um sistema preparado para detetar comportamentos anómalos, por exemplo, violência entre passageiros, e que responda de forma adequada. O tipo de anomalias pode ser tão diverso que ter um "dataset" para treino que contenha todas as anomalias possíveis neste contexto é impraticável, implicando que algoritmos tradicionais de classificação não sejam ideais para esta aplicação. Por estas razões, os algoritmos de deteção de anomalias são a melhor opção para construir um bom modelo discriminativo. Esta dissertação foca-se na utilização de técnicas de "deep learning", mais precisamente arquiteturas baseadas em "Spatiotemporal auto-encoders" que são treinadas apenas com sequências de "frames" de comportamentos normais e testadas com sequências normais e anómalas dos "datasets" internos da Bosch. O modelo foi treinado inicialmente com apenas uma categoria das ações não violentas e as iterações finais foram treinadas com todas as categorias de ações não violentas. A rede neuronal contém camadas convolucionais dedicadas à compressão e descompressão dos dados espaciais; e algumas camadas dedicadas à compressão e descompressão temporal dos dados, implementadas com células LSTM ("Long Short-Term Memory") convolucionais, que extraem informações relativas aos movimentos dos passageiros. A rede define como reconstruir corretamente as sequências de "frames" normais e durante os testes, cada sequência é classificada como normal ou anómala de acordo com o seu erro de reconstrução. Através dos erros de reconstrução são calculados os "regularity scores" que indicam a regularidade que o modelo previu para cada "frame". A "framework" resultante é uma adição viável aos algoritmos tradicionais de reconhecimento de ações visto que pode funcionar como um sistema que serve para detetar ações desconhecidas e contribuir para entender o significado de tais interações humanas.With the appearance of SAVs (Shared Autonomous Vehicles) there will no longer be a driver responsible for maintaining the car interior and well-being of passengers. To counter this, it is imperative to have a system that is able to detect any abnormal behaviours, e.g., violence between passengers, and trigger the appropriate response. Furthermore, the type of anomalous activities can be so diverse, that having a dataset that incorporates most use cases is unattainable, making traditional classification algorithms not ideal for this kind of application. In this sense, anomaly detection algorithms are a good approach in order to build a discriminative model. Taking this into account, this work focuses on the use of deep learning techniques, more precisely Spatiotemporal auto-encoder based frameworks, which are trained on human behavior video sequences and tested on use cases with normal and abnormal human interactions from Bosch's internal datasets. Initially, the model was trained on a single non-violent action category. Final iterations considered all of the identified non-violent actions as normal data. The network architecture presents a group of convolutional layers which encode and decode spatial data; and a temporal encoder/decoder structure, implemented as a convolutional Long Short Term Memory network, responsible for learning motion information. The network defines how to properly reconstruct the 'normal' frame sequences and during testing, each sequence is classified as normal or abnormal based on its reconstruction error. Based on these values, regularity scores are inferred showing the predicted regularity of each frame. The resulting framework is a viable addition to traditional action recognition algorithms since it can work as a tool for detecting unknown actions, strange/abnormal behaviours and aid in understanding the meaning of such human interactions

    A fully integrated violence detection system using CNN and LSTM

    Get PDF
    Recently, the number of violence-related cases in places such as remote roads, pathways, shopping malls, elevators, sports stadiums, and liquor shops, has increased drastically which are unfortunately discovered only after it’s too late. The aim is to create a complete system that can perform real-time video analysis which will help recognize the presence of any violent activities and notify the same to the concerned authority, such as the police department of the corresponding area. Using the deep learning networks CNN and LSTM along with a well-defined system architecture, we have achieved an efficient solution that can be used for real-time analysis of video footage so that the concerned authority can monitor the situation through a mobile application that can notify about an occurrence of a violent event immediately

    Weakness evaluation on in-vehicle violence detection: an assessment of X3D, C2D and I3D against FGSM and PGD

    Get PDF
    When constructing a deep learning model for recognizing violence inside a vehicle, it is crucial to consider several aspects. One aspect is the computational limitations, and the other is the deep learning model architecture chosen. Nevertheless, to choose the best deep learning model, it is necessary to test and evaluate the model against adversarial attacks. This paper presented three different architecture models for violence recognition inside a vehicle. These model architectures were evaluated based on adversarial attacks and interpretability methods. An analysis of the model’s convergence was conducted, followed by adversarial robustness for each model and a sanity-check based on interpretability analysis. It compared a standard evaluation for training and testing data samples with the adversarial attacks techniques. These two levels of analysis are essential to verify model weakness and sensibility regarding the complete video and in a frame-by-frame way.This work is funded by “FCT—Fundação para a Ciência e Tecnologia” within the R&D Units Project Scope: UIDB/00319/2020. The employment contract of Dalila Durães is supported by CCDR-N Project: NORTE-01-0145-FEDER-00008

    Spatio-temporal action localization with Deep Learning

    Get PDF
    Dissertação de mestrado em Engenharia InformáticaThe system that detects and identifies human activities are named human action recognition. On the video approach, human activity is classified into four different categories, depending on the complexity of the steps and the number of body parts involved in the action, namely gestures, actions, interactions, and activities, which is challenging for video Human action recognition to capture valuable and discriminative features because of the human body’s variations. So, deep learning techniques have provided practical applications in multiple fields of signal processing, usually surpassing traditional signal processing on a large scale. Recently, several applications, namely surveillance, human-computer interaction, and video recovery based on its content, have studied violence’s detection and recognition. In recent years there has been a rapid growth in the production and consumption of a wide variety of video data due to the popularization of high quality and relatively low-price video devices. Smartphones and digital cameras contributed a lot to this factor. At the same time, there are about 300 hours of video data updates every minute on YouTube. Along with the growing production of video data, new technologies such as video captioning, answering video surveys, and video-based activity/event detection are emerging every day. From the video input data, the detection of human activity indicates which activity is contained in the video and locates the regions in the video where the activity occurs. This dissertation has conducted an experiment to identify and detect violence with spatial action localization, adapting a public dataset for effect. The idea was used an annotated dataset of general action recognition and adapted only for violence detection.O sistema que deteta e identifica as atividades humanas é denominado reconhecimento da ação humana. Na abordagem por vídeo, a atividade humana é classificada em quatro categorias diferentes, dependendo da complexidade das etapas e do número de partes do corpo envolvidas na ação, a saber, gestos, ações, interações e atividades, o que é desafiador para o reconhecimento da ação humana do vídeo para capturar características valiosas e discriminativas devido às variações do corpo humano. Portanto, as técnicas de deep learning forneceram aplicações práticas em vários campos de processamento de sinal, geralmente superando o processamento de sinal tradicional em grande escala. Recentemente, várias aplicações, nomeadamente na vigilância, interação humano computador e recuperação de vídeo com base no seu conteúdo, estudaram a deteção e o reconhecimento da violência. Nos últimos anos, tem havido um rápido crescimento na produção e consumo de uma ampla variedade de dados de vídeo devido à popularização de dispositivos de vídeo de alta qualidade e preços relativamente baixos. Smartphones e cameras digitais contribuíram muito para esse fator. Ao mesmo tempo, há cerca de 300 horas de atualizações de dados de vídeo a cada minuto no YouTube. Junto com a produção crescente de dados de vídeo, novas tecnologias, como legendagem de vídeo, respostas a pesquisas de vídeo e deteção de eventos / atividades baseadas em vídeo estão surgindo todos os dias. A partir dos dados de entrada de vídeo, a deteção de atividade humana indica qual atividade está contida no vídeo e localiza as regiões no vídeo onde a atividade ocorre. Esta dissertação conduziu uma experiência para identificar e detetar violência com localização espacial, adaptando um dataset público para efeito. A ideia foi usada um conjunto de dados anotado de reconhecimento de ações gerais e adaptá-la apenas para deteção de violência

    Inflated 3D ConvNet context analysis for violence detection

    Get PDF
    According to the Wall Street Journal, one billion surveillance cameras will be deployed around the world by 2021. This amount of information can be hardly managed by humans. Using a Inflated 3D ConvNet as backbone, this paper introduces a novel automatic violence detection approach that outperforms state-of-the-art existing proposals. Most of those proposals consider a pre-processing step to only focus on some regions of interest in the scene, i.e., those actually containing a human subject. In this regard, this paper also reports the results of an extensive analysis on whether and how the context can affect or not the adopted classifier performance. The experiments show that context-free footage yields substantial deterioration of the classifier performance (2% to 5%) on publicly available datasets. However, they also demonstrate that performance stabilizes in context-free settings, no matter the level of context restriction applied. Finally, a cross-dataset experiment investigates the generalizability of results obtained in a single-collection experiment (same dataset used for training and testing) to cross-collection settings (different datasets used for training and testing)

    Generative Models for Novelty Detection Applications in abnormal event and situational changedetection from data series

    Get PDF
    Novelty detection is a process for distinguishing the observations that differ in some respect from the observations that the model is trained on. Novelty detection is one of the fundamental requirements of a good classification or identification system since sometimes the test data contains observations that were not known at the training time. In other words, the novelty class is often is not presented during the training phase or not well defined. In light of the above, one-class classifiers and generative methods can efficiently model such problems. However, due to the unavailability of data from the novelty class, training an end-to-end model is a challenging task itself. Therefore, detecting the Novel classes in unsupervised and semi-supervised settings is a crucial step in such tasks. In this thesis, we propose several methods to model the novelty detection problem in unsupervised and semi-supervised fashion. The proposed frameworks applied to different related applications of anomaly and outlier detection tasks. The results show the superior of our proposed methods in compare to the baselines and state-of-the-art methods
    corecore