2 research outputs found

    Sistema de detección de cuchillos y pistolas con los algoritmos YOLOv3-SPP y la iluminación y la difuminación de OpenCV

    Get PDF
    El problema de la investigación fue ¿Cuál fue el efecto del sistema de detección de cuchillos y pistolas con los algoritmos YOLOv3-spp y la iluminación y la difuminación de OpenCV? El objetivo de la investigación fue determinar el efecto del sistema de detección de cuchillos y pistolas con los algoritmos YOLOv3-spp y la iluminación y la difuminación de OpenCV. El diseño de investigación fue preexperimental y la metodología ágil utilizada fue Scrum. La muestra por conveniencia estuvo conformada por 2083 imágenes de cuchillos y 1327 imágenes de pistolas. La sensibilidad del 94.2% fue menor al 100% logrado por Olmos et al. (2017), porque usaron un conjunto de datos guiados por el clasificador VGG-16. La especificad del 89.4% fue menor al 95% logrado por Elsner et al. (2019) porque utilizaron un detector de 2-Pass (2 pasadas) totalmente convolucionada en regiones (R-FCN) con un extractor de características ResNet-101. La precisión del 94.2% de esta investigación fue superior al 44.28% obtenido por Fernandez Carrobles et al. (2019) porque se usó imágenes tratadas con iluminación, difuminación y una capa Spatial Pyramid Pooling (He et al., 2015). La exactitud del 88% fue menor al 97% de Arceda et al. (2016) porque usaron un detector de escenas violentas, un algoritmo de normalización y un detector de rostros. El tiempo promedio de entrenamiento de 2.07 s se mantuvo dentro de los mejores porque se usó una instancia con Intel(R) Xeon(R) CPU @ 2.30GHz, 12.7 GB RAM y Tesla T4 15 GB GPU similar a Nguyen et al. (2020) con Intel (R) Xeon (R) Gold 6152 CPU @ 2.10 GHz, GPU Tesla P100 con el algoritmo YOLOv3. El tiempo promedio de entrenamiento de 26.19 ms fue rápido porque se utilizó YOLOv3-spp, que aparte de usar Darknet53, adiciona una capa llamada Spatial Pyramid Pooling, similar a Nguyen et al. (2020), quienes usaron YOLOv3 con Darknet53. Se recomienda utilizar más algoritmos de aumento de datos como rotación, acercar y alejar, así como aumentar el conjunto de datos de entrenamiento e interactuar con los hiperparámetros

    Uma especialização do Yolov3 para detecção de pedestres

    Get PDF
    Orientador: David Menotti GomesDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 25/02/2019Inclui referências: p.111-117Resumo: A Detecção de Pedestres é uma tarefa da Visão Computacional que trabalha na localização de pedestres em imagens/vídeos para aplicações como assistência de direção, videomonitoramento, interfaces humanas, veículos e robôs autônomos. Progressos nestas aplicações podem se refletir na melhoria da qualidade de vida, e por isso, elas vem recebendo considerável atenção nos últimos anos. Na área de Aprendizagem de Máquina, Redes Neuronais Convolucionais Profundas têm sido utilizadas como principal ferramenta na obtenção dos melhores resultados em diversos desafios de detecção. Apesar do contínuo progresso na tarefa, ela ainda não está saturada, e há espaço para melhorias, inclusive para atingir-se o nível da acurácia humana. Há uma tendência entre os métodos de detecção em que tipicamente procuram aumentar a acurácia através do uso de modelos cada vez mais complexos, que elevam os custos computacionais, normalmente comprometendo a velocidade de detecção. A velocidade de detecção tem se revelado tão importante quanto a acurácia, monstrando impactar diretamente em tarefas como monitoramento, segurança automotiva e robótica. Neste trabalho, esta tendência é contrariada. Em uma primeira abordagem, o detector genérico de objetos de tempo-real, YOLOv3, é levado para experimentação no desafio Caltech Pedestrian Detection Benchmark, para avaliação de sua acurácia e velocidade de detecção contra os melhores trabalhos do desafio. Para conseguir isso, o YOLOv3 é movido de um domínio multiclasse (por exemplo, COCO Dataset com 80 classes) para a tarefa específica de detectar uma única classe, isto é, pedestres. Foi possível demonstrar que o YOLOv3 é mais rápido que os três melhores trabalhos do desafio, e ao mesmo tempo possui acurácia consistente. Em uma segunda abordagem, a técnica de "infusão de segmentação semântica fraca" é utilizada para modificar a rede neural do YOLOv3. Desta forma, o método apresentou uma detecção de pedestres aprimorada, sem impacto na velocidade de detecção, colocando o YOLOv3 na décima segunda posição do desafio Caltech, ficando apenas 2,94% atrás do melhor método da métrica principal. Adicionalmente, uma nova base de dados de detecção de pedestres é introduzida, sendo baseada no circuito de videomonitoramento do Parque Tecnológico Itaipu. Quase 8.000 frames compõe o dataset, oriundos de 21 câmeras, contendo mais de 30.000 pedestres divididos em 8 classes. Palavras-chave: Detecção de Pedestres, Videomonitoramento, YOLO, Caltech Pedestrian Dataset, PTI01 Pedestrian Dataset .Abstract: The Pedestrian Detection is a Computer Vision task which works on locating pedestrians in images/videos for applications like driving assistance, video surveillance, human interfaces, autonomous vehicles, and robots. Progresses on those applications are likely to enhance the quality of life, and because of that, they have been receiving considerable attention in the last years. In the Machine Learning area, Deep Convolutional Neural Networks (DCNN) have been the main tool in achieving the best results in many detection challenges. Despite the continuous progress in the task, it is not saturated yet, and there is room for improvements, even to reach the human-accuracy level. There is a common tendency between the detection methods to increase the accuracy typically by making use of every time more complex models which elevate the computational costs, normally compromising the detection speed. The detection speed has shown to be as important as the accuracy, demonstrating to have a direct impact on tasks like surveillance, automotive safety, and robotics. In this work, we go in the opposite direction of the trend. In our first approach, we bring the YOLOv3, a real-time generic object detector, for experimentation in the Caltech Pedestrian Detection Benchmark, in order to evaluate its accuracy and speed against the top works in such a challenge. To accomplish that, YOLOv3 is moved from a multiclass domain (e.g., COCO Dataset with 80 classes), to the specific task of detecting a single class, that is, pedestrians. We have demonstrated that it is faster than the top three works while having consistent accuracy. In a second approach, we propose to use the "weak semantic segmentation infusion" technique by modifying the YOLOv3's network. The method demonstrated to enhance the pedestrian detection with no impact on the detection speed, placing the YOLOv3 in the 12th position in the Caltech Benchmark, staying 2.94% behind the best method in the main metric. Additionally, we introduce a pedestrian detection dataset based on the Itaipu Technological Park's video surveillance system. Almost 8,000 thousand frames compose the dataset from 21 cameras and more than 30,000 pedestrians spread in 8 classes. Keywords: Pedestrian Detection, Video Surveillance, YOLO, Caltech Pedestrian Dataset, PTI01 Pedestrian Dataset
    corecore