A One-stage Detector for Extremely-small Objects Based on Feature Pyramid Network

Abstract

Thanks to the recent development in Graphics Processing Unit (GPU) and deep neural network, outstanding enhancement has been made in real-time and multi-scale object detection. However, most of these detectors ignore the situations where the target needs to be identified is extremely-small corresponding to the size of the image or video. The spatial resolution of feature maps is decreasing and detailed information about extremely-small objects is missing during the process of extracting features with stride and pooling. So how to keep the higher spatial resolution when we extract the richer semantic information and enlarge receptive field becomes the crucial core of this project. With the purpose of detecting targets with 30 to 1000 pixels in 1080p videos, we design a one-stage detector that uses DetNet as the backbone and construct the head of detector based on the idea of Feature Pyramid Network (FPN). Taking advantage of the dilated convolutional layer in DetNet, the size of the last three feature maps are not decreasing. By contrast, the receptive field and semantic information are augmented by traversing the backbone of the detector. Besides, with the technique of FPN, feature maps from different stages are combined and assigned to the prediction, making the model more robust and accurate. Additionally, in order to reduce the input size of the image to decrease computational complexity without missing any information of extremely-small objects, we crop the full image based on the distribution of the target’s location in existing data instead of directly resizing the full image. We compare the performance of this proposed detector with YOLOv3 on the custom dataset, and it turns out to obtain remarkably good results on extremely small objects, improving mean average precision by 18%.Tack vare den senaste utvecklingen inom grafikbearbetningsenhet (GPU) och djupa neurala nätverk har enastående förbättring gjorts i realtid och detektering av flera objekt. De flesta av dessa detektorer ignorerar emellertid situationerna där det identifierade målet som identifieras är extremt litet motsvarande storleken på bilden eller videon. Den rumsliga upplösningen för funktionskartor minskar och detaljerad information om extremt små objekt saknas under processen för att extrahera funktioner med steg och poolning. Så hur man kan hålla den högre rumsliga upplösningen när vi extraherar den rikare semantiska informationen och förstorar mottagningsfältet blir den avgörande kärnan i detta projekt. Med syftet att upptäcka 30 till 1000 pixelmål i 1080p-videor designar jag en enstegsdetektor som använder DetNet som ryggraden och konstruerar detektorhuvudet baserat på idén om Feature Pyramid Network (FPN) ). Med utnyttjande av det dilaterade sammanslagningsskiktet i DetNet minskar inte storleken på de tre sista funktionskartorna. Däremot har det mottagande fältet och semantisk information förstärkts genom att korsa detektorens ryggrad. Dessutom, med tekniken för FPN, kombineras funktionskartor från olika stadier och tilldelas förutsägelsen, vilket gör modellen mer robust och korrekt. För att minska bildens inmatningsstorlek för att minska beräkningskomplexiteten utan att sakna information om extremt små objekt, beskär jag dessutom hela bilden baserat på fördelningen av målets plats i befintlig data istället för att direkt ändra storleken på hela bilden. Jag jämförde prestandan för den här föreslagna detektorn med YOLOv3 på det anpassade datasettet, och det visar sig att uppnå anmärkningsvärt bra resultat på extremt små föremål, med 18 poäng avkastning på genomsnittlig genomsnittlig precision jämfört med YOLOv3-motsvarigheten

    Similar works