1 research outputs found
Real-time hand pose estimation on a smart-phone using Deep Learning
Hand pose estimation is a computer vision challenge that consists of detecting the coordinates of a handâs key points in an image. This research investigates several deep learning-based solutions to determine whether or not it is possible to improve current state-of-the-art detectors for smartphone applications. Several models are tested and compared based on accuracy, processing speed and memory size. A final network is selected and detailed to compare it to the state-of-the-art. The proposed solution is obtained by combining the Differentiable Spatial to Numerical Transform layer to predict numerical coordinates together with the Fire module presented in the SqueezeNet architecture. This deep neural network contains around 1 million parameters and is able to outperform the current best documented model in all the metrics described above. A qualitative analysis is also performed to examine the predictions of the final solution on test images.Att bestĂ€mma en hands orientering Ă€r en utmaning inom bildanalys som bestĂ„r i att detektera koordinaterna för olika nyckelpunkter för handen i en bild. I denna studie undersöks ett antal metoder baserade pĂ„ djupinlĂ€rning för att avgöra huruvida det Ă€r möjligt att förbĂ€ttra existerande detektorer för tillĂ€mpningar pĂ„ smartphones. Flera olika modeller testas och jĂ€mförs baserat pĂ„ noggrannhet, berĂ€kningshastighet och minneskrav. Ett slutligt nĂ€tverk vĂ€ljs, analyseras och jĂ€mföras med nuvarande state-of-the-art teknik. Den lösning som föreslĂ„s erhĂ„lls genom att kombinera ett sĂ„ kallat Differentiable Spatial to Numerical Transform-lager, för att förutsĂ€ga numeriska koordinater, tillsammans med en sĂ„ kallad Fire-modul som tidigare presenteras som en del av arkitekturen SqueezeNet. Detta djupa neurala nĂ€tverk innehĂ„ller cirka en miljon parametrar och kan övertrĂ€ffa den nuvarande mest dokumenterade modellen i alla de avseenden som beskrivits ovan. En kvalitativ analys utförs ocksĂ„ för att undersöka den slutliga lösningens uppskattningar pĂ„ testbilder