13 research outputs found

    A Preliminary Investigation into a Deep Learning Implementation for Hand Tracking on Mobile Devices

    Get PDF
    Hand tracking is an essential component of computer graphics and human-computer interaction applications. The use of RGB camera without specific hardware and sensors (e.g., depth cameras) allows developing solutions for a plethora of devices and platforms. Although various methods were proposed, hand tracking from a single RGB camera is still a challenging research area due to occlusions, complex backgrounds, and various hand poses and gestures. We present a mobile application for 2D hand tracking from RGB images captured by the smartphone camera. The images are processed by a deep neural network, modified specifically to tackle this task and run on mobile devices, looking for a compromise between performance and computational time. Network output is used to show a 2D skeleton on the user's hand. We tested our system on several scenarios, showing an interactive hand tracking level and achieving promising results in the case of variable brightness and backgrounds and small occlusions

    Weakly-supervised mesh-convolutional hand reconstruction in the wild

    Get PDF
    We introduce a simple and effective network architecture for monocular 3D hand pose estimation consisting of an image encoder followed by a mesh convolutional decoder that is trained through a direct 3D hand mesh reconstruction loss. We train our network by gathering a large-scale dataset of hand action in YouTube videos and use it as a source of weak supervision. Our weakly-supervised mesh convolutions-based system largely outperforms state-of-the-art methods, even halving the errors on the in the wild benchmark. The dataset and additional resources are available at https://arielai.com/mesh_hands

    Interaktionstechniken für mobile Augmented-Reality-Anwendungen basierend auf Blick- und Handbewegungen

    Get PDF
    Intuitive interaction techniques are essential for mobile augmented reality systems. For implicit interaction, this work presents techniques for automatic eye movement analysis and visualization. In the context of explicit interaction, a fusion of optical flow, skin color segmentation, and a hand pose estimator is presented along with a tracking method for localization and pose estimation of a hand in monocular color images

    Interaktionstechniken für mobile Augmented-Reality-Anwendungen basierend auf Blick- und Handbewegungen

    Get PDF
    Visuelle Augmented Reality hat das Potential, die Art und Weise, wie der Mensch mit Maschinen kommuniziert, grundlegend zu verändern. Grundvoraussetzung dafür sind angenehm zu tragende binokulare AR-Brillen mit einem großen Sichtfeld für visuelle Einblendungen mit hohem Kontrast, so dass virtuelle Elemente als Teil der realen Umgebung dargestellt und wahrgenommen werden können. Gleichzeitig bedürfen derartige AR-Systeme einer intuitiven Interaktion mit ihrem Benutzer, um akzeptiert zu werden. Blick und Handgesten bilden neben Sprache die Interaktionstechniken der Wahl, um mit virtuellen Elementen zu interagieren. Die vorliegende Arbeit beschäftigt sich mit der Analyse des Blickes für eine implizite unbewusste Interaktion und mit der Erfassung von Handgesten für die explizite Interaktion in mobilen Anwendungen. Es wird eines der ersten Verfahren zur vollautomatischen echtzeitfähigen Blickbewegungsanalyse in dreidimensionalen Umgebungen anhand eines Beispiels aus dem Museumskontext vorgestellt. Dafür wurde eine 3D-Blickpunktberechnung und eine darauf aufsetzende echtzeitfähige Blickanalyse von 3D-Blickpfaden realisiert, als dies mit anderen Blickmessgeräten inklusive zugehöriger Software nicht möglich war. Zusätzlich wird das Verfahren Projected Gaussians für die Darstellung dreidimensionalen Blickverhaltens vorgestellt, das in Echtzeit realistische Visualisierung von Heatmaps in dreidimensionalen Umgebungen erzeugt. Dieses Verfahren ist das weltweit einzige, das die visuelle Schärfe des menschlichen Blickes in die Szene projiziert und damit nah am physikalischen Prozess der Wahrnehmung bleibt. Kein zuvor vorgestelltes Verfahren berücksichtigte Verdeckungen oder ermöglichte eine von der Polygonstruktur unabhängige Einfärbung von Oberflächen. Sowohl das Verfahren zur vollautomatischen Blickanalyse als auch Projected Gaussians wird anhand eines Beispiels auf echte Blickdaten angewendet und die Ergebnisse dieser Analyse werden präsentiert. Für die explizite Interaktion mit den Händen beschäftigt sich diese Arbeit mit dem ersten Schritt der Handgestenerkennung in monokularen Farbbildern: der Handregionsbestimmung. Bei dieser wird die Region der Hand in einem Kamerabild ermittelt. Die entwickelten Verfahren fusionieren auf unterschiedliche Weise optischen Fluss und Segmentierungen von Hautfarbe. Des Weiteren nutzen sie Objektklassifikatoren und Handposenschätzer für eine optimierte Handregionsbestimmung. Letztere wird anschließend mit einem öffentlich verfügbaren 2D-Handposenschätzer fusioniert. Diese Fusion übertrifft bei der 2D-Posenschätzung und geringen erlaubten Abweichungen auf dem öffentlichen Datensatz EgoDexter den aktuellen Stand der Technik der Handposenschätzung, obwohl zugehörige Verfahren trotz monokularen Eingabedaten ihre Schätzungen im dreidimensionalen Raum durchführen. Die Ergebnisse zeigen bei aktuellen 3D-Handposenschätzern für monokulare Eingabebilder ein Defizit bei der Wiederverwendung vorheriger Handposenschätzungen. Das hier vorgestellte Verfahren zur Handregionsbestimmung kann mit jedem Handposenschätzer kombiniert werden

    Interaktionstechniken für mobile Augmented-Reality-Anwendungen basierend auf Blick- und Handbewegungen

    Get PDF
    Intuitive interaction techniques are essential for mobile augmented reality systems. For implicit interaction, this work presents techniques for automatic eye movement analysis and visualization. In the context of explicit interaction, a fusion of optical flow, skin color segmentation, and a hand pose estimator is presented along with a tracking method for localization and pose estimation of a hand in monocular color images
    corecore