92 research outputs found

    One-shot Learning Landmarks Detection

    Get PDF
    International audienceLandmark detection in medical images is important for many clinical applications. Learning-based landmark detection is successful at solving some problems but it usually requires a large number of annotated datasets for the training stage. In addition, traditional methodsusually fail for the landmark detection of fine objects. In this paper, we tackle the issue of automatic landmark annotation in 3D volumetricimages from a single example based on a one-shot learning method. It involves the iterative training of a shallow convolutional neural network combined with a 3D registration algorithm in order to perform automatic organ localization and landmark matching. We investigated both qualitatively and quantitatively the performance of the proposed approach on clinical temporal bone CT volumes. The results show that our oneshot learning scheme converges well and leads to a good accuracy of the landmark positions

    Efficient inference and learning in graphical models for multi-organ shape segmentation

    Get PDF
    This thesis explores the use of discriminatively trained deformable contour models (DCMs) for shape-based segmentation in medical images. We make contributions in two fronts: in the learning problem, where the model is trained from a set of annotated images, and in the inference problem, whose aim is to segment an image given a model. We demonstrate the merit of our techniques in a large X-Ray image segmentation benchmark, where we obtain systematic improvements in accuracy and speedups over the current state-of-the-art. For learning, we formulate training the DCM scoring function as large-margin structured prediction and construct a training objective that aims at giving the highest score to the ground-truth contour configuration. We incorporate a loss function adapted to DCM-based structured prediction. In particular, we consider training with the Mean Contour Distance (MCD) performance measure. Using this loss function during training amounts to scoring each candidate contour according to its Mean Contour Distance to the ground truth configuration. Training DCMs using structured prediction with the standard zero-one loss already outperforms the current state-of-the-art method [Seghers et al. 2007] on the considered medical benchmark [Shiraishi et al. 2000, van Ginneken et al. 2006]. We demonstrate that training with the MCD structured loss further improves over the generic zero-one loss results by a statistically significant amount. For inference, we propose efficient solvers adapted to combinatorial problems with discretized spatial variables. Our contributions are three-fold:first, we consider inference for loopy graphical models, making no assumption about the underlying graph topology. We use an efficient decomposition-coordination algorithm to solve the resulting optimization problem: we decompose the model’s graph into a set of open, chain-structured graphs. We employ the Alternating Direction Method of Multipliers (ADMM) to fix the potential inconsistencies of the individual solutions. Even-though ADMMis an approximate inference scheme, we show empirically that our implementation delivers the exact solution for the considered examples. Second,we accelerate optimization of chain-structured graphical models by using the Hierarchical A∗ search algorithm of [Felzenszwalb & Mcallester 2007] couple dwith the pruning techniques developed in [Kokkinos 2011a]. We achieve a one order of magnitude speedup in average over the state-of-the-art technique based on Dynamic Programming (DP) coupled with Generalized DistanceTransforms (GDTs) [Felzenszwalb & Huttenlocher 2004]. Third, we incorporate the Hierarchical A∗ algorithm in the ADMM scheme to guarantee an efficient optimization of the underlying chain structured subproblems. The resulting algorithm is naturally adapted to solve the loss-augmented inference problem in structured prediction learning, and hence is used during training and inference. In Appendix A, we consider the case of 3D data and we develop an efficientmethod to find the mode of a 3D kernel density distribution. Our algorithm has guaranteed convergence to the global optimum, and scales logarithmically in the volume size by virtue of recursively subdividing the search space. We use this method to rapidly initialize 3D brain tumor segmentation where we demonstrate substantial acceleration with respect to a standard mean-shift implementation. In Appendix B, we describe in more details our extension of the Hierarchical A∗ search algorithm of [Felzenszwalb & Mcallester 2007] to inference on chain-structured graphs.Cette thĂšse explore l’utilisation des modĂšles de contours dĂ©formables pour la segmentation basĂ©e sur la forme des images mĂ©dicales. Nous apportons des contributions sur deux fronts: dans le problĂšme de l’apprentissage statistique, oĂč le modĂšle est formĂ© Ă  partir d’un ensemble d’images annotĂ©es, et le problĂšme de l’infĂ©rence, dont le but est de segmenter une image Ă©tant donnĂ©e un modĂšle. Nous dĂ©montrons le mĂ©rite de nos techniques sur une grande base d’images Ă  rayons X, oĂč nous obtenons des amĂ©liorations systĂ©matiques et des accĂ©lĂ©rations par rapport Ă  la mĂ©thode de l’état de l’art. Concernant l’apprentissage, nous formulons la formation de la fonction de score des modĂšles de contours dĂ©formables en un problĂšme de prĂ©diction structurĂ©e Ă  grande marge et construisons une fonction d’apprentissage qui vise Ă  donner le plus haut score Ă  la configuration vĂ©ritĂ©-terrain. Nous intĂ©grons une fonction de perte adaptĂ©e Ă  la prĂ©diction structurĂ©e pour les modĂšles de contours dĂ©formables. En particulier, nous considĂ©rons l’apprentissage avec la mesure de performance consistant en la distance moyenne entre contours, comme une fonction de perte. L’utilisation de cette fonction de perte au cours de l’apprentissage revient Ă  classer chaque contour candidat selon sa distance moyenne du contour vĂ©ritĂ©-terrain. Notre apprentissage des modĂšles de contours dĂ©formables en utilisant la prĂ©diction structurĂ©e avec la fonction zĂ©ro-un de perte surpasse la mĂ©thode [Seghers et al. 2007] de rĂ©fĂ©rence sur la base d’images mĂ©dicales considĂ©rĂ©e [Shiraishi et al. 2000, van Ginneken et al. 2006]. Nous dĂ©montrons que l’apprentissage avec la fonction de perte de distance moyenne entre contours amĂ©liore encore plus les rĂ©sultats produits avec l’apprentissage utilisant la fonction zĂ©ro-un de perte et ce d’une quantitĂ© statistiquement significative.Concernant l’infĂ©rence, nous proposons des solveurs efficaces et adaptĂ©s aux problĂšmes combinatoires Ă  variables spatiales discrĂ©tisĂ©es. Nos contributions sont triples: d’abord, nous considĂ©rons le problĂšme d’infĂ©rence pour des modĂšles graphiques qui contiennent des boucles, ne faisant aucune hypothĂšse sur la topologie du graphe sous-jacent. Nous utilisons un algorithme de dĂ©composition-coordination efficace pour rĂ©soudre le problĂšme d’optimisation rĂ©sultant: nous dĂ©composons le graphe du modĂšle en un ensemble de sous-graphes en forme de chaines ouvertes. Nous employons la MĂ©thode de direction alternĂ©e des multiplicateurs (ADMM) pour rĂ©parer les incohĂ©rences des solutions individuelles. MĂȘme si ADMM est une mĂ©thode d’infĂ©rence approximative, nous montrons empiriquement que notre implĂ©mentation fournit une solution exacte pour les exemples considĂ©rĂ©s. DeuxiĂšmement, nous accĂ©lĂ©rons l’optimisation des modĂšles graphiques en forme de chaĂźne en utilisant l’algorithme de recherche hiĂ©rarchique A* [Felzenszwalb & Mcallester 2007] couplĂ© avec les techniques d’élagage dĂ©veloppĂ©s dans [Kokkinos 2011a]. Nous rĂ©alisons une accĂ©lĂ©ration de 10 fois en moyenne par rapport Ă  l’état de l’art qui est basĂ© sur la programmation dynamique (DP) couplĂ© avec les transformĂ©es de distances gĂ©nĂ©ralisĂ©es [Felzenszwalb & Huttenlocher 2004]. TroisiĂšmement, nous intĂ©grons A* dans le schĂ©ma d’ADMM pour garantir une optimisation efficace des sous-problĂšmes en forme de chaine. En outre, l’algorithme rĂ©sultant est adaptĂ© pour rĂ©soudre les problĂšmes d’infĂ©rence augmentĂ©e par une fonction de perte qui se pose lors de l’apprentissage de prĂ©diction des structure, et est donc utilisĂ© lors de l’apprentissage et de l’infĂ©rence. [...

    Articulated people detection and pose estimation in challenging real world environments

    Get PDF
    In this thesis we are interested in the problem of articulated people detection and pose estimation being key ingredients towards understanding visual scenes containing people. First, we investigate how statistical 3D human shape models from computer graphics can be leveraged to ease training data generation. Second, we develop expressive models for 2D single- and multi-person pose estimation. Third, we introduce a novel human pose estimation benchmark that makes a significant advance in terms of diversity and difficulty. Thorough experimental evaluation on standard benchmarks demonstrates significant improvements due to the proposed data augmentation techniques and novel body models, while detailed performance analysis of competing approaches on our novel benchmark allows to identify the most promising directions of improvement.In dieser Arbeit untersuchen wir das Problem der artikulierten Detektion und PosenschĂ€tzung von Personen als SchlĂŒsselkomponenten des Verstehens von visuellen Szenen mit Personen. Obwohl es umfangreiche BemĂŒhungen gibt, die Lösung dieser Probleme anzugehen, haben wir drei vielversprechende Herangehensweisen ermittelt, die unserer Meinung nach bisher nicht ausreichend beachtet wurden. Erstens untersuchen wir, wie statistische 3 D Modelle des menschlichen Umrisses, die aus der ComputergraïŹk stammen, wirksam eingesetzt werden können, um die Generierung von Trainingsdaten zu erleichtern. Wir schlagen eine Reihe von Techniken zur automatischen Datengenerierung vor, die eine direkte ReprĂ€sentation relevanter Variationen in den Trainingsdaten erlauben. Indem wir Stichproben aus der zu Grunde liegenden Verteilung des menschlichen Umrisses und aus einem großen Datensatz von menschlichen Posen ziehen, erzeugen wir eine neue fĂŒr unsere Aufgabe relevante Auswahl mit regulierbaren Variationen von Form und Posen. DarĂŒber hinaus verbessern wir das neueste 3 D Modell des menschlichen Umrisses selbst, indem wir es aus einem großen handelsĂŒblichen Datensatz von 3 D Körpern neu aufbauen. Zweitens entwickeln wir ausdrucksstarke rĂ€umliche Modelle und ErscheinungsbildModelle fĂŒr die 2 D PosenschĂ€tzung einzelner und mehrerer Personen. Wir schlagen ein ausdrucksstarkes Einzelperson-Modell vor, das TeilabhĂ€ngigkeiten höherer Ordnung einbezieht, aber dennoch efïŹzient bleibt. Wir verstĂ€rken dieses Modell durch verschiedene Arten von starken Erscheinungsbild-ReprĂ€sentationen, um die Körperteilhypothesen erheblich zu verbessern. Schließlich schlagen wir ein ausdruckstarkes Modell zur gemeinsamen PosenschĂ€tzung mehrerer Personen vor. Dazu entwickeln wir starke Deep Learning-basierte Körperteildetektoren und ein ausdrucksstarkes voll verbundenes rĂ€umliches Modell. Der vorgeschlagene Ansatz behandelt die PosenschĂ€tzung mehrerer Personen als ein Problem der gemeinsamen Aufteilung und Annotierung eines Satzes von Körperteilhypothesen: er erschließt die Anzahl von Personen in einer Szene, identiïŹziert verdeckte Körperteile und unterscheidet eindeutig Körperteile von Personen, die sich nahe beieinander beïŹnden. Drittens fĂŒhren wir eine grĂŒndliche Bewertung und Performanzanalyse fĂŒhrender Methoden der menschlichen PosenschĂ€tzung und AktivitĂ€tserkennung durch. Dazu stellen wir einen neuen Benchmark vor, der einen bedeutenden Fortschritt bezĂŒglich DiversitĂ€t und Schwierigkeit im Vergleich zu bisherigen DatensĂ€tzen mit sich bringt und ĂŒber 40 . 000 annotierte Körperposen und mehr als 1 . 5 Millionen Einzelbilder enthĂ€lt. DarĂŒber hinaus stellen wir einen reichhaltigen Satz an Annotierungen zur VerfĂŒgung, die zu einer detaillierten Analyse konkurrierender Herangehensweisen benutzt werden, wodurch wir Erkenntnisse zu Erfolg und Mißerfolg dieser Methoden erhalten. Zusammengefasst prĂ€sentiert diese Arbeit einen neuen Ansatz zur artikulierten Detektion und PosenschĂ€tzung von Personen. Eine grĂŒndliche experimentelle Evaluation auf Standard-BenchmarkdatensĂ€tzen zeigt signiïŹkante Verbesserungen durch die vorgeschlagenen DatenverstĂ€rkungstechniken und neuen Körpermodelle, wĂ€hrend eine detaillierte Performanzanalyse konkurrierender Herangehensweisen auf unserem neu vorgestellten großen Benchmark uns erlaubt, die vielversprechendsten Bereiche fĂŒr Verbesserungen zu erkennen

    A Wearable Indoor Navigation System for Blind and Visually Impaired Individuals

    Get PDF
    Indoor positioning and navigation for blind and visually impaired individuals has become an active field of research. The development of a reliable positioning and navigational system will reduce the suffering of the people with visual disabilities, help them live more independently, and promote their employment opportunities. In this work, a coarse-to-fine multi-resolution model is proposed for indoor navigation in hallway environments based on the use of a wearable computer called the eButton. This self-constructed device contains multiple sensors which are used for indoor positioning and localization in three layers of resolution: a global positioning system (GPS) layer for building identification; a Wi-Fi - barometer layer for rough position localization; and a digital camera - motion sensor layer for precise localization. In this multi-resolution model, a new theoretical framework is developed which uses the change of atmospheric pressure to determine the floor number in a multistory building. The digital camera and motion sensors within the eButton acquire both pictorial and motion data as a person with a normal vision walks along a hallway to establish a database. Precise indoor positioning and localization information is provided to the visually impaired individual based on a Kalman filter fusion algorithm and an automatic matching algorithm between the acquired images and those in the pre-established database. Motion calculation is based on the data from motion sensors is used to refine the localization result. Experiments were conducted to evaluate the performance of the algorithms. Our results show that the new device and algorithms can precisely determine the floor level and indoor location along hallways in multistory buildings, providing a powerful and unobtrusive navigational tool for blind and visually impaired individuals

    Towards accurate multi-person pose estimation in the wild

    Get PDF
    In this thesis we are concerned with the problem of articulated human pose estimation and pose tracking in images and video sequences. Human pose estimation is a task of localising major joints of a human skeleton in natural images and is one of the most important visual recognition tasks in the scenes containing humans with numerous applications in robotics, virtual and augmented reality, gaming and healthcare among others. Articulated human pose tracking requires tracking multiple persons in the video sequence while simultaneously estimating full body poses. This task is important for analysing surveillance footage, activity recognition, sports analytics, etc. Most of the prior work focused on the pose estimation of single pre-localised humans whereas here we address a case with multiple people in real world images which entails several challenges such as person-person overlaps in highly crowded scenes, unknown number of people or people entering and leaving video sequences. The first contribution is a multi-person pose estimation algorithm based on the bottom-up detection-by-grouping paradigm. Unlike the widespread top-down approaches our method detects body joints and pairwise relations between them in a single forward pass of a convolutional neural network. Multi-person parsing is performed by optimizing a joint objective based on a multicut graph partitioning framework. Secondly, we extend our pose estimation approach to articulated multi-person pose tracking in videos. Our approach performs multi-target tracking and pose estimation in a holistic manner by optimising a single objective. We further simplify and refine the formulation which allows us to reach close to the real-time performance. Thirdly, we propose a large scale dataset and a benchmark for articulated multi-person tracking. It is the first dataset of video sequences comprising complex multi-person scenes and fully annotated tracks with 2D keypoints. Our fourth contribution is a method for estimating 3D body pose using on-body wearable cameras. Our approach uses a pair of downward facing, head-mounted cameras and captures an entire body. This egocentric approach is free of limitations of traditional setups with external cameras and can estimate body poses in very crowded environments. Our final contribution goes beyond human pose estimation and is in the field of deep learning of 3D object shapes. In particular, we address the case of reconstructing 3D objects from weak supervision. Our approach represents objects as 3D point clouds and is able to learn them with 2D supervision only and without requiring camera pose information at training time. We design a differentiable renderer of point clouds as well as a novel loss formulation for dealing with camera pose ambiguity.In dieser Arbeit behandeln wir das Problem der SchĂ€tzung und Verfolgung artikulierter menschlicher Posen in Bildern und Video-Sequenzen. Die SchĂ€tzung menschlicher Posen besteht darin die Hauptgelenke des menschlichen Skeletts in natĂŒrlichen Bildern zu lokalisieren und ist eine der wichtigsten Aufgaben der visuellen Erkennung in Szenen, die Menschen beinhalten. Sie hat zahlreiche Anwendungen in der Robotik, virtueller und erweiterter RealitĂ€t, in Videospielen, in der Medizin und weiteren Bereichen. Die Verfolgung artikulierter menschlicher Posen erfordert die Verfolgung mehrerer Personen in einer Videosequenz bei gleichzeitiger SchĂ€tzung vollstĂ€ndiger Körperhaltungen. Diese Aufgabe ist besonders wichtig fĂŒr die Analyse von Video-Überwachungsaufnahmen, AktivitĂ€tenerkennung, digitale Sportanalyse etc. Die meisten vorherigen Arbeiten sind auf die SchĂ€tzung einzelner Posen vorlokalisierter Menschen fokussiert, wohingegen wir den Fall mehrerer Personen in natĂŒrlichen Aufnahmen betrachten. Dies bringt einige Herausforderungen mit sich, wie die Überlappung verschiedener Personen in dicht gedrĂ€ngten Szenen, eine unbekannte Anzahl an Personen oder Personen die das Sichtfeld der Video-Sequenz verlassen oder betreten. Der erste Beitrag ist ein Algorithmus zur SchĂ€tzung der Posen mehrerer Personen, welcher auf dem Paradigma der Erkennung durch Gruppierung aufbaut. Im Gegensatz zu den verbreiteten Verfeinerungs-AnsĂ€tzen erkennt unsere Methode Körpergelenke and paarweise Beziehungen zwischen ihnen in einer einzelnen VorwĂ€rtsrechnung eines faltenden neuronalen Netzwerkes. Die Gliederung in mehrere Personen erfolgt durch Optimierung einer gemeinsamen Zielfunktion, die auf dem Mehrfachschnitt-Problem in der Graphenzerlegung basiert. Zweitens erweitern wir unseren Ansatz zur Posen-Bestimmung auf das Verfolgen mehrerer Personen und deren Artikulation in Videos. Unser Ansatz fĂŒhrt eine Verfolgung mehrerer Ziele und die SchĂ€tzung der zugehörigen Posen in ganzheitlicher Weise durch, indem eine einzelne Zielfunktion optimiert wird. Desweiteren vereinfachen und verfeinern wir die Formulierung, was unsere Methode nah an Echtzeit-Leistung bringt. Drittens schlagen wir einen großen Datensatz und einen Bewertungsmaßstab fĂŒr die Verfolgung mehrerer artikulierter Personen vor. Dies ist der erste Datensatz der Video-Sequenzen von komplexen Szenen mit mehreren Personen beinhaltet und deren Spuren komplett mit zwei-dimensionalen Markierungen der SchlĂŒsselpunkte versehen sind. Unser vierter Beitrag ist eine Methode zur SchĂ€tzung von drei-dimensionalen Körperhaltungen mittels am Körper tragbarer Kameras. Unser Ansatz verwendet ein Paar nach unten gerichteter, am Kopf befestigter Kameras und erfasst den gesamten Körper. Dieser egozentrische Ansatz ist frei von jeglichen Limitierungen traditioneller Konfigurationen mit externen Kameras und kann Körperhaltungen in sehr dicht gedrĂ€ngten Umgebungen bestimmen. Unser letzter Beitrag geht ĂŒber die SchĂ€tzung menschlicher Posen hinaus in den Bereich des tiefen Lernens der Gestalt von drei-dimensionalen Objekten. Insbesondere befassen wir uns mit dem Fall drei-dimensionale Objekte unter schwacher Überwachung zu rekonstruieren. Unser Ansatz reprĂ€sentiert Objekte als drei-dimensionale Punktwolken and ist im Stande diese nur mittels zwei-dimensionaler Überwachung und ohne Informationen ĂŒber die Kamera-Ausrichtung zur Trainingszeit zu lernen. Wir entwerfen einen differenzierbaren Renderer fĂŒr Punktwolken sowie eine neue Formulierung um mit uneindeutigen Kamera-Ausrichtungen umzugehen

    Face modeling for face recognition in the wild.

    Get PDF
    Face understanding is considered one of the most important topics in computer vision field since the face is a rich source of information in social interaction. Not only does the face provide information about the identity of people, but also of their membership in broad demographic categories (including sex, race, and age), and about their current emotional state. Facial landmarks extraction is the corner stone in the success of different facial analyses and understanding applications. In this dissertation, a novel facial modeling is designed for facial landmarks detection in unconstrained real life environment from different image modalities including infra-red and visible images. In the proposed facial landmarks detector, a part based model is incorporated with holistic face information. In the part based model, the face is modeled by the appearance of different face part(e.g., right eye, left eye, left eyebrow, nose, mouth) and their geometric relation. The appearance is described by a novel feature referred to as pixel difference feature. This representation is three times faster than the state-of-art in feature representation. On the other hand, to model the geometric relation between the face parts, the complex Bingham distribution is adapted from the statistical community into computer vision for modeling the geometric relationship between the facial elements. The global information is incorporated with the local part model using a regression model. The model results outperform the state-of-art in detecting facial landmarks. The proposed facial landmark detector is tested in two computer vision problems: boosting the performance of face detectors by rejecting pseudo faces and camera steering in multi-camera network. To highlight the applicability of the proposed model for different image modalities, it has been studied in two face understanding applications which are face recognition from visible images and physiological measurements for autistic individuals from thermal images. Recognizing identities from faces under different poses, expressions and lighting conditions from a complex background is an still unsolved problem even with accurate detection of landmark. Therefore, a learning similarity measure is proposed. The proposed measure responds only to the difference in identities and filter illuminations and pose variations. similarity measure makes use of statistical inference in the image plane. Additionally, the pose challenge is tackled by two new approaches: assigning different weights for different face part based on their visibility in image plane at different pose angles and synthesizing virtual facial images for each subject at different poses from single frontal image. The proposed framework is demonstrated to be competitive with top performing state-of-art methods which is evaluated on standard benchmarks in face recognition in the wild. The other framework for the face understanding application, which is a physiological measures for autistic individual from infra-red images. In this framework, accurate detecting and tracking Superficial Temporal Arteria (STA) while the subject is moving, playing, and interacting in social communication is a must. It is very challenging to track and detect STA since the appearance of the STA region changes over time and it is not discriminative enough from other areas in face region. A novel concept in detection, called supporter collaboration, is introduced. In support collaboration, the STA is detected and tracked with the help of face landmarks and geometric constraint. This research advanced the field of the emotion recognition

    Development and Validation of Mechatronic Systems for Image-Guided Needle Interventions and Point-of-Care Breast Cancer Screening with Ultrasound (2D and 3D) and Positron Emission Mammography

    Get PDF
    The successful intervention of breast cancer relies on effective early detection and definitive diagnosis. While conventional screening mammography has substantially reduced breast cancer-related mortalities, substantial challenges persist in women with dense breasts. Additionally, complex interrelated risk factors and healthcare disparities contribute to breast cancer-related inequities, which restrict accessibility, impose cost constraints, and reduce inclusivity to high-quality healthcare. These limitations predominantly stem from the inadequate sensitivity and clinical utility of currently available approaches in increased-risk populations, including those with dense breasts, underserved and vulnerable populations. This PhD dissertation aims to describe the development and validation of alternative, cost-effective, robust, and high-resolution systems for point-of-care (POC) breast cancer screening and image-guided needle interventions. Specifically, 2D and 3D ultrasound (US) and positron emission mammography (PEM) were employed to improve detection, independent of breast density, in conjunction with mechatronic and automated approaches for accurate image acquisition and precise interventional workflow. First, a mechatronic guidance system for US-guided biopsy under high-resolution PEM localization was developed to improve spatial sampling of early-stage breast cancers. Validation and phantom studies showed accurate needle positioning and 3D spatial sampling under simulated PEM localization. Subsequently, a whole-breast spatially-tracked 3DUS system for point-of-care screening was developed, optimized, and validated within a clinically-relevant workspace and healthy volunteer studies. To improve robust image acquisition and adaptability to diverse patient populations, an alternative, cost-effective, portable, and patient-dedicated 3D automated breast (AB) US system for point-of-care screening was developed. Validation showed accurate geometric reconstruction, feasible clinical workflow, and proof-of-concept utility across healthy volunteers and acquisition conditions. Lastly, an orthogonal acquisition and 3D complementary breast (CB) US generation approach were described and experimentally validated to improve spatial resolution uniformity by recovering poor out-of-plane resolution. These systems developed and described throughout this dissertation show promise as alternative, cost-effective, robust, and high-resolution approaches for improving early detection and definitive diagnosis. Consequently, these contributions may advance breast cancer-related equities and improve outcomes in increased-risk populations and limited-resource settings

    Multimodal Data Analysis of Dyadic Interactions for an Automated Feedback System Supporting Parent Implementation of Pivotal Response Treatment

    Get PDF
    abstract: Parents fulfill a pivotal role in early childhood development of social and communication skills. In children with autism, the development of these skills can be delayed. Applied behavioral analysis (ABA) techniques have been created to aid in skill acquisition. Among these, pivotal response treatment (PRT) has been empirically shown to foster improvements. Research into PRT implementation has also shown that parents can be trained to be effective interventionists for their children. The current difficulty in PRT training is how to disseminate training to parents who need it, and how to support and motivate practitioners after training. Evaluation of the parents’ fidelity to implementation is often undertaken using video probes that depict the dyadic interaction occurring between the parent and the child during PRT sessions. These videos are time consuming for clinicians to process, and often result in only minimal feedback for the parents. Current trends in technology could be utilized to alleviate the manual cost of extracting data from the videos, affording greater opportunities for providing clinician created feedback as well as automated assessments. The naturalistic context of the video probes along with the dependence on ubiquitous recording devices creates a difficult scenario for classification tasks. The domain of the PRT video probes can be expected to have high levels of both aleatory and epistemic uncertainty. Addressing these challenges requires examination of the multimodal data along with implementation and evaluation of classification algorithms. This is explored through the use of a new dataset of PRT videos. The relationship between the parent and the clinician is important. The clinician can provide support and help build self-efficacy in addition to providing knowledge and modeling of treatment procedures. Facilitating this relationship along with automated feedback not only provides the opportunity to present expert feedback to the parent, but also allows the clinician to aid in personalizing the classification models. By utilizing a human-in-the-loop framework, clinicians can aid in addressing the uncertainty in the classification models by providing additional labeled samples. This will allow the system to improve classification and provides a person-centered approach to extracting multimodal data from PRT video probes.Dissertation/ThesisDoctoral Dissertation Computer Science 201

    Segmentierung medizinischer Bilddaten und bildgestĂŒtzte intraoperative Navigation

    Get PDF
    Die Entwicklung von Algorithmen zur automatischen oder semi-automatischen Verarbeitung von medizinischen Bilddaten hat in den letzten Jahren mehr und mehr an Bedeutung gewonnen. Das liegt zum einen an den immer besser werdenden medizinischen AufnahmemodalitĂ€ten, die den menschlichen Körper immer feiner virtuell abbilden können. Zum anderen liegt dies an der verbesserten Computerhardware, die eine algorithmische Verarbeitung der teilweise im Gigabyte-Bereich liegenden Datenmengen in einer vernĂŒnftigen Zeit erlaubt. Das Ziel dieser Habilitationsschrift ist die Entwicklung und Evaluation von Algorithmen fĂŒr die medizinische Bildverarbeitung. Insgesamt besteht die Habilitationsschrift aus einer Reihe von Publikationen, die in drei ĂŒbergreifende Themenbereiche gegliedert sind: -Segmentierung medizinischer Bilddaten anhand von vorlagenbasierten Algorithmen -Experimentelle Evaluation quelloffener Segmentierungsmethoden unter medizinischen Einsatzbedingungen -Navigation zur UnterstĂŒtzung intraoperativer Therapien Im Bereich Segmentierung medizinischer Bilddaten anhand von vorlagenbasierten Algorithmen wurden verschiedene graphbasierte Algorithmen in 2D und 3D entwickelt, die einen gerichteten Graphen mittels einer Vorlage aufbauen. Dazu gehört die Bildung eines Algorithmus zur Segmentierung von Wirbeln in 2D und 3D. In 2D wird eine rechteckige und in 3D eine wĂŒrfelförmige Vorlage genutzt, um den Graphen aufzubauen und das Segmentierungsergebnis zu berechnen. Außerdem wird eine graphbasierte Segmentierung von ProstatadrĂŒsen durch eine Kugelvorlage zur automatischen Bestimmung der Grenzen zwischen ProstatadrĂŒsen und umliegenden Organen vorgestellt. Auf den vorlagenbasierten Algorithmen aufbauend, wurde ein interaktiver Segmentierungsalgorithmus, der einem Benutzer in Echtzeit das Segmentierungsergebnis anzeigt, konzipiert und implementiert. Der Algorithmus nutzt zur Segmentierung die verschiedenen Vorlagen, benötigt allerdings nur einen Saatpunkt des Benutzers. In einem weiteren Ansatz kann der Benutzer die Segmentierung interaktiv durch zusĂ€tzliche Saatpunkte verfeinern. Dadurch wird es möglich, eine semi-automatische Segmentierung auch in schwierigen FĂ€llen zu einem zufriedenstellenden Ergebnis zu fĂŒhren. Im Bereich Evaluation quelloffener Segmentierungsmethoden unter medizinischen Einsatzbedingungen wurden verschiedene frei verfĂŒgbare Segmentierungsalgorithmen anhand von Patientendaten aus der klinischen Routine getestet. Dazu gehörte die Evaluierung der semi-automatischen Segmentierung von Hirntumoren, zum Beispiel Hypophysenadenomen und Glioblastomen, mit der frei verfĂŒgbaren Open Source-Plattform 3D Slicer. Dadurch konnte gezeigt werden, wie eine rein manuelle Schicht-fĂŒr-Schicht-Vermessung des Tumorvolumens in der Praxis unterstĂŒtzt und beschleunigt werden kann. Weiterhin wurde die Segmentierung von Sprachbahnen in medizinischen Aufnahmen von Hirntumorpatienten auf verschiedenen Plattformen evaluiert. Im Bereich Navigation zur UnterstĂŒtzung intraoperativer Therapien wurden Softwaremodule zum Begleiten von intra-operativen Eingriffen in verschiedenen Phasen einer Behandlung (Therapieplanung, DurchfĂŒhrung, Kontrolle) entwickelt. Dazu gehört die erstmalige Integration des OpenIGTLink-Netzwerkprotokolls in die medizinische Prototyping-Plattform MeVisLab, die anhand eines NDI-Navigationssystems evaluiert wurde. Außerdem wurde hier ebenfalls zum ersten Mal die Konzeption und Implementierung eines medizinischen Software-Prototypen zur UnterstĂŒtzung der intraoperativen gynĂ€kologischen Brachytherapie vorgestellt. Der Software-Prototyp enthielt auch ein Modul zur erweiterten Visualisierung bei der MR-gestĂŒtzten interstitiellen gynĂ€kologischen Brachytherapie, welches unter anderem die Registrierung eines gynĂ€kologischen Brachytherapie-Instruments in einen intraoperativen Datensatz einer Patientin ermöglichte. Die einzelnen Module fĂŒhrten zur Vorstellung eines umfassenden bildgestĂŒtzten Systems fĂŒr die gynĂ€kologische Brachytherapie in einem multimodalen Operationssaal. Dieses System deckt die prĂ€-, intra- und postoperative Behandlungsphase bei einer interstitiellen gynĂ€kologischen Brachytherapie ab
    • 

    corecore