Visual Odometer on Videos of Endoscopic Capsules (VOVEC)

Abstract

Desde a sua introdução em 2001, as cápsulas endoscópicas tornaram-se o principal método para obter imagens do intestino - uma região de difícil acesso através de métodos de endoscopia tradicionais - revolucionando a maneira como os diagnósticos no campo das doenças do intestino delgado são feitos. Estas cápsulas com dimensões comparáveis a um comprimido vitamínico tiram partido de uma câmera wireless para criar vídeos de 8 a 10 horas do trato digestivo dos pacientes. Devido à longa duração dos vídeos produzidos, o diagnóstico humano é moroso, entediante e propício a erros. Para além disto, depois de encontrada uma lesão, a informação da sua localização é escassa e dependente de hardware externo, levando a que uma solução baseada apensa em software com precisão melhorada seja bastante desejada. Este trabalho advém desta necessidade e, tendo-a em mente, propomos a implementação de dois métodos baseados em deep-learning, visando melhorar em relação às limitações dos sistemas atuais de localização de cápsulas endoscópicas. Para treinar e testar as nossas redes neuronais, um dataset que contém 111 vídeos da cápsula PillCam SB3 e 338 da cápsula PillCam SB2 foi utilizado, cortesia do Centro Hospitalar do Porto (CHP).O primeiro método consiste numa simples estimação do deslocamento da cápsula ao longo do intestino delgado utilizando uma HomographyNet, uma abordagem de deep-learning supervisionado usada para o cálculo de homografias entre imagens.Já no segundo método uma posição relativa 3D da cápsula é fornecida ao longo do intestino delgado, recorrendo a um método não-supervisionado de deep-learning denominado SfMLearner. Este método combina uma DepthNet e uma PoseNet para aprender a profundidade da imagem e a posição da cápsula em simultâneo.Since its introduction in 2001, capsule endoscopy has become the leading screening method for the small bowel - a region not easily accessible with traditional endoscopy techniques - revolutionizing the way diagnostics work in the field of small bowel diseases. These capsules are vitamin-sized and leverage from a small wireless camera to create 8 to 10 hour videos of the patients digestive tract. Due to the long duration of the videos produced, the human-based diagnosis is elongated, tedious and error-prone. Moreover, once a lesion is found, the localization information is scarce and hardware dependent, entailing desirability for a software-only endoscopic capsule localization system with added precision. This work stems from this need and, bearing this in mind, we propose the implementation of two deep-learning based methods to improve upon the limitations of the techniques used so far for the capsule position estimation. To train and test our networks, a dataset of 111 PillCam SB3 and 338 PillCam SB2 videos were used, courtesy of Centro Hospitalar do Porto (CHP).The first method consists in a simple capsule displacement estimation throughout the small bowel utilizing HomographyNet, a deep learning supervised approach that is used for homography computation between images. (DeTone et al. (2016))Differently, the second proposed method is intended to provide a 3D position along the small intestine, utilizing a deep learning unsupervised approach labeled SfMLearner, which takes advantage of a combination between a DepthNet and a PoseNet to learn depth and ego-motion from video simultaneously. (Zhou et al. (2017)

    Similar works