4 research outputs found

    DPPTAM: Dense Piecewise Planar Tracking and Mapping from a Monocular Sequence

    Get PDF
    This paper proposes a direct monocular SLAM algorithm that estimates a dense reconstruction of a scene in real-time on a CPU. Highly textured image areas are mapped using standard direct mapping techniques [1], that minimize the photometric error across different views. We make the assumption that homogeneous-color regions belong to approximately planar areas. Our contribution is a new algorithm for the estimation of such planar areas, based on the information of a superpixel segmentation and the semidense map from highly textured areas. We compare our approach against several alternatives using the public TUM dataset [2] and additional live experiments with a hand-held camera. We demonstrate that our proposal for piecewise planar monocular SLAM is faster, more accurate and more robust than the piecewise planar baseline [3]. In addition, our experimental results show how the depth regularization of monocular maps can damage its accuracy, being the piecewise planar assumption a reasonable option in indoor scenarios

    Evaluación de métodos densos de reconstrucción 3D a partir de imágenes

    Get PDF
    La reconstrucción 3D es uno de los campos más relevantes de la visión por computador.En la actualidad son muchas las aplicaciones que utilizan o podrían utilizar este tipo de reconstrucciones; por ejemplo navegación de robots, topografía y realidad virtual. Existen varias técnicas de reconstrucción 3D. En este trabajo se centra la atención en la visión estéreo multivista; y en concreto en las reconstrucciones densas. A diferencia de las técnicas tradicionales no densas, cuya limitación es que sólo pueden reconstruir unos cuantos cientos de puntos salientes, en este tipo de reconstrucciones densas se estiman todos los puntos de la escena. Para ello se utiliza una secuencia de imágenes de la misma escena, tomadas desde distintos puntos de vista cercanos. Este tipo de técnicas son muy recientes y están todavía en fase de desarrollo. En este proyecto se ha utilizado la técnica DTAM (Dense Tracking and Mapping) de 2011. Este algoritmo reconstruye el mapa de la escena y estima la posición de todas las cámaras. En este caso se ha estudiado únicamente, la fase del mapeo de la escena. El objetivo es mejorar la precisión del algoritmo, y para ello se han evaluado diferentes parámetros. Se utiliza el color de los píxeles como identificador para calcular la profundidad, en este proyecto se ha aumentado el tamaño de este identificador y se han evaluado diferentes métodos para la comparación de identificadores. También se ha estudiado como afecta el regularizador en las reconstrucciones, el cual impone que píxeles cercanos tengan profundidad similar en caso de que tengan color parecido. Todos estos parámetros se han ajustado mediante experimentación. Para calcular la mejora de los resultados se han comparado las profundidades estimadas con el algoritmo con un ground truth creado a partir de datos extraídos de un sensor Kinect. Los resultados muestran que es posible mejorar la precisión en las reconstruciones mediante el ajuste de los parámetros estudiados. En concreto la mejora obtenida en este TFG es del 40 %

    Descriptores globales para vídeo

    Get PDF
    En internet se almacenan grandes cantidades de imágenes y vídeos. Las dos principales plataformas web que tratan con este tipo de información son Google y YouTube respectivamente. El número de imágenes y vídeos que poseen es tan grande que se requieren técnicas para clasificarlos según su contenido, es decir se necesitan técnicas para predecir, ante un nuevo vídeo o imagen, a que categoría pertenece. En imágenes el problema ha sido muy estudiado. En vídeos ha habido mucho menos trabajo. Los vídeos necesitan ser clasificados en categorías como por ejemplo política, deportes, música, etc. Es importante que esta clasificación sea de acuerdo con su contenido. YouTube actualmente clasifica sus vídeos según las descripciones que el responsable que los ha subido ha escrito para identificarlo. De esta manera hay muchos vídeos clasificados erróneamente. La clasificación de vídeos también puede ser interesante en reconocimiento de personas u objetos (como carteles escritos) en ambientes complicados grabados por cámaras corrientes o cámaras de vigilancia. También pueden aportar aplicaciones para dispositivos móviles. Los aspectos más relevantes para la clasificación de vídeos son los descriptores y las máquinas de aprendizaje. Los descriptores de vídeo se encargan de describir el vídeo según su contenido. Las máquinas de aprendizaje toman estas descripciones de cada vídeo para aprender a que tipo de vídeo pertenece cada descripción y así ante la aparición de un vídeo sin clasificar poder determinar a que categoría pertenece. En este proyecto final de carrera se han usado ambos aspectos y principalmente se han estudiado los descriptores de vídeos. Los descriptores que hay en la actualidad son de dos tipos, globales y locales. Los globales describen el vídeo de forma global y los locales describen sólo zonas salientes del vídeo. Estas zonas salientes del vídeo son localizadas mediante detectores. Se ha propuesto un descriptor global para vídeos y un detector de zonas salientes para describirlas localmente. El descriptor global esta basado en el cálculo de gradientes en las tres dimensiones del vídeo. El detector local aplicado es la extensión a 3 dimensiones del detector SIFT 2D que es el mayor usado en imágenes. Ambas propuestas se han implementado en Matlab y se han evaluado de manera extensiva en bases de datos públicas y con implementaciones actuales. Además serán utilizadas estas bases de datos de vídeos para realizar un afinamiento de los parámetros de los descriptores y deducir que parámetros son los mejores. Se estudiará el porqué de los resultados aparecidos. Los resultados que se han obtenido han mejorado los resultados en bases de datos de vídeos extensos y complejos. En el caso del detector local propuesto, no se ha apreciado mejora con respecto a los detectores propuestos en la literatura actual
    corecore