16 research outputs found
Proyecciones c贸nicas de rectas en sistemas catadi贸ptricos para percepci贸n visual en entornos construidos por el hombre
Los sistemas de visi贸n omnidireccional son dispositivos que permiten la adquisici贸n de im谩genes con un campo de vista de 360潞 en un eje y superior 180潞 en el otro. La necesidad de integrar estas c谩maras en sistemas de visi贸n por computador ha impulsado la investigaci贸n en este campo profundizando en los modelos matem谩ticos y la base te贸rica necesaria que permite la implementaci贸n de aplicaciones. Existen diversas tecnolog铆as para obtener im谩genes omnidireccionales. Los sistemas catadi贸ptricos son aquellos que consiguen aumentar el campo de vista utilizando espejos. Entre estos, encontramos los sistemas hiper-catadi贸ptricos que son aquellos que utilizan una c谩mara perspectiva y un espejo hiperb贸lico. La geometr铆a hiperb贸lica del espejo garantiza que el sistema sea central. En estos sistemas adquieren una especial relevancia las rectas del espacio, en la medida en que, rectas largas son completamente visibles en 煤nica imagen. La recta es una forma geom茅trica abundante en entornos construidos por el hombre que adem谩s acostumbra a ordenarse seg煤n direcciones dominantes. Salvo construcciones singulares, la fuerza de la gravedad fija una direcci贸n vertical que puede utilizarse como referencia en el c谩lculo de la orientaci贸n del sistema. Sin embargo el uso de rectas en sistemas catadi贸ptricos implica la dificultad a帽adida de trabajar con un modelo proyectivo no lineal en el que las rectas 3d son proyectadas en c贸nicas. Este TFM recoge el trabajo que se presenta en el art铆culo "Significant Conics on Catadioptric Images for 3D Orientation and Image Rectification" que pretendemos enviar a "Robotics and Autonomous Systems". En 茅l se presenta un m茅todo para calcular la orientaci贸n de un sistema hiper-catadi贸ptrico utilizando las c贸nicas que son proyecciones de rectas 3D. El m茅todo calcula la orientaci贸n respecto del sistema de referencia absoluto definido por el conjunto de puntos de fuga en un entorno en que existan direcciones dominantes
Learning the surroundings: 3D scene understanding from omnidirectional images
Las redes neuronales se han extendido por todo el mundo, siendo utilizadas en una gran variedad de aplicaciones. Estos m茅todos son capaces de reconocer m煤sica y audio, generar textos completos a partir de ideas simples u obtener informaci贸n detallada y relevante de im谩genes y videos. Las posibilidades que ofrecen las redes neuronales y m茅todos de aprendizaje profundo son incontables, convirti茅ndose en la principal herramienta de investigaci贸n y nuevas aplicaciones en nuestra vida diaria. Al mismo tiempo, las im谩genes omnidireccionales se est谩n extendiendo dentro de la industria y nuestra sociedad, causando que la visi贸n omnidireccional gane atenci贸n. A partir de im谩genes 360 capturamos toda la informaci贸n que rodea a la c谩mara en una sola toma.La combinaci贸n del aprendizaje profundo y la visi贸n omnidireccional ha atra铆do a muchos investigadores. A partir de una 煤nica imagen omnidireccional se obtiene suficiente informaci贸n del entorno para que una red neuronal comprenda sus alrededores y pueda interactuar con el entorno. Para aplicaciones como navegaci贸n y conducci贸n aut贸noma, el uso de c谩maras omnidireccionales proporciona informaci贸n en torno del robot, person o veh铆culo, mientras que las c谩maras convencionales carecen de esta informaci贸n contextual debido a su reducido campo de visi贸n. Aunque algunas aplicaciones pueden incluir varias c谩maras convencionales para aumentar el campo de visi贸n del sistema, tareas en las que el peso es importante (P.ej. guiado de personas con discapacidad visual o navegaci贸n de drones aut贸nomos), un n煤mero reducido de dispositivos es altamente deseable.En esta tesis nos centramos en el uso conjunto de c谩maras omnidireccionales, aprendizaje profundo, geometr铆a y fotometr铆a. Evaluamos diferentes enfoques para tratar con im谩genes omnidireccionales, adaptando m茅todos a los modelos de proyecci贸n omnidireccionales y proponiendo nuevas soluciones para afrontar los retos de este tipo de im谩genes. Para la comprensi贸n de entornos interiores, proponemos una nueva red neuronal que obtiene segmentaci贸n sem谩ntica y mapas de profundidad de forma conjunta a partir de un 煤nico panoramaequirectangular. Nuestra red logra, con un nuevo enfoque convolucional, aprovechar la informaci贸n del entorno proporcionada por la imagen panor谩mica y explotar la informaci贸n combinada de sem谩ntica y profundidad. En el mismo tema, combinamos aprendizaje profundo y soluciones geom茅tricas para recuperar el dise帽o estructural, junto con su escala, de entornos de interior a partir de un 煤nico panorama no central. Esta combinaci贸n de m茅todos proporciona una implementaci贸n r谩pida, debido a la red neuronal, y resultados precisos, gracias a lassoluciones geom茅tricas. Adem谩s, tambi茅n proponemos varios enfoques para la adaptaci贸n de redes neuronales a la distorsi贸n de modelos de proyecci贸n omnidireccionales para la navegaci贸n y la adaptaci贸n del dominio soluciones previas. En t茅rminos generales, esta tesis busca encontrar soluciones novedosas e innovadoras para aprovechar las ventajas de las c谩maras omnidireccionales y superar los desaf铆os que plantean.Neural networks have become widespread all around the world and are used for many different applications. These new methods are able to recognize music and audio, generate full texts from simple ideas and obtain detailed and relevant information from images and videos. The possibilities of neural networks and deep learning methods are uncountable, becoming the main tool for research and new applications in our daily-life. At the same time, omnidirectional and 360 images are also becoming widespread in industry and in consumer society, causing omnidirectional computer vision to gain attention. From 360 images, we capture all the information surrounding the camera in a single shot. The combination of deep learning methods and omnidirectional computer vision have attracted many researchers to this new field. From a single omnidirectional image, we obtain enough information of the environment to make a neural network understand its surroundings and interact with the environment. For applications such as navigation and autonomous driving, the use of omnidirectional cameras provide information all around the robot, person or vehicle, while conventional perspective cameras lack this context information due to their narrow field of view. Even if some applications can include several conventional cameras to increase the system's field of view, tasks where weight is more important (i.e. guidance of visually impaired people or navigation of autonomous drones), the less cameras we need to include, the better. In this thesis, we focus in the joint use of omnidirectional cameras, deep learning, geometry and photometric methods. We evaluate different approaches to handle omnidirectional images, adapting previous methods to the distortion of omnidirectional projection models and also proposing new solutions to tackle the challenges of this kind of images. For indoor scene understanding, we propose a novel neural network that jointly obtains semantic segmentation and depth maps from single equirectangular panoramas. Our network manages, with a new convolutional approach, to leverage the context information provided by the panoramic image and exploit the combined information of semantics and depth. In the same topic, we combine deep learning and geometric solvers to recover the scaled structural layout of indoor environments from single non-central panoramas. This combination provides a fast implementation, thanks to the learning approach, and accurate result, due to the geometric solvers. Additionally, we also propose several approaches of network adaptation to the distortion of omnidirectional projection models for outdoor navigation and domain adaptation of previous solutions. All in all, this thesis looks for finding novel and innovative solutions to take advantage of omnidirectional cameras while overcoming the challenges they pose.<br /
Fitting line projections in non-central catadioptric cameras with revolution symmetry
Line-images in non-central cameras contain much richer information of the original 3D line than line projections in central cameras. The projection surface of a 3D line in most catadioptric non-central cameras is a ruled surface, encapsulating the complete information of the 3D line. The resulting line-image is a curve which contains the 4 degrees of freedom of the 3D line. That means a qualitative advantage with respect to the central case, although extracting this curve is quite difficult. In this paper, we focus on the analytical description of the line-images in non-central catadioptric systems with symmetry of revolution. As a direct application we present a method for automatic line-image extraction for conical and spherical calibrated catadioptric cameras. For designing this method we have analytically solved the metric distance from point to line-image for non-central catadioptric systems. We also propose a distance we call effective baseline measuring the quality of the reconstruction of a 3D line from the minimum number of rays. This measure is used to evaluate the different random attempts of a robust scheme allowing to reduce the number of trials in the process. The proposal is tested and evaluated in simulations and with both synthetic and real images
Entorno de simulaci贸n para control visual de un cuadric贸ptero con c谩mara fisheye
Hoy en d铆a, el uso de sistemas de localizaci贸n y orientaci贸n, como pueden ser el GPS o la IMU, est谩n muy extendidos. Pero en lugares donde el GPS no funciona o su se帽al es muy d茅bil, como por ejemplo, en el interior de un edificio, es necesario el uso de otros sistemas de navegaci贸n. El objetivo de este TFG es el desarrollo de un entorno de simulaci贸n para control visual de cuadric贸pteros en interiores. El trabajo se centra en el uso de c谩maras fisheye que ofrecen un campo de vista mucho m谩s amplio que una c谩mara convencional. En este simulador, un cuadric贸ptero (conocidos sus par谩metros, modelo din谩mico y sistema de control) es capaz de navegar por un escenario desconocido de interiores con la 煤nica ayuda de una c谩mara fisheye colocada en su parte inferior. El proceso es el siguiente: dada una imagen del entorno, se extraen las proyecciones de las rectas de la escena y, asumiendo la existencia de direcciones dominantes, se calculan los puntos de fuga mediante un algoritmo robusto basado en RANSAC. Con dicha informaci贸n se obtiene la orientaci贸n del escenario respecto del cuadric贸ptero. Seguidamente, se calculan y asignan las consignas al cuadric贸ptero, de manera que sea capaz de avanzar de un modo coherente por el entorno. Este proceso se repite cada cierto tiempo, tomando im谩genes y recalculando la orientaci贸n. El trabajo se ha desarrollado utilizando Matlab, integrando POV-Ray para la generaci贸n y renderizaci贸n de la escena 3D, y Simulink para describir el modelo din谩mico y control del cuadric贸ptero. En este trabajo se asume como premisa que el entorno de interior contiene direcciones dominantes, caracter铆stica t铆pica de entornos construidos por el hombre. En este caso, existe paralelismo entre grupos de rectas que comparten puntos de fuga. El c谩lculo de los puntos de fuga se realiza a partir de los planos de proyecci贸n de las rectas, que se describen mediante su vector normal, ni. Como ya hemos dicho, una c谩mara fisheye tiene un campo de vista mucho mayor que una c谩mara perspectiva convencional, gracias al cual se puede tomar una longitud mayor de las rectas de la escena, hecho que favorece el c谩lculo de los planos de proyecci贸n. Aunque, por otra parte, es necesario utilizar un modelo de proyecci贸n no lineal y m谩s complejo que el utilizado para c谩maras convencionales
Seguimiento de rectas en c谩maras omnidireccionales
En este trabajo se ha realizado la creaci贸n de un algoritmo de seguimiento de las proyecciones de las rectas de un entorno a lo largo de los distintos fotogramas de un v铆deo. Este v铆deo es el grabado por una c谩mara "fisheye" omnidireccional, y las rectas son las resultantes de la aplicaci贸n de un algoritmo de obtenci贸n de l铆neas en sistemas omnidireccionales
Parallel Lines for Calibration of Non-Central Conical Catadioptric Cameras
In this paper we propose a new calibration method for non-central catadioptric cameras that use a conical mirror. This method consists of using parallel lines, extracted from a single omnidirectional image, instead of using the typical checkerboard to obtain the calibration parameters of the system
Simulador de pr贸tesis visual en entornos 360潞 con gafas de realidad virtual
El sentido del que m谩s dependen las personas es la visi贸n, la mayor parte de la informaci贸n recibida es a trav茅s de 茅ste sentido. Es muy importante en la vida cotidiana, se usa constantemente hasta en las tareas m谩s sencillas, aquellas como reconocer objetos, personas, etc. Sin embargo, algunas patolog铆as o enfermedades degenerativas pueden causar la ceguera total o parcial. Como alternativa para paliar los efectos de la ceguera, existen diferentes tipos de pr贸tesis visuales que se pueden situar en la retina, la corteza visual o el nervio 贸ptico en funci贸n del problema que cause la ceguera. Una de las posibilidades es que estas pr贸tesis tengan una microc谩mara que capta la informaci贸n visual que posteriormente es convertida a estimulaciones el茅ctricas lo que permite ver puntos de luz denominados fosfenos. Desgraciadamente, el campo de visi贸n actual de estos dispositivos es en torno a los 20潞 por lo que se est谩n investigando diferentes representaciones de mapas de fosfenos para mejorar la interacci贸n de los pacientes con el entorno. En este proyecto se ha desarrollado un simulador de visi贸n fosf茅nica que permite, mediante las gafas de realidad virtual Oculus Rift DK2, mostrar un entorno virtual de 360潞 en tiempo real a partir de im谩genes panor谩micas. Este simulador permite introducir dos tipos de representaciones de mapas de fosfenos, el m茅todo Downsampling y el m茅todo SIE-OMS. El primer m茅todo reduce la resoluci贸n de color y espacial de la imagen panor谩mica y la transforma a un mapa de fosfenos mientras que el segundo realiza una extracci贸n de objetos mediante un algoritmo de aprendizaje autom谩tico y lo combina con el layout de la imagen. El c贸digo se ha implementado en leguaje C++, con la propia interfaz de programaci贸n de aplicaciones (API) de Oculus y las librer铆as OpenCV para el manejo de im谩genes. Ha sido necesario realizar un cursillo previo para aprender a manejar las librer铆as. Los resultados obtenidos han sido bastante satisfactorios cumpliendo todos los objetivos planteados. El objetivo principal era crear el simulador de pr贸tesis visual que pueda ser empleado para el avance de la investigaci贸n de este campo.<br /
Simulador de im谩genes omnidireccionales fotorealistas para visi贸n por computador
La motivaci贸n de este proyecto es la necesidad de bases de im谩genes omnidireccionales y panor谩micas para visi贸n por computador. Su elevado campo de visi贸n permite obtener una gran cantidad de informaci贸n del entorno a partir de una 煤nica imagen. Sin embargo, la distorsi贸n propia de estas im谩genes requiere desarrollar algoritmos espec铆ficos para su tratamiento e interpretaci贸n. Adem谩s, un elevado n煤mero de im谩genes es imprescindible para el correcto entrenamiento de algoritmos de visi贸n por computador basados en aprendizaje profundo. La adquisici贸n, etiquetado y preparaci贸n de estas im谩genes de forma manual con sistemas reales requiere una cantidad de tiempo y volumen de trabajo que en la pr谩ctica limita el tama帽o de estas bases de datos. En este trabajo se propone la implementaci贸n de una herramienta que permita generar im谩genes omnidireccionales sint茅ticas fotorrealistas que automatice la generaci贸n y el etiquetado como estrategia para aumentar el tama帽o de estas bases de datos. Este trabajo se apoya en los entornos virtuales que se pueden crear con el motor de videojuegos Unreal Engine 4, el cual se utiliza junto a uno de sus plugin, UnrealCV. A partir de estos entornos virtuales se construyen im谩genes de una variedad de c谩maras omnidireccionales y 360潞 con calidad fotorrealista. Las caracter铆sticas del entorno permiten adem谩s generar im谩genes de profundidad y sem谩nticas. Al hacerse todo de forma virtual, se pueden controlar los par谩metros de adquisici贸n de la c谩mara y las caracter铆sticas del entorno, permitiendo construir una base de datos con un etiquetado autom谩tico sin supervisi贸n. Conocidos los par谩metros de calibraci贸n, posici贸n y orientaci贸n de la c谩mara y la distribuci贸n del entorno y sus objetos, se puede conseguir el ground truth para diversos algoritmos de visi贸n. Con las im谩genes e informaci贸n que se dispone, se pueden evaluar algoritmos de extracci贸n de rectas en im谩genes di贸ptricas y catadi贸ptricas, obtenci贸n de layouts en panoramas o m茅todos de reconstrucci贸n 3D como la localizaci贸n y mapeado simult谩neos (SLAM).<br /
Detecci贸n de personas para simulaci贸n de pr贸tesis visual
Las personas reciben la informaci贸n del entorno que les rodea por medio de los sentidos. La vista es el sentido que m谩s informaci贸n aporta acerca de una escena y de los objetos ubicados en la misma. A trav茅s de la visi贸n y el aprendizaje somos capaces de reconocer objetos, personas, etc, pudiendo as铆, interactuar con ellos. Sin embargo, algunas patolog铆as pueden causar da帽os en los sistemas visuales, conduciendo incluso a la ceguera. En funci贸n del tipo de da帽o, existen investigaciones en curso para colocar una pr贸tesis de visi贸n bi贸nica que, mediante una estimulaci贸n el茅ctrica en determinadas zonas del nervio 贸ptico o del cortex cerebral, permiten la visualizaci贸n de puntos de luz denominados fosfenos. Para la estimulaci贸n de los fosfenos, una de las posibilidades es la captura de informaci贸n de la escena mediante una c谩mara. Las t茅cnicas actuales de procesamiento de imagen que se aplican sobre las pr贸tesis visuales son bastante limitadas. La introducci贸n de t茅cnicas avanzadas de visi贸n por computador incluyendo informaci贸n de profundidad puede provocar un punto de inflexi贸n en la forma de interacci贸n con el entorno de las personas operadas con estos novedosos implantes. En este proyecto se ha avanzado en el desarrollo de un simulador de pr贸tesis visuales considerando nuevas t茅cnicas de visi贸n por computador para favorecer la interpretaci贸n del entorno. En particular, se ha desarrollado una aplicaci贸n para la detecci贸n de personas y su representaci贸n mediante fosfenos. Se ha partido de un sistema compuesto de un sensor de profundidad RGB-D, Kinect v2 y de un sistema de realidad virtual, Oculus DK2. Mediante t茅cnicas de visi贸n por computador se ha inferido una descripci贸n articular de la persona y una descripci贸n de la cara que incluye ojos, boca y estado de 谩nimo. Esta informaci贸n es representada de manera ic贸nica en el simulador de visi贸n prot茅sica para una mejor interpretaci贸n por parte del usuario. Adem谩s, se han realizado varias pruebas para poder evaluar diferentes tipos de representaci贸n, en funci贸n de los distintos mapas de fosfenos dise帽ados. Los resultados obtenidos han sido bastante satisfactorios, cumpliendo todas las previsiones realizadas. Uno de los objetivos m谩s importantes ha sido la de realizar la representaci贸n mediante fosfenos proponiendo varios ejemplos que permitan una correcta interpretaci贸n por parte del usuario pese a disponer de una resoluci贸n reducida
Sistema de realidad virtual para exploraci贸n 3D con visi贸n prot茅sica simulada
Las personas dependen de los sentidos para navegar por el entorno e interactuar con 茅l y, sin duda, el sentido en el que m谩s se conf铆a es la visi贸n, ya que la mayor parte de la informaci贸n recibida es a trav茅s de 茅l. Sin embargo, existe un gran n煤mero de personas privadas de este sentido, ya sea de nacimiento o por alguna patolog铆a o enfermedad degenerativa que pueden llegar a causar ceguera total o parcial. Las pr贸tesis visuales tratan de mejorar la calidad de vida de estas personas. Existen diferentes tipos de pr贸tesis que se pueden situar en la retina, la corteza visual o el nervio 贸ptico en funci贸n del problema que cause la ceguera. La m谩s usada mundialmente es el Argus II que consta de una microc谩mara que capta la informaci贸n visual que posteriormente es convertida a estimulaciones el茅ctricas lo que permite ver puntos de luz denominados fosfenos. Desgraciadamente, estos dispositivos poseen una resoluci贸n muy reducida y su campo de visi贸n muy limitado, en torno a los 20潞, por lo que se est谩n investigando diferentes representaciones de mapas de fosfenos para mostrar m谩s informaci贸n del entorno con dichas limitaciones y mejorar as铆 la interacci贸n de los pacientes con el entorno.En este proyecto se ha desarrollado un simulador de visi贸n fosf茅nica que permite, mediante las gafas de realidad virtual Oculus Rift DK2 conectadas desde un cliente de realidad virtual con visi贸n prot茅sica, y el simulador Gazebo ejecutado desde otro servidor Ubuntu en remoto, mostrar un entorno virtual en tiempo real suficientemente realista, por el cual se puede navegar libremente y explorar por completo moviendo la cabeza. Adem谩s, este simulador permite visualizar diferentes tipos de representaciones de mapas de fosfenos para poder realizar experimentos en un futuro y se ha introducido una red neuronal pre-entrenada para poder detectar diferentes objetos de la escena y resaltarlos para facilitar el reconocimiento de los mismos.El c贸digo se ha implementado en leguaje C++ y python con la propia interfaz de programaci贸n de aplicaciones (API) de Oculus, las librer铆as OpenCV para el manejo de im谩genes, el sistema operativo ROS y el simulador Gazebo.<br /