Search CORE

16 research outputs found

Proyecciones cónicas de rectas en sistemas catadióptricos para percepción visual en entornos construidos por el hombre

Author: Bermúdez Cameo Jesús
Guerrero Campo José Jesús
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2011
Field of study

Los sistemas de visión omnidireccional son dispositivos que permiten la adquisición de imágenes con un campo de vista de 360º en un eje y superior 180º en el otro. La necesidad de integrar estas cámaras en sistemas de visión por computador ha impulsado la investigación en este campo profundizando en los modelos matemáticos y la base teórica necesaria que permite la implementación de aplicaciones. Existen diversas tecnologías para obtener imágenes omnidireccionales. Los sistemas catadióptricos son aquellos que consiguen aumentar el campo de vista utilizando espejos. Entre estos, encontramos los sistemas hiper-catadióptricos que son aquellos que utilizan una cámara perspectiva y un espejo hiperbólico. La geometría hiperbólica del espejo garantiza que el sistema sea central. En estos sistemas adquieren una especial relevancia las rectas del espacio, en la medida en que, rectas largas son completamente visibles en única imagen. La recta es una forma geométrica abundante en entornos construidos por el hombre que además acostumbra a ordenarse según direcciones dominantes. Salvo construcciones singulares, la fuerza de la gravedad fija una dirección vertical que puede utilizarse como referencia en el cálculo de la orientación del sistema. Sin embargo el uso de rectas en sistemas catadióptricos implica la dificultad añadida de trabajar con un modelo proyectivo no lineal en el que las rectas 3d son proyectadas en cónicas. Este TFM recoge el trabajo que se presenta en el artículo "Significant Conics on Catadioptric Images for 3D Orientation and Image Rectification" que pretendemos enviar a "Robotics and Autonomous Systems". En él se presenta un método para calcular la orientación de un sistema hiper-catadióptrico utilizando las cónicas que son proyecciones de rectas 3D. El método calcula la orientación respecto del sistema de referencia absoluto definido por el conjunto de puntos de fuga en un entorno en que existan direcciones dominantes

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Repositorio Universidad de Zaragoza

Learning the surroundings: 3D scene understanding from omnidirectional images

Author: Berenguel Baeta Samuel Bruno
Bermúdez Cameo Jesús
Guerrero Campo José Jesús
Publication venue: Universidad de Zaragoza, Prensas de la Universidad
Publication date: 01/01/2023
Field of study

Las redes neuronales se han extendido por todo el mundo, siendo utilizadas en una gran variedad de aplicaciones. Estos métodos son capaces de reconocer música y audio, generar textos completos a partir de ideas simples u obtener información detallada y relevante de imágenes y videos. Las posibilidades que ofrecen las redes neuronales y métodos de aprendizaje profundo son incontables, convirtiéndose en la principal herramienta de investigación y nuevas aplicaciones en nuestra vida diaria. Al mismo tiempo, las imágenes omnidireccionales se están extendiendo dentro de la industria y nuestra sociedad, causando que la visión omnidireccional gane atención. A partir de imágenes 360 capturamos toda la información que rodea a la cámara en una sola toma.La combinación del aprendizaje profundo y la visión omnidireccional ha atraído a muchos investigadores. A partir de una única imagen omnidireccional se obtiene suficiente información del entorno para que una red neuronal comprenda sus alrededores y pueda interactuar con el entorno. Para aplicaciones como navegación y conducción autónoma, el uso de cámaras omnidireccionales proporciona información en torno del robot, person o vehículo, mientras que las cámaras convencionales carecen de esta información contextual debido a su reducido campo de visión. Aunque algunas aplicaciones pueden incluir varias cámaras convencionales para aumentar el campo de visión del sistema, tareas en las que el peso es importante (P.ej. guiado de personas con discapacidad visual o navegación de drones autónomos), un número reducido de dispositivos es altamente deseable.En esta tesis nos centramos en el uso conjunto de cámaras omnidireccionales, aprendizaje profundo, geometría y fotometría. Evaluamos diferentes enfoques para tratar con imágenes omnidireccionales, adaptando métodos a los modelos de proyección omnidireccionales y proponiendo nuevas soluciones para afrontar los retos de este tipo de imágenes. Para la comprensión de entornos interiores, proponemos una nueva red neuronal que obtiene segmentación semántica y mapas de profundidad de forma conjunta a partir de un único panoramaequirectangular. Nuestra red logra, con un nuevo enfoque convolucional, aprovechar la información del entorno proporcionada por la imagen panorámica y explotar la información combinada de semántica y profundidad. En el mismo tema, combinamos aprendizaje profundo y soluciones geométricas para recuperar el diseño estructural, junto con su escala, de entornos de interior a partir de un único panorama no central. Esta combinación de métodos proporciona una implementación rápida, debido a la red neuronal, y resultados precisos, gracias a lassoluciones geométricas. Además, también proponemos varios enfoques para la adaptación de redes neuronales a la distorsión de modelos de proyección omnidireccionales para la navegación y la adaptación del dominio soluciones previas. En términos generales, esta tesis busca encontrar soluciones novedosas e innovadoras para aprovechar las ventajas de las cámaras omnidireccionales y superar los desafíos que plantean.Neural networks have become widespread all around the world and are used for many different applications. These new methods are able to recognize music and audio, generate full texts from simple ideas and obtain detailed and relevant information from images and videos. The possibilities of neural networks and deep learning methods are uncountable, becoming the main tool for research and new applications in our daily-life. At the same time, omnidirectional and 360 images are also becoming widespread in industry and in consumer society, causing omnidirectional computer vision to gain attention. From 360 images, we capture all the information surrounding the camera in a single shot. The combination of deep learning methods and omnidirectional computer vision have attracted many researchers to this new field. From a single omnidirectional image, we obtain enough information of the environment to make a neural network understand its surroundings and interact with the environment. For applications such as navigation and autonomous driving, the use of omnidirectional cameras provide information all around the robot, person or vehicle, while conventional perspective cameras lack this context information due to their narrow field of view. Even if some applications can include several conventional cameras to increase the system's field of view, tasks where weight is more important (i.e. guidance of visually impaired people or navigation of autonomous drones), the less cameras we need to include, the better. In this thesis, we focus in the joint use of omnidirectional cameras, deep learning, geometry and photometric methods. We evaluate different approaches to handle omnidirectional images, adapting previous methods to the distortion of omnidirectional projection models and also proposing new solutions to tackle the challenges of this kind of images. For indoor scene understanding, we propose a novel neural network that jointly obtains semantic segmentation and depth maps from single equirectangular panoramas. Our network manages, with a new convolutional approach, to leverage the context information provided by the panoramic image and exploit the combined information of semantics and depth. In the same topic, we combine deep learning and geometric solvers to recover the scaled structural layout of indoor environments from single non-central panoramas. This combination provides a fast implementation, thanks to the learning approach, and accurate result, due to the geometric solvers. Additionally, we also propose several approaches of network adaptation to the distortion of omnidirectional projection models for outdoor navigation and domain adaptation of previous solutions. All in all, this thesis looks for finding novel and innovative solutions to take advantage of omnidirectional cameras while overcoming the challenges they pose.<br /

Repositorio Universidad de Zaragoza

Fitting line projections in non-central catadioptric cameras with revolution symmetry

Author: Bermúdez-Cameo Jesús
Guerrero José J.
López-Nicolás Gonzalo
Publication venue: 'Elsevier BV'
Publication date: 01/01/2018
Field of study

Line-images in non-central cameras contain much richer information of the original 3D line than line projections in central cameras. The projection surface of a 3D line in most catadioptric non-central cameras is a ruled surface, encapsulating the complete information of the 3D line. The resulting line-image is a curve which contains the 4 degrees of freedom of the 3D line. That means a qualitative advantage with respect to the central case, although extracting this curve is quite difficult. In this paper, we focus on the analytical description of the line-images in non-central catadioptric systems with symmetry of revolution. As a direct application we present a method for automatic line-image extraction for conical and spherical calibrated catadioptric cameras. For designing this method we have analytically solved the metric distance from point to line-image for non-central catadioptric systems. We also propose a distance we call effective baseline measuring the quality of the reconstruction of a 3D line from the minimum number of rays. This measure is used to evaluate the different random attempts of a robust scheme allowing to reduce the number of trials in the process. The proposal is tested and evaluated in simulations and with both synthetic and real images

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Crossref

Repositorio Universidad de Zaragoza

Entorno de simulación para control visual de un cuadricóptero con cámara fisheye

Author: Bermúdez Cameo Jesús
Villa López Jorge
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2014
Field of study

Hoy en día, el uso de sistemas de localización y orientación, como pueden ser el GPS o la IMU, están muy extendidos. Pero en lugares donde el GPS no funciona o su señal es muy débil, como por ejemplo, en el interior de un edificio, es necesario el uso de otros sistemas de navegación. El objetivo de este TFG es el desarrollo de un entorno de simulación para control visual de cuadricópteros en interiores. El trabajo se centra en el uso de cámaras fisheye que ofrecen un campo de vista mucho más amplio que una cámara convencional. En este simulador, un cuadricóptero (conocidos sus parámetros, modelo dinámico y sistema de control) es capaz de navegar por un escenario desconocido de interiores con la única ayuda de una cámara fisheye colocada en su parte inferior. El proceso es el siguiente: dada una imagen del entorno, se extraen las proyecciones de las rectas de la escena y, asumiendo la existencia de direcciones dominantes, se calculan los puntos de fuga mediante un algoritmo robusto basado en RANSAC. Con dicha información se obtiene la orientación del escenario respecto del cuadricóptero. Seguidamente, se calculan y asignan las consignas al cuadricóptero, de manera que sea capaz de avanzar de un modo coherente por el entorno. Este proceso se repite cada cierto tiempo, tomando imágenes y recalculando la orientación. El trabajo se ha desarrollado utilizando Matlab, integrando POV-Ray para la generación y renderización de la escena 3D, y Simulink para describir el modelo dinámico y control del cuadricóptero. En este trabajo se asume como premisa que el entorno de interior contiene direcciones dominantes, característica típica de entornos construidos por el hombre. En este caso, existe paralelismo entre grupos de rectas que comparten puntos de fuga. El cálculo de los puntos de fuga se realiza a partir de los planos de proyección de las rectas, que se describen mediante su vector normal, ni. Como ya hemos dicho, una cámara fisheye tiene un campo de vista mucho mayor que una cámara perspectiva convencional, gracias al cual se puede tomar una longitud mayor de las rectas de la escena, hecho que favorece el cálculo de los planos de proyección. Aunque, por otra parte, es necesario utilizar un modelo de proyección no lineal y más complejo que el utilizado para cámaras convencionales

Repositorio Universidad de Zaragoza

Seguimiento de rectas en cámaras omnidireccionales

Author: Bermúdez Cameo Jesús
Castillo Sanjuán Alejandro
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2016
Field of study

En este trabajo se ha realizado la creación de un algoritmo de seguimiento de las proyecciones de las rectas de un entorno a lo largo de los distintos fotogramas de un vídeo. Este vídeo es el grabado por una cámara "fisheye" omnidireccional, y las rectas son las resultantes de la aplicación de un algoritmo de obtención de líneas en sistemas omnidireccionales

Repositorio Universidad de Zaragoza

Parallel Lines for Calibration of Non-Central Conical Catadioptric Cameras

Author: Bermúdez Cameo Jesús
Bermúdez Vargas James
Guerrero José J.
Publication venue: 'Universidad de Zaragoza'
Publication date: 18/07/2022
Field of study

In this paper we propose a new calibration method for non-central catadioptric cameras that use a conical mirror. This method consists of using parallel lines, extracted from a single omnidirectional image, instead of using the typical checkerboard to obtain the calibration parameters of the system

Universidad Zaragoza: Open Journal Systems

Simulador de prótesis visual en entornos 360º con gafas de realidad virtual

Author: Bermúdez Cameo Jesús
Guerrero Campo José Jesús
Santos Villafranca María
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2019
Field of study

El sentido del que más dependen las personas es la visión, la mayor parte de la información recibida es a través de éste sentido. Es muy importante en la vida cotidiana, se usa constantemente hasta en las tareas más sencillas, aquellas como reconocer objetos, personas, etc. Sin embargo, algunas patologías o enfermedades degenerativas pueden causar la ceguera total o parcial. Como alternativa para paliar los efectos de la ceguera, existen diferentes tipos de prótesis visuales que se pueden situar en la retina, la corteza visual o el nervio óptico en función del problema que cause la ceguera. Una de las posibilidades es que estas prótesis tengan una microcámara que capta la información visual que posteriormente es convertida a estimulaciones eléctricas lo que permite ver puntos de luz denominados fosfenos. Desgraciadamente, el campo de visión actual de estos dispositivos es en torno a los 20º por lo que se están investigando diferentes representaciones de mapas de fosfenos para mejorar la interacción de los pacientes con el entorno. En este proyecto se ha desarrollado un simulador de visión fosfénica que permite, mediante las gafas de realidad virtual Oculus Rift DK2, mostrar un entorno virtual de 360º en tiempo real a partir de imágenes panorámicas. Este simulador permite introducir dos tipos de representaciones de mapas de fosfenos, el método Downsampling y el método SIE-OMS. El primer método reduce la resolución de color y espacial de la imagen panorámica y la transforma a un mapa de fosfenos mientras que el segundo realiza una extracción de objetos mediante un algoritmo de aprendizaje automático y lo combina con el layout de la imagen. El código se ha implementado en leguaje C++, con la propia interfaz de programación de aplicaciones (API) de Oculus y las librerías OpenCV para el manejo de imágenes. Ha sido necesario realizar un cursillo previo para aprender a manejar las librerías. Los resultados obtenidos han sido bastante satisfactorios cumpliendo todos los objetivos planteados. El objetivo principal era crear el simulador de prótesis visual que pueda ser empleado para el avance de la investigación de este campo.<br /

Repositorio Universidad de Zaragoza

Simulador de imágenes omnidireccionales fotorealistas para visión por computador

Author: Berenguel Baeta Samuel Bruno
Bermúdez Cameo Jesús
Guerrero Campo José Jesús
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2019
Field of study

La motivación de este proyecto es la necesidad de bases de imágenes omnidireccionales y panorámicas para visión por computador. Su elevado campo de visión permite obtener una gran cantidad de información del entorno a partir de una única imagen. Sin embargo, la distorsión propia de estas imágenes requiere desarrollar algoritmos específicos para su tratamiento e interpretación. Además, un elevado número de imágenes es imprescindible para el correcto entrenamiento de algoritmos de visión por computador basados en aprendizaje profundo. La adquisición, etiquetado y preparación de estas imágenes de forma manual con sistemas reales requiere una cantidad de tiempo y volumen de trabajo que en la práctica limita el tamaño de estas bases de datos. En este trabajo se propone la implementación de una herramienta que permita generar imágenes omnidireccionales sintéticas fotorrealistas que automatice la generación y el etiquetado como estrategia para aumentar el tamaño de estas bases de datos. Este trabajo se apoya en los entornos virtuales que se pueden crear con el motor de videojuegos Unreal Engine 4, el cual se utiliza junto a uno de sus plugin, UnrealCV. A partir de estos entornos virtuales se construyen imágenes de una variedad de cámaras omnidireccionales y 360º con calidad fotorrealista. Las características del entorno permiten además generar imágenes de profundidad y semánticas. Al hacerse todo de forma virtual, se pueden controlar los parámetros de adquisición de la cámara y las características del entorno, permitiendo construir una base de datos con un etiquetado automático sin supervisión. Conocidos los parámetros de calibración, posición y orientación de la cámara y la distribución del entorno y sus objetos, se puede conseguir el ground truth para diversos algoritmos de visión. Con las imágenes e información que se dispone, se pueden evaluar algoritmos de extracción de rectas en imágenes dióptricas y catadióptricas, obtención de layouts en panoramas o métodos de reconstrucción 3D como la localización y mapeado simultáneos (SLAM).<br /

Repositorio Universidad de Zaragoza

Detección de personas para simulación de prótesis visual

Author: Bermúdez Cameo Jesús
Guerrero Campo José Jesús
Guerrero Viu Manuel
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2016
Field of study

Las personas reciben la información del entorno que les rodea por medio de los sentidos. La vista es el sentido que más información aporta acerca de una escena y de los objetos ubicados en la misma. A través de la visión y el aprendizaje somos capaces de reconocer objetos, personas, etc, pudiendo así, interactuar con ellos. Sin embargo, algunas patologías pueden causar daños en los sistemas visuales, conduciendo incluso a la ceguera. En función del tipo de daño, existen investigaciones en curso para colocar una prótesis de visión biónica que, mediante una estimulación eléctrica en determinadas zonas del nervio óptico o del cortex cerebral, permiten la visualización de puntos de luz denominados fosfenos. Para la estimulación de los fosfenos, una de las posibilidades es la captura de información de la escena mediante una cámara. Las técnicas actuales de procesamiento de imagen que se aplican sobre las prótesis visuales son bastante limitadas. La introducción de técnicas avanzadas de visión por computador incluyendo información de profundidad puede provocar un punto de inflexión en la forma de interacción con el entorno de las personas operadas con estos novedosos implantes. En este proyecto se ha avanzado en el desarrollo de un simulador de prótesis visuales considerando nuevas técnicas de visión por computador para favorecer la interpretación del entorno. En particular, se ha desarrollado una aplicación para la detección de personas y su representación mediante fosfenos. Se ha partido de un sistema compuesto de un sensor de profundidad RGB-D, Kinect v2 y de un sistema de realidad virtual, Oculus DK2. Mediante técnicas de visión por computador se ha inferido una descripción articular de la persona y una descripción de la cara que incluye ojos, boca y estado de ánimo. Esta información es representada de manera icónica en el simulador de visión protésica para una mejor interpretación por parte del usuario. Además, se han realizado varias pruebas para poder evaluar diferentes tipos de representación, en función de los distintos mapas de fosfenos diseñados. Los resultados obtenidos han sido bastante satisfactorios, cumpliendo todas las previsiones realizadas. Uno de los objetivos más importantes ha sido la de realizar la representación mediante fosfenos proponiendo varios ejemplos que permitan una correcta interpretación por parte del usuario pese a disponer de una resolución reducida

Repositorio Universidad de Zaragoza

Sistema de realidad virtual para exploración 3D con visión protésica simulada

Author: Bermúdez Cameo Jesús
Pérez Yus Alejandro
Santos Villafranca María
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2021
Field of study

Las personas dependen de los sentidos para navegar por el entorno e interactuar con él y, sin duda, el sentido en el que más se confía es la visión, ya que la mayor parte de la información recibida es a través de él. Sin embargo, existe un gran número de personas privadas de este sentido, ya sea de nacimiento o por alguna patología o enfermedad degenerativa que pueden llegar a causar ceguera total o parcial. Las prótesis visuales tratan de mejorar la calidad de vida de estas personas. Existen diferentes tipos de prótesis que se pueden situar en la retina, la corteza visual o el nervio óptico en función del problema que cause la ceguera. La más usada mundialmente es el Argus II que consta de una microcámara que capta la información visual que posteriormente es convertida a estimulaciones eléctricas lo que permite ver puntos de luz denominados fosfenos. Desgraciadamente, estos dispositivos poseen una resolución muy reducida y su campo de visión muy limitado, en torno a los 20º, por lo que se están investigando diferentes representaciones de mapas de fosfenos para mostrar más información del entorno con dichas limitaciones y mejorar así la interacción de los pacientes con el entorno.En este proyecto se ha desarrollado un simulador de visión fosfénica que permite, mediante las gafas de realidad virtual Oculus Rift DK2 conectadas desde un cliente de realidad virtual con visión protésica, y el simulador Gazebo ejecutado desde otro servidor Ubuntu en remoto, mostrar un entorno virtual en tiempo real suficientemente realista, por el cual se puede navegar libremente y explorar por completo moviendo la cabeza. Además, este simulador permite visualizar diferentes tipos de representaciones de mapas de fosfenos para poder realizar experimentos en un futuro y se ha introducido una red neuronal pre-entrenada para poder detectar diferentes objetos de la escena y resaltarlos para facilitar el reconocimiento de los mismos.El código se ha implementado en leguaje C++ y python con la propia interfaz de programación de aplicaciones (API) de Oculus, las librerías OpenCV para el manejo de imágenes, el sistema operativo ROS y el simulador Gazebo.<br /

Repositorio Universidad de Zaragoza