16 research outputs found

    UnRectDepthNet: Self-Supervised Monocular Depth Estimation using a Generic Framework for Handling Common Camera Distortion Models

    Full text link
    In classical computer vision, rectification is an integral part of multi-view depth estimation. It typically includes epipolar rectification and lens distortion correction. This process simplifies the depth estimation significantly, and thus it has been adopted in CNN approaches. However, rectification has several side effects, including a reduced field of view (FOV), resampling distortion, and sensitivity to calibration errors. The effects are particularly pronounced in case of significant distortion (e.g., wide-angle fisheye cameras). In this paper, we propose a generic scale-aware self-supervised pipeline for estimating depth, euclidean distance, and visual odometry from unrectified monocular videos. We demonstrate a similar level of precision on the unrectified KITTI dataset with barrel distortion comparable to the rectified KITTI dataset. The intuition being that the rectification step can be implicitly absorbed within the CNN model, which learns the distortion model without increasing complexity. Our approach does not suffer from a reduced field of view and avoids computational costs for rectification at inference time. To further illustrate the general applicability of the proposed framework, we apply it to wide-angle fisheye cameras with 190^\circ horizontal field of view. The training framework UnRectDepthNet takes in the camera distortion model as an argument and adapts projection and unprojection functions accordingly. The proposed algorithm is evaluated further on the KITTI rectified dataset, and we achieve state-of-the-art results that improve upon our previous work FisheyeDistanceNet. Qualitative results on a distorted test scene video sequence indicate excellent performance https://youtu.be/K6pbx3bU4Ss.Comment: Minor fixes added after IROS 2020 Camera ready submission. IROS 2020 presentation video - https://www.youtube.com/watch?v=3Br2KSWZRr

    Multi-task near-field perception for autonomous driving using surround-view fisheye cameras

    Get PDF
    Die Bildung der Augen führte zum Urknall der Evolution. Die Dynamik änderte sich von einem primitiven Organismus, der auf den Kontakt mit der Nahrung wartete, zu einem Organismus, der durch visuelle Sensoren gesucht wurde. Das menschliche Auge ist eine der raffiniertesten Entwicklungen der Evolution, aber es hat immer noch Mängel. Der Mensch hat über Millionen von Jahren einen biologischen Wahrnehmungsalgorithmus entwickelt, der in der Lage ist, Autos zu fahren, Maschinen zu bedienen, Flugzeuge zu steuern und Schiffe zu navigieren. Die Automatisierung dieser Fähigkeiten für Computer ist entscheidend für verschiedene Anwendungen, darunter selbstfahrende Autos, Augmented Realität und architektonische Vermessung. Die visuelle Nahfeldwahrnehmung im Kontext von selbstfahrenden Autos kann die Umgebung in einem Bereich von 0 - 10 Metern und 360° Abdeckung um das Fahrzeug herum wahrnehmen. Sie ist eine entscheidende Entscheidungskomponente bei der Entwicklung eines sichereren automatisierten Fahrens. Jüngste Fortschritte im Bereich Computer Vision und Deep Learning in Verbindung mit hochwertigen Sensoren wie Kameras und LiDARs haben ausgereifte Lösungen für die visuelle Wahrnehmung hervorgebracht. Bisher stand die Fernfeldwahrnehmung im Vordergrund. Ein weiteres wichtiges Problem ist die begrenzte Rechenleistung, die für die Entwicklung von Echtzeit-Anwendungen zur Verfügung steht. Aufgrund dieses Engpasses kommt es häufig zu einem Kompromiss zwischen Leistung und Laufzeiteffizienz. Wir konzentrieren uns auf die folgenden Themen, um diese anzugehen: 1) Entwicklung von Nahfeld-Wahrnehmungsalgorithmen mit hoher Leistung und geringer Rechenkomplexität für verschiedene visuelle Wahrnehmungsaufgaben wie geometrische und semantische Aufgaben unter Verwendung von faltbaren neuronalen Netzen. 2) Verwendung von Multi-Task-Learning zur Überwindung von Rechenengpässen durch die gemeinsame Nutzung von initialen Faltungsschichten zwischen den Aufgaben und die Entwicklung von Optimierungsstrategien, die die Aufgaben ausbalancieren.The formation of eyes led to the big bang of evolution. The dynamics changed from a primitive organism waiting for the food to come into contact for eating food being sought after by visual sensors. The human eye is one of the most sophisticated developments of evolution, but it still has defects. Humans have evolved a biological perception algorithm capable of driving cars, operating machinery, piloting aircraft, and navigating ships over millions of years. Automating these capabilities for computers is critical for various applications, including self-driving cars, augmented reality, and architectural surveying. Near-field visual perception in the context of self-driving cars can perceive the environment in a range of 0 - 10 meters and 360° coverage around the vehicle. It is a critical decision-making component in the development of safer automated driving. Recent advances in computer vision and deep learning, in conjunction with high-quality sensors such as cameras and LiDARs, have fueled mature visual perception solutions. Until now, far-field perception has been the primary focus. Another significant issue is the limited processing power available for developing real-time applications. Because of this bottleneck, there is frequently a trade-off between performance and run-time efficiency. We concentrate on the following issues in order to address them: 1) Developing near-field perception algorithms with high performance and low computational complexity for various visual perception tasks such as geometric and semantic tasks using convolutional neural networks. 2) Using Multi-Task Learning to overcome computational bottlenecks by sharing initial convolutional layers between tasks and developing optimization strategies that balance tasks

    Towards Safer Robot-Assisted Surgery: A Markerless Augmented Reality Framework

    Full text link
    Robot-assisted surgery is rapidly developing in the medical field, and the integration of augmented reality shows the potential of improving the surgeons' operation performance by providing more visual information. In this paper, we proposed a markerless augmented reality framework to enhance safety by avoiding intra-operative bleeding which is a high risk caused by the collision between the surgical instruments and the blood vessel. Advanced stereo reconstruction and segmentation networks are compared to find out the best combination to reconstruct the intra-operative blood vessel in the 3D space for the registration of the pre-operative model, and the minimum distance detection between the instruments and the blood vessel is implemented. A robot-assisted lymphadenectomy is simulated on the da Vinci Research Kit in a dry lab, and ten human subjects performed this operation to explore the usability of the proposed framework. The result shows that the augmented reality framework can help the users to avoid the dangerous collision between the instruments and the blood vessel while not introducing an extra load. It provides a flexible framework that integrates augmented reality into the medical robot platform to enhance safety during the operation

    Система визначення глибини зображення

    Get PDF
    Робота публікується згідно наказу Ректора НАУ від 27.05.2021 р. №311/од "Про розміщення кваліфікаційних робіт здобувачів вищої освіти в репозиторії університету" . Керівник роботи: к. т. н., ст. викл. кафедри авіаційних комп’ютерно-інтегрованих комплексів, Василенко Микола ПавловичIn today's world, there is often a question about creating a model to solve a certain problem in such a way that it performs its intended task properly and does not have a large cost. This is what almost every developer of the project wants at the production stage. Thus, the work consists in improving and acquiring better accuracy of the image depth detection system. For this, was modified and improved, namely, the main design of the model was changed and the quality of the image was improved, thanks to various methods of image filtering. Unlike the previous model, this project investigates the effect and quality of the 3D scene construction in the image, not the streaming video, under different weather conditions and at different observation points, which makes it possible to feel in more detail the impact of various phenomena on the model itself during operation and improve accuracy due to considering a single pair of images rather than a stream of large numbers at a specific frequency. The design consists of two cameras, which were selected from the principle of price-quality, and a box to fix and protect the model itself, thus forming protection from the environment in various conditions of use. The design is connected to a computer that performs the software part, which consists in creating a stereo pair – artificial adjustment of cameras, image analysis at the initial stage and after filtering, which as a result gives an opportunity to see the difference in the accuracy of constructing a 3D image, which can be used for various goals, for example to find out the size or distance to the target object.У сучасному світі часто постає питання про створення моделі вирішення певної задачі таким чином, щоб вона якісно виконувала поставлене завдання і не мала великих витрат. Це те, чого хоче практично кожен розробник проекту на етапі виробництва. Таким чином, робота полягає в удосконаленні та підвищенні точності системи визначення глибини зображення. Для цього виготовлена модель була модифікована та вдосконалена, а саме змінено основну конструкцію моделі та покращено якість зображення, завдяки різним методам фільтрації зображення. На відміну від попередньої моделі, цей проект досліджує ефект і якість побудови 3D-сцени в зображенні, а не в потоковому відео, за різних погодних умов і в різних точках спостереження, що дає можливість більш детально відчути вплив різних явищ. на самій моделі під час роботи та підвищити точність за рахунок розгляду однієї пари зображень, а не потоку великих чисел із певною частотою. Конструкція складається з двох камер, підібраних за принципом ціна-якість, і коробки для кріплення і захисту самої моделі, формуючи таким чином захист від зовнішнього середовища в різних умовах використання. Конструкція підключена до комп’ютера, який виконує програмну частину, яка полягає у створенні стереопари – штучне налаштування камер, аналіз зображення на початковому етапі та після фільтрації, що в результаті дає можливість побачити різницю в точності. побудови тривимірного зображення, яке можна використовувати для різних цілей, наприклад, щоб дізнатися розмір або відстань до цільового об'єкта

    Система оцінки глибини зображення за потоковим відео

    Get PDF
    Робота публікується згідно наказу ректора від 27.05.2021 р. №311/од "Про розміщення кваліфікаційних робіт вищої освіти в репозиторії університету". Керівник дипломної роботи: к.т.н., старший викладач кафедри авіаційних комп’ютерно-інтегрованих комплексів, Василенко Микола ПавловичToday, the tasks of computer vision are becoming very relevant, more and more people are automating work in production due to some kind of software processes and machine devices, which can make job easier or more accurate. Based on this, it was decided to consider in detail the problem of stereo vision without using neural networks, or other more complex methods, since their use required costly methods of training, setting and controlling parameters. The main task was to create a mechanism taking into account the price and quality, due to the fact that there is no cheap analogue on the internet market, which was suitable for the task of simple recognition of 3D scenes and made it possible to analyze the environment in which it is located, namely, to find out at what distance objects are located, what is their size, and so on. In the course of the work, the method of using two web cameras was chosen, which were configured and calibrated for the task of stereo vision. The conditions of projective geometry and the relationship between the two cameras are also considered, since without this, the operation of the main algorithm of the work could not be successful at all. An algorithm and program have been created for the device to operate in streaming mode, which allows directly know the exact characteristics in LIVE video mode.Сьогодні завдання комп’ютерного зору стають дуже актуальними, все більше людей автоматизують роботу на виробництві завдяки якимсь програмним процесам та машинним пристроям, які можуть полегшити роботу або зробити її більш точною. З цього приводу було вирішено детально розглянути проблему стереозору без використання нейронних мереж або інших більш складних методів, оскільки їх використання вимагало дорогих методів навчання, встановлення та контролю параметрів. Основним завданням було створити механізм з урахуванням ціни та якості, завдяки тому, що на Інтернет-ринку немає дешевого аналога, який був би придатним для завдання простого розпізнавання тривимірних сцен і дав можливість аналізувати середовище, в якому він знаходиться, а саме з’ясувати, на якій відстані знаходяться об’єкти, який їх розмір тощо. В ході роботи було обрано метод використання двох веб-камер, які були налаштовані та відкалібровані для завдання стерео зору. Також розглядаються умови проективної геометрії та взаємозв'язок між двома камерами, оскільки без цього робота основного алгоритму роботи взагалі не могла б бути успішною. Створено алгоритм та програму для роботи пристрою в потоковому режимі, що дозволяє безпосередньо знати точні характеристики в режимі LIVE video

    On Motion Analysis in Computer Vision with Deep Learning: Selected Case Studies

    Get PDF
    Motion analysis is one of the essential enabling technologies in computer vision. Despite recent significant advances, image-based motion analysis remains a very challenging problem. This challenge arises because the motion features are extracted directory from a sequence of images without any other meta data information. Extracting motion information (features) is inherently more difficult than in other computer vision disciplines. In a traditional approach, the motion analysis is often formulated as an optimisation problem, with the motion model being hand-crafted to reflect our understanding of the problem domain. The critical element of these traditional methods is a prior assumption about the model of motion believed to represent a specific problem. Data analytics’ recent trend is to replace hand-crafted prior assumptions with a model learned directly from observational data with no, or very limited, prior assumptions about that model. Although known for a long time, these approaches, based on machine learning, have been shown competitive only very recently due to advances in the so-called deep learning methodologies. This work's key aim has been to investigate novel approaches, utilising the deep learning methodologies, for motion analysis where the motion model is learned directly from observed data. These new approaches have focused on investigating the deep network architectures suitable for the effective extraction of spatiotemporal information. Due to the estimated motion parameters' volume and structure, it is frequently difficult or even impossible to obtain relevant ground truth data. Missing ground truth leads to choose the unsupervised learning methodologies which is usually represents challenging choice to utilize in already challenging high dimensional motion representation of the image sequence. The main challenge with unsupervised learning is to evaluate if the algorithm can learn the data model directly from the data only without any prior knowledge presented to the deep learning model during In this project, an emphasis has been put on the unsupervised learning approaches. Owning to a broad spectrum of computer vision problems and applications related to motion analysis, the research reported in the thesis has focused on three specific motion analysis challenges and corresponding practical case studies. These include motion detection and recognition, as well as 2D and 3D motion field estimation. Eyeblinks quantification has been used as a case study for the motion detection and recognition problem. The approach proposed for this problem consists of a novel network architecture processing weakly corresponded images in an action completion regime with learned spatiotemporal image features fused using cascaded recurrent networks. The stereo-vision disparity estimation task has been selected as a case study for the 2D motion field estimation problem. The proposed method directly estimates occlusion maps using novel convolutional neural network architecture that is trained with a custom-designed loss function in an unsupervised manner. The volumetric data registration task has been chosen as a case study for the 3D motion field estimation problem. The proposed solution is based on the 3D CNN, with a novel architecture featuring a Generative Adversarial Network used during training to improve network performance for unseen data. All the proposed networks demonstrated a state-of-the-art performance compared to other corresponding methods reported in the literature on a number of assessment metrics. In particular, the proposed architecture for 3D motion field estimation has shown to outperform the previously reported manual expert-guided registration methodology
    corecore