31 research outputs found

    Efficient Visual Computing with Camera RAW Snapshots

    Get PDF
    Conventional cameras capture image irradiance (RAW) on a sensor and convert it to RGB images using an image signal processor (ISP). The images can then be used for photography or visual computing tasks in a variety of applications, such as public safety surveillance and autonomous driving. One can argue that since RAW images contain all the captured information, the conversion of RAW to RGB using an ISP is not necessary for visual computing. In this paper, we propose a novel ρ-Vision framework to perform high-level semantic understanding and low-level compression using RAW images without the ISP subsystem used for decades. Considering the scarcity of available RAW image datasets, we first develop an unpaired CycleR2R network based on unsupervised CycleGAN to train modular unrolled ISP and inverse ISP (invISP) models using unpaired RAW and RGB images. We can then flexibly generate simulated RAW images (simRAW) using any existing RGB image dataset and finetune different models originally trained in the RGB domain to process real-world camera RAW images. We demonstrate object detection and image compression capabilities in RAW-domain using RAW-domain YOLOv3 and RAW image compressor (RIC) on camera snapshots. Quantitative results reveal that RAW-domain task inference provides better detection accuracy and compression efficiency compared to that in the RGB domain. Furthermore, the proposed ρ-Vision generalizes across various camera sensors and different task-specific models. An added benefit of employing the ρ-Vision is the elimination of the need for ISP, leading to potential reductions in computations and processing times

    Reconstruction from Spatio-Spectrally Coded Multispectral Light Fields

    Get PDF
    In dieser Arbeit werden spektral codierte multispektrale Lichtfelder, wie sie von einer Lichtfeldkamera mit einem spektral codierten Mikrolinsenarray aufgenommen werden, untersucht. Für die Rekonstruktion der codierten Lichtfelder werden zwei Methoden entwickelt und im Detail ausgewertet. Zunächst wird eine vollständige Rekonstruktion des spektralen Lichtfelds entwickelt, die auf den Prinzipien des Compressed Sensing basiert. Um die spektralen Lichtfelder spärlich darzustellen, werden 5D-DCT-Basen sowie ein Ansatz zum Lernen eines Dictionary untersucht. Der konventionelle vektorisierte Dictionary-Lernansatz wird auf eine tensorielle Notation verallgemeinert, um das Lichtfeld-Dictionary tensoriell zu faktorisieren. Aufgrund der reduzierten Anzahl von zu lernenden Parametern ermöglicht dieser Ansatz größere effektive Atomgrößen. Zweitens wird eine auf Deep Learning basierende Rekonstruktion der spektralen Zentralansicht und der zugehörigen Disparitätskarte aus dem codierten Lichtfeld entwickelt. Dabei wird die gewünschte Information direkt aus den codierten Messungen geschätzt. Es werden verschiedene Strategien des entsprechenden Multi-Task-Trainings verglichen. Um die Qualität der Rekonstruktion weiter zu verbessern, wird eine neuartige Methode zur Einbeziehung von Hilfslossfunktionen auf der Grundlage ihrer jeweiligen normalisierten Gradientenähnlichkeit entwickelt und gezeigt, dass sie bisherige adaptive Methoden übertrifft. Um die verschiedenen Rekonstruktionsansätze zu trainieren und zu bewerten, werden zwei Datensätze erstellt. Zunächst wird ein großer synthetischer spektraler Lichtfelddatensatz mit verfügbarer Disparität Ground Truth unter Verwendung eines Raytracers erstellt. Dieser Datensatz, der etwa 100k spektrale Lichtfelder mit dazugehöriger Disparität enthält, wird in einen Trainings-, Validierungs- und Testdatensatz aufgeteilt. Um die Qualität weiter zu bewerten, werden sieben handgefertigte Szenen, so genannte Datensatz-Challenges, erstellt. Schließlich wird ein realer spektraler Lichtfelddatensatz mit einer speziell angefertigten spektralen Lichtfeldreferenzkamera aufgenommen. Die radiometrische und geometrische Kalibrierung der Kamera wird im Detail besprochen. Anhand der neuen Datensätze werden die vorgeschlagenen Rekonstruktionsansätze im Detail bewertet. Es werden verschiedene Codierungsmasken untersucht -- zufällige, reguläre, sowie Ende-zu-Ende optimierte Codierungsmasken, die mit einer neuartigen differenzierbaren fraktalen Generierung erzeugt werden. Darüber hinaus werden weitere Untersuchungen durchgeführt, zum Beispiel bezüglich der Abhängigkeit von Rauschen, der Winkelauflösung oder Tiefe. Insgesamt sind die Ergebnisse überzeugend und zeigen eine hohe Rekonstruktionsqualität. Die Deep-Learning-basierte Rekonstruktion, insbesondere wenn sie mit adaptiven Multitasking- und Hilfslossstrategien trainiert wird, übertrifft die Compressed-Sensing-basierte Rekonstruktion mit anschließender Disparitätsschätzung nach dem Stand der Technik

    Reconstruction from Spatio-Spectrally Coded Multispectral Light Fields

    Get PDF
    In this work, spatio-spectrally coded multispectral light fields, as taken by a light field camera with a spectrally coded microlens array, are investigated. For the reconstruction of the coded light fields, two methods, one based on the principles of compressed sensing and one deep learning approach, are developed. Using novel synthetic as well as a real-world datasets, the proposed reconstruction approaches are evaluated in detail

    Persistent Phosphors for Smartphone-Based Luminescence Thermometry and Anti-Counterfeiting Applications

    Get PDF
    Leuchtstoffe anhaltender Lumineszenz im sichtbaren Spektrum eröffnen neue Möglichkeiten für Smartphone-basierte Anwendungen. Videoaufnahmen mit dem Smartphone mit 30 Bildern pro Sekunde können persistente Lumineszenzlebenszeiten einer Größenordnung von 100 ms und länger bestimmen. Die mit dem Smartphone aufgezeichneten Daten können benutzt werden um Anwendungen zu realisieren, die ansonsten nur für kurze Lebenszeiten möglich sind. Diese Alternative umgeht den Bedarf an teuren und relativ komplizierten Messinstrumenten, die für die Detektion von kurzen Lebenszeiten eingesetzt werden, wie zum Beispiel Multichannel scaling, Hochgeschwindigkeitskameras und Mikroskope zur Messung der Fluoreszenzlebenszeit. Diese Arbeit konzentriert sich auf die Detektion anhaltender Lumineszenz für Temperaturmessung und Anwendungen zur Fälschungssicherung mit dem Smartphone. Für die Smartphone-basierte Temperaturmessung wurde ein optimierter Gd2O2S: Eu3+ als Leuchtstoff verwendet, der mithilfe einer UV-Quelle angeregt werden kann. Der Leuchtstoff zeigte eine temperaturabhängige Lumineszenz, die hell und lange anhaltend genug war, um mit einer Smartphone-Kamera mit 30 Bildern pro Sekunde aufgezeichnet zu werden. Der Leuchtstoff hat eine Photolumineszenz-Quantenausbeute von 65 % und seine Lebenszeit nimmt mit steigender Temperatur ab. Dies wurde beobachtet über einen Temperaturbereich von 270 K bis 338 K, in dem die Lebenszeit von 1107 ms bis auf 100 ms abfiel. Die Analyse der zeitintegrierten Emission mit dem Smartphone nach einer Anregung mit 375 nm zeigte, dass die Temperaturen im Bereich von 270 K bis 338 K präzise gemessen werden konnten mit einer Messungenauigkeit unter 2 K. Darüber hinaus wurde die Lebenszeitmessung nicht durch Hintergrundstrahlung beeinträchtigt und ermöglichte somit eine genaue Temperaturmessung auch bei einer Hintergrundbeleuchtungsstärke von bis zu 1500 lx. Um eine Smartphone-basierte Fälschungssicherung zu realisieren wurden anhaltende Leuchtstoffe mit einstellbarer Lebenszeit bei Raumtemperatur benutzt, um dynamische, lumineszierende Etiketten zu entwickeln. Dynamische Fälschungssicherung wurde mithilfe von Ti4+-dotierten Gd2O2S: Eu3+ realisiert, wobei die Ti4+-Dotierung eine Kontrolle der Lebenszeit bei Raumtemperatur ermöglicht. Durch eine Veränderung der Kodotierung von 0 bis 0.09 mol% konnte die Lebenszeit von 1.17 ± 0.02 bis 5.95 ± 0.07 s durchgestimmt werden mit einer Anregung bei 375 nm. Durch eine Kombination von Leuchtstoffen mit verschiedenen Lebenszeiten konnten somit dynamische Etiketten zur Fälschungssicherung entwickelt werden. Die Lebenszeit der Leuchtstoffe für diese dynamischen Muster bestimmte dabei die Komplexität der Fälschungssicherung. Solche Muster, die aus einer Kombination von Leuchtstoffen mit großen Unterschieden in der Lumineszenzlebenszeit entwickelt wurden, konnten mit bloßem Auge beobachtet werden. Im Gegensatz dazu sind zeitliche Änderungen in Etiketten mit viel kürzerer Lebenszeit im Bereich von 0.2 s nur schwer mit bloßem Auge nachzuvollziehen. Mithilfe der Smartphone-Kamera mit einer Aufzeichnungsrate von 30 Bildern pro Sekunde können die versteckten Merkmale jedoch leicht entschlüsselt werden. In Hinblick auf die tatsächliche Anwendung am Verkaufsort, ist eine UV-Quelle einerseits normalerweise nicht vorhanden in einem Smartphone und andererseits stellt der Einsatz von UV-Strahlung für die Anregung der Leuchtstoffe eine Gesundheitsrisiko dar. Um die Nutzung einer UV-Quelle gänzlich zu vermeiden, wurden zweifarbige dynamische Etiketten zur Fälschungssicherung entwickelt. Diese erlauben eine Anregung mithilfe eines herkömmlichen Smartphone-Blitzlichtes während die Emission einfach mit der Kamera aufgezeichnet werden kann. Zu diesem Zweck wurden grün emittierende (SrAl2O4: Eu2+, Dy3+ (SAED)) und rot emittierende (CaS: Eu2+ und SrS: Eu2+) Leuchtstoffe entwickelt. Die Lebenszeit von SAED konnte variiert werden von 0.5 s bis 11.7 s durch Glühen des kommerziell erhältlichen Stoffes, was eine Verringerung der Störstellendichte im Material zur Folge hat. Die Lumineszenzlebenszeit von CaS: Eu2+ und SrS: Eu2+ konnte dagegen zwischen 0.1 bis 0.6 s und 150 bis 377 ms eingestellt werden mithilfe der Eu2+-Dotierdichte. Die Nutzung eines Smartphones ermöglicht nicht nur lebenszeit-basierte Temperaturmessungen ohne teure Messinstrumente, sondern eröffnet darüber hinaus eine kostengünstige Methode zur Authentifizierung von lumineszenzbasierten, dynamischen Markierungen zur Fälschungssicherung

    Reconstruction from Spatio-Spectrally Coded Multispectral Light Fields

    Get PDF
    In dieser Arbeit werden spektral kodierte multispektrale Lichtfelder untersucht, wie sie von einer Lichtfeldkamera mit einem spektral kodierten Mikrolinsenarray aufgenommen werden. Für die Rekonstruktion der kodierten Lichtfelder werden zwei Methoden entwickelt, eine basierend auf den Prinzipien des Compressed Sensing sowie eine Deep Learning Methode. Anhand neuartiger synthetischer und realer Datensätze werden die vorgeschlagenen Rekonstruktionsansätze im Detail evaluiert

    Image Color Correction, Enhancement, and Editing

    Get PDF
    This thesis presents methods and approaches to image color correction, color enhancement, and color editing. To begin, we study the color correction problem from the standpoint of the camera's image signal processor (ISP). A camera's ISP is hardware that applies a series of in-camera image processing and color manipulation steps, many of which are nonlinear in nature, to render the initial sensor image to its final photo-finished representation saved in the 8-bit standard RGB (sRGB) color space. As white balance (WB) is one of the major procedures applied by the ISP for color correction, this thesis presents two different methods for ISP white balancing. Afterwards, we discuss another scenario of correcting and editing image colors, where we present a set of methods to correct and edit WB settings for images that have been improperly white-balanced by the ISP. Then, we explore another factor that has a significant impact on the quality of camera-rendered colors, in which we outline two different methods to correct exposure errors in camera-rendered images. Lastly, we discuss post-capture auto color editing and manipulation. In particular, we propose auto image recoloring methods to generate different realistic versions of the same camera-rendered image with new colors. Through extensive evaluations, we demonstrate that our methods provide superior solutions compared to existing alternatives targeting color correction, color enhancement, and color editing

    Efficient Object Detection in Mobile and Embedded Devices with Deep Neural Networks

    Get PDF
    [EN] Neural networks have become the standard for high accuracy computer vision. These algorithms can be built with arbitrarily large architectures to handle an ever growing complexity in the data they process. State of the art neural network architectures are primarily concerned with increasing the recognition accuracy when performing inference on an image, which creates an insatiable demand for energy and compute power. These models are primarily targeted to run on dense compute units such as GPUs. In recent years, demand to allow these models to execute in limited capacity environments such as smartphones, however even the most compact variations of these state of the art networks constantly push the boundaries of the power envelop under which they run. With the emergence of the Internet of Things, it is becoming a priority to enable mobile systems to perform image recognition at the edge, but with small energy requirements. This thesis focuses on the design and implementation of an object detection neural network that attempts to solve this problem, providing reasonable accuracy rates with extremely low compute power requirements. This is achieved by re-imagining the meta architecture of traditional object detection models and discovering a mechanism to classify and localize objects through a set of neural network based algorithms that are better aimed to mobile and embedded devices. The main contributions of this thesis are: (i) provide a better image processing algorithm that is more suitable at preparing data for consumption by taking advantage of the characteristics of the ISP available in these devices; (ii) provide a neural network architecture that maintains acceptable accuracy targets with minimal computational requirements by making efficient use of basic neural algorithms; and (iii) provide a programming framework for how these systems can be most efficiently implemented in a manner that is optimized for the underlying hardware units available in these devices by taking into account memory and computation restrictions

    A Study of Colour Rendering in the In-Camera Imaging Pipeline

    Get PDF
    Consumer cameras such as digital single-lens reflex camera (DSLR) and smartphone cameras have onboard hardware that applies a series of processing steps to transform the initial captured raw sensor image to the final output image that is provided to the user. These processing steps collectively make up the in-camera image processing pipeline. This dissertation aims to study the processing steps related to colour rendering which can be categorized into two stages. The first stage is to convert an image's sensor-specific raw colour space to a device-independent perceptual colour space. The second stage is to further process the image into a display-referred colour space and includes photo-finishing routines to make the image appear visually pleasing to a human. This dissertation makes four contributions towards the study of camera colour rendering. The first contribution is the development of a software-based research platform that closely emulates the in-camera image processing pipeline hardware. This platform allows the examination of the various image states of the captured image as it is processed from the sensor response to the final display output. Our second contribution is to demonstrate the advantage of having access to intermediate image states within the in-camera pipeline that provide more accurate colourimetric consistency among multiple cameras. Our third contribution is to analyze the current colourimetric method used by consumer cameras and to propose a modification that is able to improve its colour accuracy. Our fourth contribution is to describe how to customize a camera imaging pipeline using machine vision cameras to produce high-quality perceptual images for dermatological applications. The dissertation concludes with a summary and future directions

    OpenCL acceleration on FPGA vs CUDA on GPU

    Get PDF

    Evaluation of tone-mapping algorithms for focal-plane implementation

    Get PDF
    Scenes in the real world may simultaneously contain very bright and very dark regions, caused by different illumination conditions. These scenes contain a wide range of different light intensity values. Attempting to exhibit a picture of such scene on a conventional display device, such as a computer monitor, leads to (a possibly large) loss of details in the displayed scene, since conventional display devices can only represent a limited amount of different light intensity values, which span a smaller range. To mitigate the loss of details, before it is shown on the display device, the picture of the scene must be processed by a tone-mapping algorithm, which maps the original light intensities into the light intensities representable by the display, thereby accommodating the input high dynamic range of values into a smaller range. In this work, a comparison between different tone-mapping algorithms is presented. More specifically, the performances (regarding processing time and overall quality of the processed image) from a digital version of the tone-mapping operator originally proposed by Fern´andez-Berni et al. [11] that is implemented in the focal plane of the camera and from different tone-mapping operators that are originally implemented in software are compared. Furthermore, a second digital version of the focal-plane operator, which simulates a modified version of the original hardware implementation, is considered and its performance is analyzed. The modified hardware implementation is less complex and requires less space than the original implementation and, subjectively, keeps the overall image quality approximately equal to that achieved by digital operators. Issues regarding colors of the tone-mapped images are also addressed, especially the required processing that must be performed by the focal-plane operator after the tone mapping, in order to yield images without color distortions.Cenas no mundo real podem conter uma ampla faixa de valores de diferentes intensidades luminosas. Mostrar a cena original em um aparelho de exibição convencional, tal como um monitor de computador, leva a uma (possivelmente grande) perda de detalhes na cena exibida, uma vez que esses aparelhos são capazes de representar somente uma quantidade limitada de diferentes intensidades luminosas, as quais ocupam uma faixa de valores menor. Para diminuir a perda de detalhes, antes de ser exibida em tais aparelhos, a cena deve ser processada por um algoritmo de tone mapping, o qual mapeia os valores originais de intensidade luminosa em valores que são representáveis pelo aparelho de exibição, acomodando, com isso, a alta faixa dinâmica dos valores de entrada em uma faixa de valores menor. Neste trabalho, uma comparação entre diferentes algoritmos de tone-mapping é apresentada. Mais especificamente, são comparados entre si os desempenhos (referentes a tempos de execução e qualidade geral da imagem processada) da versão digital do operador de tone mapping originalmente proposto por Fernández-Berni et al. [11] que ´e implementado no plano focal da câmera e de diferentes operadores de tone mapping que são originalmente implementados em software. Além disso, uma segunda versão digital do operador no plano focal, a qual simula uma versão modificada da implementação original em hardware, é considerada e seu desempenho é analisado. Essa versão modificada requer um hardware que é menos complexo e ocupa menos espaço que o hardware da implementação original, além de, subjetivamente, manter a qualidade geral da imagem próxima daquela alcançada por operadores digitais. Questões referentes às cores das imagens processadas também são tratadas, especialmente os processamentos que são requeridos pelo operador do plano focal após o tone mapping, de modo a gerar imagens sem distorções de cor
    corecore