33,000 research outputs found
Reverse tone mapping for suboptimal exposure conditions
La mayor parte de las imágenes y videos existentes son de bajo rango dinámico (generalmente denominado LDR por las siglas del término en inglés, low dynamic range). Se denominan así porque, al utilizar sólo 8 bits por canal (R,G,B) para almacenarlas, sólo son capaces de reproducir dos órdenes de magnitud en luminancia (mientras que el sistema visual humano puede percibir hasta cinco órdenes de magnitud simultáneamente). En los últimos años hemos asistido al nacimiento y expansión de las tecnologías de alto rango dinámico (HDR por sus siglas en inglés), que utilizan hasta 32 bits/canal, permitiendo representar más fielmente el mundo que nos rodea. Paulatinamente el HDR se va haciendo más presente en los pipelines de adquisición, procesamiento y visualización de imágenes, y como con el advenimiento de cualquier nueva tecnología que sustituye a una anterior, surgen ciertos problemas de compatibilidad. En particular, el presente trabajo se centra en el problema denominado reverse tone mapping: dado un monitor de alto rango dinámico, cuál es la forma óptima de visualizar en él todo el material ya existente en bajo rango dinámico (imágenes, vídeos...). Lo que hace un operador de reverse tone mapping (rTMO) es tomar la imagen LDR como entrada y ajustar el contraste de forma inteligente para dar una imagen de salida que reproduzca lo más fielmente posible la escena original. Dado que hay información de la escena original que se ha perdido irreversiblemente al tomar la fotografía en LDR, el problema es intrínsecamente ill-posed o mal condicionado. En este trabajo, en primer lugar, se ha realizado una serie de experimentos psicofísicos utilizando un monitor HDR Brightside para evaluar el funcionamiento de los operadores de reverse tone mapping existentes. Los resultados obtenidos muestran que los actuales operadores fallan -o no ofrecen resultados convincentes- cuando las imágenes de entrada no están expuestas correctamente. Los rTMO existentes funcionan bien con imágenes bien expuestas o subexpuestas, pero la calidad percibida se degrada sustancialmente con la sobreexposición, hasta el punto de que en algunos casos los sujetos prefieren las imágenes originales en LDR a imágenes que han sido procesadas con rTMOs. Teniendo esto en cuenta, el segundo paso ha sido diseñar un rTMO para esos casos en los que los algoritmos existentes fallan. Para imágenes de entrada sobreexpuestas, proponemos un rTMO simple basado en una expansión gamma que evita los errores introducidos por otros métodos, así como un método para fijar automáticamente un valor de gamma para cada imagen basado en el key de la imagen y en datos empíricos. En tercer lugar se ha hecho la validación de los resultados, tanto mediante experimentos psicofísicos como utilizando una métrica objetiva de reciente publicación. Por otro lado, se ha realizado también otra serie de experimentos con el monitor HDR que sugieren que los artefactos espaciales introducidos por los operadores de reverse tone mapping son más determinantes de cara a la calidad final percibida por los sujetos que imprecisiones en las intensidades expandidas. Adicionalmente, como subproyecto menor, se ha explorado la posibilidad de abordar el problema desde un enfoque de más alto nivel, incluyendo información semántica y de saliencia. La mayor parte de este trabajo ha sido publicada en un artículo publicado en la revista Transactions on Graphics (índice JCR 2009 2/93 en la categoría de Computer Science, Software Engineering, con un índice de impacto a 5 años de 5.012, el más alto de su categoría). Además, el Transactions on Graphics está considerado como la mejor revista en el campo de informática gráfica. Otra publicación que cubre parte de este trabajo ha sido aceptada en el Congreso Español de Informática Gráfica 2010. Como medida adicional de la relevancia del trabajo aquí presentado, los dos libros existentes hasta la fecha (hasta donde sabemos) escritos por expertos en el campo de HDR dedican varias páginas a tratar el trabajo aquí expuesto (ver [2, 3]). Esta investigación ha sido realizada en colaboración con Roland Fleming, del Max Planck Institute for Biological Cybernetics, y Olga Sorkine, de New York University
Model-Based Image Signal Processors via Learnable Dictionaries
Digital cameras transform sensor RAW readings into RGB images by means of
their Image Signal Processor (ISP). Computational photography tasks such as
image denoising and colour constancy are commonly performed in the RAW domain,
in part due to the inherent hardware design, but also due to the appealing
simplicity of noise statistics that result from the direct sensor readings.
Despite this, the availability of RAW images is limited in comparison with the
abundance and diversity of available RGB data. Recent approaches have attempted
to bridge this gap by estimating the RGB to RAW mapping: handcrafted
model-based methods that are interpretable and controllable usually require
manual parameter fine-tuning, while end-to-end learnable neural networks
require large amounts of training data, at times with complex training
procedures, and generally lack interpretability and parametric control. Towards
addressing these existing limitations, we present a novel hybrid model-based
and data-driven ISP that builds on canonical ISP operations and is both
learnable and interpretable. Our proposed invertible model, capable of
bidirectional mapping between RAW and RGB domains, employs end-to-end learning
of rich parameter representations, i.e. dictionaries, that are free from direct
parametric supervision and additionally enable simple and plausible data
augmentation. We evidence the value of our data generation process by extensive
experiments under both RAW image reconstruction and RAW image denoising tasks,
obtaining state-of-the-art performance in both. Additionally, we show that our
ISP can learn meaningful mappings from few data samples, and that denoising
models trained with our dictionary-based data augmentation are competitive
despite having only few or zero ground-truth labels.Comment: AAAI 202
Deep Bilateral Learning for Real-Time Image Enhancement
Performance is a critical challenge in mobile image processing. Given a
reference imaging pipeline, or even human-adjusted pairs of images, we seek to
reproduce the enhancements and enable real-time evaluation. For this, we
introduce a new neural network architecture inspired by bilateral grid
processing and local affine color transforms. Using pairs of input/output
images, we train a convolutional neural network to predict the coefficients of
a locally-affine model in bilateral space. Our architecture learns to make
local, global, and content-dependent decisions to approximate the desired image
transformation. At runtime, the neural network consumes a low-resolution
version of the input image, produces a set of affine transformations in
bilateral space, upsamples those transformations in an edge-preserving fashion
using a new slicing node, and then applies those upsampled transformations to
the full-resolution image. Our algorithm processes high-resolution images on a
smartphone in milliseconds, provides a real-time viewfinder at 1080p
resolution, and matches the quality of state-of-the-art approximation
techniques on a large class of image operators. Unlike previous work, our model
is trained off-line from data and therefore does not require access to the
original operator at runtime. This allows our model to learn complex,
scene-dependent transformations for which no reference implementation is
available, such as the photographic edits of a human retoucher.Comment: 12 pages, 14 figures, Siggraph 201
LHDR: HDR Reconstruction for Legacy Content using a Lightweight DNN
High dynamic range (HDR) image is widely-used in graphics and photography due
to the rich information it contains. Recently the community has started using
deep neural network (DNN) to reconstruct standard dynamic range (SDR) images
into HDR. Albeit the superiority of current DNN-based methods, their
application scenario is still limited: (1) heavy model impedes real-time
processing, and (2) inapplicable to legacy SDR content with more degradation
types. Therefore, we propose a lightweight DNN-based method trained to tackle
legacy SDR. For better design, we reform the problem modeling and emphasize
degradation model. Experiments show that our method reached appealing
performance with minimal computational cost compared with others.Comment: Accepted in ACCV202
Redistributing the Precision and Content in 3D-LUT-based Inverse Tone-mapping for HDR/WCG Display
ITM(inverse tone-mapping) converts SDR (standard dynamic range) footage to
HDR/WCG (high dynamic range /wide color gamut) for media production. It happens
not only when remastering legacy SDR footage in front-end content provider, but
also adapting on-theair SDR service on user-end HDR display. The latter
requires more efficiency, thus the pre-calculated LUT (look-up table) has
become a popular solution. Yet, conventional fixed LUT lacks adaptability, so
we learn from research community and combine it with AI. Meanwhile,
higher-bit-depth HDR/WCG requires larger LUT than SDR, so we consult
traditional ITM for an efficiency-performance trade-off: We use 3 smaller LUTs,
each has a non-uniform packing (precision) respectively denser in dark, middle
and bright luma range. In this case, their results will have less error only in
their own range, so we use a contribution map to combine their best parts to
final result. With the guidance of this map, the elements (content) of 3 LUTs
will also be redistributed during training. We conduct ablation studies to
verify method's effectiveness, and subjective and objective experiments to show
its practicability. Code is available at: https://github.com/AndreGuo/ITMLUT.Comment: Accepted in CVMP2023 (the 20th ACM SIGGRAPH European Conference on
Visual Media Production
- …