35 research outputs found

    Reverse tone mapping for suboptimal exposure conditions

    Get PDF
    La mayor parte de las imágenes y videos existentes son de bajo rango dinámico (generalmente denominado LDR por las siglas del término en inglés, low dynamic range). Se denominan así porque, al utilizar sólo 8 bits por canal (R,G,B) para almacenarlas, sólo son capaces de reproducir dos órdenes de magnitud en luminancia (mientras que el sistema visual humano puede percibir hasta cinco órdenes de magnitud simultáneamente). En los últimos años hemos asistido al nacimiento y expansión de las tecnologías de alto rango dinámico (HDR por sus siglas en inglés), que utilizan hasta 32 bits/canal, permitiendo representar más fielmente el mundo que nos rodea. Paulatinamente el HDR se va haciendo más presente en los pipelines de adquisición, procesamiento y visualización de imágenes, y como con el advenimiento de cualquier nueva tecnología que sustituye a una anterior, surgen ciertos problemas de compatibilidad. En particular, el presente trabajo se centra en el problema denominado reverse tone mapping: dado un monitor de alto rango dinámico, cuál es la forma óptima de visualizar en él todo el material ya existente en bajo rango dinámico (imágenes, vídeos...). Lo que hace un operador de reverse tone mapping (rTMO) es tomar la imagen LDR como entrada y ajustar el contraste de forma inteligente para dar una imagen de salida que reproduzca lo más fielmente posible la escena original. Dado que hay información de la escena original que se ha perdido irreversiblemente al tomar la fotografía en LDR, el problema es intrínsecamente ill-posed o mal condicionado. En este trabajo, en primer lugar, se ha realizado una serie de experimentos psicofísicos utilizando un monitor HDR Brightside para evaluar el funcionamiento de los operadores de reverse tone mapping existentes. Los resultados obtenidos muestran que los actuales operadores fallan -o no ofrecen resultados convincentes- cuando las imágenes de entrada no están expuestas correctamente. Los rTMO existentes funcionan bien con imágenes bien expuestas o subexpuestas, pero la calidad percibida se degrada sustancialmente con la sobreexposición, hasta el punto de que en algunos casos los sujetos prefieren las imágenes originales en LDR a imágenes que han sido procesadas con rTMOs. Teniendo esto en cuenta, el segundo paso ha sido diseñar un rTMO para esos casos en los que los algoritmos existentes fallan. Para imágenes de entrada sobreexpuestas, proponemos un rTMO simple basado en una expansión gamma que evita los errores introducidos por otros métodos, así como un método para fijar automáticamente un valor de gamma para cada imagen basado en el key de la imagen y en datos empíricos. En tercer lugar se ha hecho la validación de los resultados, tanto mediante experimentos psicofísicos como utilizando una métrica objetiva de reciente publicación. Por otro lado, se ha realizado también otra serie de experimentos con el monitor HDR que sugieren que los artefactos espaciales introducidos por los operadores de reverse tone mapping son más determinantes de cara a la calidad final percibida por los sujetos que imprecisiones en las intensidades expandidas. Adicionalmente, como subproyecto menor, se ha explorado la posibilidad de abordar el problema desde un enfoque de más alto nivel, incluyendo información semántica y de saliencia. La mayor parte de este trabajo ha sido publicada en un artículo publicado en la revista Transactions on Graphics (índice JCR 2009 2/93 en la categoría de Computer Science, Software Engineering, con un índice de impacto a 5 años de 5.012, el más alto de su categoría). Además, el Transactions on Graphics está considerado como la mejor revista en el campo de informática gráfica. Otra publicación que cubre parte de este trabajo ha sido aceptada en el Congreso Español de Informática Gráfica 2010. Como medida adicional de la relevancia del trabajo aquí presentado, los dos libros existentes hasta la fecha (hasta donde sabemos) escritos por expertos en el campo de HDR dedican varias páginas a tratar el trabajo aquí expuesto (ver [2, 3]). Esta investigación ha sido realizada en colaboración con Roland Fleming, del Max Planck Institute for Biological Cybernetics, y Olga Sorkine, de New York University

    Audio-visual saliency prediction for 360◦ video via deep learning.

    Get PDF
    The interest in virtual reality (VR) has rapidly grown in recent years, being now widely available to consumers in different forms. This technology provides an unprecedented level of immersion, creating many new possibilities that could change the way people experience digital content. Understanding how users behave and interact with virtual experiences could be decisive for many different applications such as designing better virtual experiences, advanced compression techniques, or medical diagnosis.One of the most critical areas in the study of human behaviour is visual attention. It refers to to the qualities that different items have which makes them stand out and attract our attention.Despite the fact that there have been significant advances in this field in recent years, saliency prediction remains a very challenging problem due to the many factors that affect the behaviour of the observer, such as stimuli sources of different types or users having different backgrounds and emotional states. On top of that, saliency prediction for VR content is even more difficult as this form of media presents additional challenges such as distortions, users having control of the camera, or different stimuli possibly being located outside the current view of the observer.This work proposes a novel saliency prediction solution for 360◦ video based on deep learning. Deep learning has been proven to obtain outstanding results in many different image and video tasks, including saliency prediction. Although most works in this field focus solely on visual information, the proposed model incorporates both visual and directional audio information with the objective of obtaining more accurate predictions. It uses a series of convolutional neural networks (CNNs) specially designed for VR content, and it is able to learn spatio-temporal visual and auditory features by using three-dimensional convolutions. It is the first solution to make use of directional audio without the need for a hand-crafted attention modelling technique. The proposed model is evaluated using a publicly available dataset. The results show that it outperforms previous state-of-the-art work in both quantitative and qualitative analysis. Additionally, various ablation studies are presented, supporting the decisions made during the design phase of the model.<br /

    Deep learning models for 3D mesh saliency prediction.

    Get PDF
    El estudio de la atención visual humana ha sido ampliamente explorado en muchos trabajos. Consiste en detectar e identificar las regiones del estímulo que más llaman la atención del usuario, generalmente utilizando un eye tracker para recolectar los datos. Esta medida de las regiones de interés se conoce como saliencia, y su detección y modelado es un problema fundamental en gráficos por computadora y visión por computadora. Esta tesis de fin de máster presenta un modelo de predicción de salienia para nubes de puntos basado en aprendizaje profundo.<br /

    The joint role of geometry and illumination on material recognition

    Get PDF
    Observing and recognizing materials is a fundamental part of our daily life. Under typical viewing conditions, we are capable of effortlessly identifying the objects that surround us and recognizing the materials they are made of. Nevertheless, understanding the underlying perceptual processes that take place to accurately discern the visual properties of an object is a long-standing problem. In this work, we perform a comprehensive and systematic analysis of how the interplay of geometry, illumination, and their spatial frequencies affects human performance on material recognition tasks. We carry out large-scale behavioral experiments where participants are asked to recognize different reference materials among a pool of candidate samples. In the different experiments, we carefully sample the information in the frequency domain of the stimuli. From our analysis, we find significant first-order interactions between the geometry and the illumination, of both the reference and the candidates. In addition, we observe that simple image statistics and higher-order image histograms do not correlate with human performance. Therefore, we perform a high-level comparison of highly nonlinear statistics by training a deep neural network on material recognition tasks. Our results show that such models can accurately classify materials, which suggests that they are capable of defining a meaningful representation of material appearance from labeled proximal image data. Last, we find preliminary evidence that these highly nonlinear models and humans may use similar high-level factors for material recognition tasks

    Modeling human visual behavior in dynamic 360º environments.

    Get PDF
    Virtual reality (VR) is rapidly growing: Advances in hardware, together with the current high computational power, are driving this technology, which has the potential to change the way people consume content, and has been predicted to become the next big computing paradigm. However, although it has become accessible at a consumer level, much still remains unknown about the grammar and visual language in this medium. Understanding and predicting how humans behave in virtual environments remains an open problem, since the visual behavior known for traditional screen-based content does not hold for immersive VR environments: In VR, the user has total control of the camera, and therefore content creators cannot ensure where viewers’ attention will be directed to. This understanding of visual behavior, however, can be crucial in many applications, such as novel compression and rendering techniques, content design, or virtual tourism, among others. Some works have been devoted to analyzing and modeling human visual behavior. Most of them have focused on identifying the content’s regions that attract the observers’ visual attention, resorting to saliency as a topological measure of what part of a virtual scene might be of more interest. When consuming virtual reality content, which can be either static (i.e., 360◦ images) or dynamic (i.e., 360◦ videos), there are many factors that affect human visual behavior, which are mainly associated with the scene shown in the VR video or image (e.g., colors, shapes, movements, etc.), but also depend on the subjects observing it (their mood and background, the task being performed, previous knowledge, etc.). Therefore, all these variables affecting saliency make its prediction a challenging task. This master thesis presents a novel saliency prediction model for VR videos based on a deep learning approach (DL). DL networks have shown outstanding results in image processing tasks, automatically inferring the most relevant information from images. The proposed model is the first to exploit the joint potential of convolutional (CNN) and recurrent (RNN) neural networks to extract and model the inherent spatio-temporal features from videos, employing RNNs to account for temporal information at the time of feature extraction, rather than to post-process spatial features as in previous works. It is also tailored to the particularities of dynamic VR videos, with the use of spherical convolutions and a novel spherical loss function for saliency prediction that work on a 3D space rather than in traditional image space. To facilitate spatio-temporal learning, this work is also the first in including the optical flow between 360◦ frames for saliency prediction, since movement is known to be a highly salient feature in dynamic content. The proposed model was evaluated qualitatively and quantitatively, proving to outperform state-of-the-art works. Moreover, an exhaustive ablation study demonstrates the effectiveness of the different design decisions made throughout the development of the model. <br /

    Fotografía computacional : aperturas codificas para estimación de profundidad y corrección de desenfoque

    Get PDF
    La expansión e implantación de la fotografía digital en los últimos años ha hecho surgir el concepto de Fotografía Computacional, un nuevo campo multidisciplinar que abarca temas de óptica, procesamiento de imágenes, informática gráfica, percepción o visión por computador. Una cámara convencional captura una proyección 2D de escenas reales 3D. Uno de los problemas inherentes a este proceso de captura es la limitada profundidad de campo, que causa la aparición de zonas borrosas en partes de la escena que se encuentran alejadas del plano focal. Otro problema, objeto de muchos trabajos de investigación, es la recuperación de las profundidades de la escena, perdidas en una captura convencional. El objetivo de este proyecto es la obtención tanto de la información de profundidad de la escena, como de una imagen nítida recuperando el enfoque en las zonas borrosas (“deblurring”). En este proyecto se propone como solución el uso de aperturas codificadas, ya usadas durante décadas en campos como la óptica o la astronomía, insertando una máscara en el objetivo de la cámara que modifique la apertura circular de la cámara; obteniendo una respuesta en el dominio frecuencial más favorable que la de una apertura circular convencional. Lo que hacen, esencialmente, estos patrones, es codificar ópticamente la luz que llega al sensor de una forma en que, tras la posterior decodificación, se pueda recuperar más información de la escena que con una apertura convencional. Esto nos permite estimar, mediante el análisis del grado de desenfoque de la zona de la escena, la profundidad a la que se encuentra respecto del plano de enfoque, lo que se conoce como "profundidad a partir del desenfoque"(DFD, depth from defocus ). Asimismo permite una recuperación de la imagen enfocada mediante técnicas de deconvolución más o menos complejas. La imagen nítida resultante y el mapa de profundidades pueden ser combinados para múltiples e interesantes aplicaciones fotográficas, que incluyen segmentación de la escena automática, selección de distintos objetos o profundidades de la escena y reenfoque como postproceso. Se explora en este proyecto tanto el uso de una única apertura codificada como el uso de pares de aperturas codificadas. En primer lugar se selecciona bajo ciertos criterios una apertura codificada diseñada para DFD. Para esta apertura se estudia la obtención de mapas de profundidad y además se analiza el problema de re-enfoque (“ deblurring”) mediante el estudio y comparativa de distintos métodos de deconvolución. En segundo lugar se implementa un método de optimización que permita obtener pares de aperturas codificadas óptimas para DFD. Finalmente se realizan validaciones tanto por simulación como sobre soporte físico de las aperturas codificadas seleccionadas; mostrando y realizando una comparativa de los resultados obtenidos. Además se explora la introducción de valores no binarios en los patrones de aperturas codificadas. En la mayoría de estudios previos se indica que se limita el espacio de búsqueda a píxeles opacos y transparentes principalmente por costes computacionales, sin existir otras razones de peso, por lo que se decide diseñar aperturas codificadas no binarias (semitransparentes). Aunque los resultados obtenidos no son en ningún caso concluyentes, los primeros indicios muestran que no debe limitarse el espacio de búsqueda de la apertura codificada a espacios binarios, ya que las aperturas no binarias presentan resultados mejores. Este estudio de investigación se incluyó en una publicación aceptada en el Congreso Ibero-americano de Informática Gráfica (SIAGC 2011), resultando entre las tres mejores publicaciones del congreso

    Estimación de profundidad a partir de una única imagen 360° mediante aprendizaje profundo

    Get PDF
    La Realidad Virtual (RV) es un paradigma de interacción persona-ordenador que ha ganado relevancia en los últimos años. Un tipo de contenido a mostrar en RV son las imágenes equirrectangulares (imágenes 360° o panoramas 360°). Por su forma de captura, generalmente carecen de información de profundidad precisa asociada a las mismas, información que resulta útil tener para distintas aplicaciones. El objetivo de este proyecto es crear y evaluar un sistema basado en aprendizaje profundo capaz de estimar la profundidad de una imagen 360°.Para alcanzar el objetivo de este trabajo, se han planteado una serie de modelos basados en aprendizaje profundo, y en concreto en redes neuronales convolucionales, utilizando convoluciones tradicionales y esféricas, y funciones de pérdida típicas, como el error cuadrático medio, también en ambas versiones (convencional y esférica). Las versiones esféricas tienen la propiedad de tratar los datos de manera diferente, enfocándose en los rasgos de las imágenes equirrectangulares. Seguidamente, se han evaluado los diferentes sistemas propuestos entre ellos y frente a otros sismteas similares.<br /

    Application of resistance training in women with fibromyalgia

    Get PDF
    La fibromialgia (FM) es una enfermedad reumatológica asociada a fatiga y dolor crónico con una gran prevalencia en mujeres, afectando negativamente a la calidad de vida recomendando el ejercicio físico como terapia no farmacológica. Por lo tanto, el objetivo fue valorar y analizar los efectos de un programa de entrenamiento de fuerza con bandas elásticas en mujeres diagnosticadas de FM. MÉTODO: 6 mujeres diagnosticadas de FM, con una media de edad de 56 (5.73) años, realizaron un programa fortalecimiento muscular con bandas elásticas, con una duración de 5 semanas a razón de 2 días por semana. Se analizó: i) La calidad de vida (SF-36); ii) El impacto de la enfermedad (FIQ); iii) La condición física (Senior Fitness Test); iv) La calidad de sueño (PSQI). RESULTADOS: Se registraron mejoras significativas sobre el impacto de la enfermedad (18,5%), la calidad de vida (30%) y la fuerza en miembros superiores (23%) e inferiores (28%). CONCLUSIÓN: Un programa de entrenamiento de fuerza con bandas elásticas y autocargas con una organización en circuito generó mejoras en la fuerza muscular de miembros superiores e inferiores y la calidad de vida sin empeorar la sintomatología propia de la enfermedad.Fibromyalgia (FM) is a rheumatic disease associated with fatigue and chronic pain with a high prevalence in women, FM impair the quality of life. It has been recommended physical exercise as a non-pharmacological therapy. Therefore, the objective was to assess and analyze the effects of a resistance training program with elastic bands in women diagnosed with FM. METHOD: 6 women diagnosed with FM, with a mean age of 56 (5.73) years, completed an elastic bands resistance training program with a duration of 5 weeks at a rate of 2 days per week. Before and after the intervention, were evaluated: i) Quality of life (SF-36); ii) The impact of the disease (FIQ); iii) The physical condition (Senior Fitness Test); iv) Sleep quality (PSQI). RESULTS: It was registered, significant improvements were obtained on the impact of the disease (18.5%), quality of life (30%) and strength in upper (23%) and lower (28%) body. CONCLUSION: A circuit of resistance training program with elastic bands and bodyweight exercise obtained improvements in lower and upper body muscle strength and quality of life without worsening the symptoms of the disease.peerReviewe

    Transferencia de textura y estilo entre imágenes utilizando redes neuronales convolucionales: un enfoque orientado a la conservación de contenido

    Get PDF
    Este proyecto se sitúa en el campo de la computación gráfica y el procesado digital de imagen. El proyecto se centra en el planteamiento de un sistema de procesado de imagen mediante el uso de redes neuronales convolucionales. Uno de los campos dentro de la computación gráfica y el procesado de imagen, objeto de investigación en los últimos años ha sido la transferencia de texturas y estilos entre imágenes mediante la aplicación y utilización de diferentes técnicas. Una de estas técnicas nace con la introducción de redes neuronales en el campo de la imagen computacional. Dentro de este campo nos encontramos con alguna limitación que tratamos de resolver, la principal era que estos sistemas realizaban una transferencia de estilo entre imágenes de forma que distorsionaban la información de contenido de la imagen que aportaba la estructura a la imagen final (pequeños detalles, líneas y bordes se perdían). Uno de nuestros objetivos principales fue desarrollar un sistema que corrigiese esos errores de forma que se consiguiese una transferencia de estilo similar a la propuesta en el estado del arte, pero poniendo concienciación en mantener la información de estructura y contenido de la imagen final

    Reenfocado de imágenes de alto rango dinámico con aperturas codificadas y aperturas múltiples

    Get PDF
    En los últimos años, la investigación en el campo de la Fotografía Computacional ha dado lugar a numerosos avances en las múltiples disciplinas que lo componen, rebasando los límites de la fotografía convencional. Uno de estos límites es la incapacidad de las cámaras fotográficas de representar toda la gama de luminancias presentes en una escena, y que se solucionó tras la aparición de la técnica del alto rango dinámico o HDR (High Dynamic Range). Esta técnica permite fusionar una serie de imágenes de una escena, capturadas con distintos parámetros de exposición, de modo que la imagen resultante recoge todo el rango dinámico conjunto de las imágenes empleadas para su obtención. En este proyecto se ha trabajado con imágenes HDR, y en particular con el problema de reenfocado de las mismas. El desenfoque, provocado por la limitada profundidad de campo o por una incorrecta elección de los parámetros de la cámara, es un problema clásico en fotografia. Se han implementado y analizado dos técnicas diferentes de reenfocado de imágenes HDR. La primera de ellas consiste en el empleo de aperturas codificadas, máscaras que se colocan en la lente de la cámara y que permiten codificar el desenfoque, facilitando su corrección a posteriori mediante técnicas computacionales. El empleo de aperturas codificadas es habitual en el reenfocado de imágenes convencionales de bajo rango dinámico o LDR (Low Dynamic Range), pero hasta la fecha estas técnicas no se habían extendido a las imágenes HDR y se desconocía su viabilidad. La segunda técnica que se estudia es la de generación y reenfoque de imágenes HDR con aperturas múltiples. Con esta técnica se emplean imágenes de una misma escena obtenidas variando el tamaño de la apertura, por lo que no sólo varía la exposición entre ellas, sino también el desenfoque. Gracias a ello, se permite obtener al mismo tiempo información sobre la luminancia y sobre la profundidad de la escena, permitiendo obtener fotografías HDR de la misma, que además pueden ser reenfocadas como se desee
    corecore