Search CORE

2 research outputs found

STB-VMM: Swin Transformer Based Video Motion Magnification

Author: Lado-Roigé Ricard
Pérez Marco A.
Publication venue: 'Elsevier BV'
Publication date: 27/03/2023
Field of study

The goal of video motion magnification techniques is to magnify small motions in a video to reveal previously invisible or unseen movement. Its uses extend from bio-medical applications and deepfake detection to structural modal analysis and predictive maintenance. However, discerning small motion from noise is a complex task, especially when attempting to magnify very subtle, often sub-pixel movement. As a result, motion magnification techniques generally suffer from noisy and blurry outputs. This work presents a new state-of-the-art model based on the Swin Transformer, which offers better tolerance to noisy inputs as well as higher-quality outputs that exhibit less noise, blurriness, and artifacts than prior-art. Improvements in output image quality will enable more precise measurements for any application reliant on magnified video sequences, and may enable further development of video motion magnification techniques in new technical fields.Comment: Code available at: https://github.com/RLado/STB-VM

arXiv.org e-Print Archive

Leveraging learning-based computer vision for vibration informed structural diagnosis

Author: Lado Roigé Ricard
Publication venue: Blanquerna - Universitat Ramon Llull
Publication date: 19/12/2023
Field of study

Els nous sistemes de monitoratge basats en la visió presenten una proposta de valor convincent dins de l'àmbit de les aplicacions de monitoratge de la salut estructural (SHM). Serveixen com una alternativa no intrusiva als sensors convencionals basats en el contacte, capaços de capturar mesures exhaustives a tot el camp estructural, fins i tot quan es col·loquen a distàncies considerables de l'estructura. Aquesta característica inherent fa que les tècniques basades en la visió siguin molt rendibles en comparació amb les seves contraparts basades en el contacte. No obstant això, aquestes tècniques, encara que prometedores, encara presenten algunes limitacions tècniques degudes a la seva relativa immaduresa. L'objectiu principal d'aquesta tesi és desenvolupar, millorar i validar una metodologia d'última generació de visió per ordinador basada en l'amplificació del moviment de vídeo basada en l'aprenentatge. Aquesta metodologia està dissenyada específicament per facilitar la implementació d'estratègies SHM en estructures complexes, utilitzant mitjans òptics per capturar dades de camp complet. La recerca realitzada en aquesta tesi estableix la capacitat robusta de les tècniques d'amplificació del moviment de vídeo basades en l'aprenentatge per amplificar amb precisió i consistència els moviments estructurals intricats. En conseqüència, això permet la detecció precisa de canvis subtils en la resposta dinàmica de l'estructura sotmesa a escrutini. A més, la integració de l'amplificació del moviment de vídeo eulerià amb tècniques avançades d'aprenentatge profund, com ara els transformadors visuals i les xarxes neuronals convolucionals, eleva significativament tant la precisió com l'eficiència més enllà del que actualment es considera l'estat de l'art en la qualitat d'imatge de l'amplificació del moviment de vídeo. A més d'aquests assoliments tècnics, aquest treball també proporciona una metodologia completa i un conjunt d'eines de programari que poden resultar inestimables per als investigadors i enginyers que es dediquen al monitoratge i manteniment eficaços i eficients d'estructures complexes.Los nuevos sistemas de monitoreo basados en la visión presentan una propuesta de valor convincente en el ámbito de las aplicaciones de monitoreo de la salud estructural (SHM). Sirven como una alternativa no intrusiva a los sensores convencionales basados en el contacto, capaces de capturar mediciones exhaustivas en todo el campo estructural, incluso cuando se colocan a distancias considerables de la estructura. Esta característica inherente hace que las técnicas basadas en la visión sean muy rentables en comparación con sus contrapartes basadas en el contacto. Sin embargo, estas técnicas, aunque prometedoras, aún presentan algunas limitaciones técnicas debido a su relativa inmadurez. El objetivo principal de esta tesis es desarrollar, mejorar y validar una metodología de vanguardia de visión por ordenador basada en la amplificación del movimiento de video basada en el aprendizaje. Esta metodología está diseñada específicamente para facilitar la implementación de estrategias SHM en estructuras complejas, utilizando medios ópticos para capturar datos de campo completo. La investigación realizada en esta tesis establece la capacidad robusta de las técnicas de amplificación del movimiento de video basadas en el aprendizaje para amplificar con precisión y consistencia los movimientos estructurales intrincados. En consecuencia, esto permite la detección precisa de cambios sutiles en la respuesta dinámica de la estructura sometida a escrutinio. Además, la integración de la amplificación del movimiento de video euleriano con técnicas avanzadas de aprendizaje profundo, como transformadores visuales y redes neuronales convolucionales, eleva significativamente tanto la precisión como la eficiencia más allá de lo que actualmente se considera el estado del arte en la calidad de imagen de la amplificación del movimiento de video. Además de estos logros técnicos, este trabajo también proporciona una metodología completa y un conjunto de herramientas de software que pueden resultar invaluables para los investigadores e ingenieros que se dedican al monitoreo y mantenimiento eficientes y efectivos de estructuras complejas.Novel vision-based monitoring systems present a compelling value proposition within the realm of Structural Health Monitoring (SHM) applications. They serve as a non-intrusive alternative to conventional contact-based sensors, capable of capturing comprehensive measurements across the entire structural field, even when placed at considerable distances from the structure. This inherent characteristic renders vision-based techniques highly cost-effective when compared to their contact-based counterparts. However, these techniques, although promising, still exhibit some technical limitations due to their relative immaturity. The primary objective of this thesis is to develop, enhance, and validate a cutting-edge computer vision methodology grounded in learning-based video motion magnification. This methodology is specifically designed to facilitate the implementation of SHM strategies in complex structures, employing optical means to capture full-field data. The research conducted in this thesis establishes the robust capability of learning-based video motion magnification techniques in accurately and consistently amplifying intricate structural movements. Consequently, this allows for the precise detection of subtle changes in the dynamic response of the structure under scrutiny. Furthermore, the integration of Eulerian video motion magnification with advanced deep learning techniques, such as visual transformers and convolutional neural networks, significantly elevates both accuracy and efficiency beyond what is currently considered state-of-the-art in video motion magnification image quality. In addition to these technical achievements, this work also provides a comprehensive methodology and software toolset, which can prove invaluable for researchers and engineers engaged in the efficient and effective monitoring and maintenance of complex structures

Tesis Doctorals en Xarxa