24 research outputs found

    Còpia Temporal i Al·lucinació Local per Video inpainting

    Video inpainting is the task of removing objects from videos. In particular, the goal is not only to fill every frame with plausible content but also to maintain a temporal consistency so that no abrupt changes can be perceived. The current state of the art in video inpainting, which builds upon deep neural network, suffers from the problem of handling large amounts of frames when working with decent resolution frames. In our work, we propose to tackle the problem of video inpainting by dividing it into two independent sub-tasks. The first, a Dense Flow Prediction Network (DFPN) capable of predicting the movement of the background by taking into account the movement of the object to remove. And the second, a Copy-and-Hallucinate Network (CHN) that uses the output of the previous network to copy the regions that are visible in reference frames while hallucinating those that are not. Both networks are trained independently and mixed using one of our three algorithm proposals: the Frame-by-Frame (FF) algorithm, the Inpaint-and-Propagate (IP) algorithm or the Copy-and-Propagate (CP) algorithm. We analyze our results by taking both an objective and a subjective approach in two different data sets. In both cases, we realize that our models are close to the state of the art but do not overpass it.Video inpainting es la tarea de borrar objetos de vídeos. En particular, el objetivo no es solo rellenar cada fotógrafa con contenido adecuado, sino también mantener cierta consistencia temporal para que no se perciban cambios abruptos. El estado del arte en video inpainting, basado en redes neuronales profundas, sufre del problema de gestionar grandes cantidades de fotogramas cuando se utilizan con resoluciones decentes. En nuestro trabajo, proponemos abordar el problema dividiéndolo en dos tareas independientes. La primera, una Dense Flow Prediction Network (DFPN) capaz de predecir el movimiento del fondo teniendo en cuenta el del objeto a eliminar. Y la segunda, una Copy-and-Hallucinate Network (CHN) que utiliza la salida del módulo anterior para copiar las regiones que son visibles en fotogramas auxiliares y alucinar aquellas que no lo son. Ambas redes son entrenadas independientemente y unidas utilizando una de nuestras tres propuestas de algoritmos: el algoritmo Frame-by-Frame (FF), el algoritmo Inpaint-and-Propagate (IP) o el algoritmo Copy-and-Propagate (CP). Analizamos nuestros resultados utilizando métodos objetivos y subjetivos en dos bases de datos diferentes. En ambos casos, concluimos que nuestros modelos están cerca del estado del arte pero no lo superan.Vídeo inpainting és la tasca d'esborrar objectes de vídeos. En particular, l'objectiu no és només omplir cada fotograma amb contingut adequat, sinó també mantenir certa consistència temporal per tal de no percebre canvis abruptes. L'estat de l'art en vídeo inpainting, basat en xarxes neuronals profundes, pateix del problema de gestionar grans quantitats de fotogrames quan aquests són de resolucions decents. En el nostre treball, proposem abordar el problema dividint-lo en dues tasques independents. La primera, una Dense Flow Prediction Network (DFPN) capaç de predir el moviment del fons tenint en compte el de l'objecte a eliminar. I la segona, una Copy-and-Hallucinate Network (CHN) que utilitza la sortida de la xarxa anterior per copiar les regions que són visibles en fotogrames auxiliars i al·lucinar les que no ho són. Les dues xarxes són entrenades independentment i unides fent servir una de les nostres tres propostes d'algoritmes: l'algoritme Frame-by-frame (FF), l'algoritme Inpaint-and-Propagate (IP) o l'algoritme Copy-and-Propagate (CP). Analitzem els nostres resultats utilitzant mètodes objectius i subjectius en dues bases de dades diferents. En tots dos casos, concloem que els nostres models s'apropen a l'estat de l'art però no el superen