14 research outputs found

    Application of video processing methods for linguistic research

    No full text
    Evolution and changes of all modern languages is a well-known fact. However, recently it is reaching dynamics never seen before, which results in loss of the vast amount of information encoded in every language. In order to preserve such heritage, properly annotated recordings of world languages are necessary. Since creating those annotations is a very laborious task, reaching times 100 longer than the length of the annotated media, innovative video processing algorithms are needed, in order to improve the efficiency and quality of annotation process

    AVATecH ― automated annotation through audio and video analysis

    Get PDF
    In different fields of the humanities annotations of multimodal resources are a necessary component of the research workflow. Examples include linguistics, psychology, anthropology, etc. However, creation of those annotations is a very laborious task, which can take 50 to 100 times the length of the annotated media, or more. This can be significantly improved by applying innovative audio and video processing algorithms, which analyze the recordings and provide automated annotations. This is the aim of the AVATecH project, which is a collaboration of the Max Planck Institute for Psycholinguistics (MPI) and the Fraunhofer institutes HHI and IAIS. In this paper we present a set of results of automated annotation together with an evaluation of their quality

    Application of audio and video processing methods for language research

    No full text
    Annotations of media recordings are the grounds for linguistic research. Since creating those annotations is a very laborious task, reaching 100 times longer than the length of the annotated media, innovative audio and video processing algorithms are needed, in order to improve the efficiency and quality of annotation process. The AVATecH project, started by the Max-Planck Institute for Psycholinguistics (MPI) and the Fraunhofer institutes HHI and IAIS, aims at significantly speeding up the process of creating annotations of audio-visual data for humanities research. In order for this to be achieved a range of state-of-the-art audio and video pattern recognition algorithms have been developed and integrated into widely used ELAN annotation tool. To address the problem of heterogeneous annotation tasks and recordings we provide modular components extended by adaptation and feedback mechanisms to achieve competitive annotation quality within significantly less annotation time

    Smoothness Constraints in Recursive Search Motion Estimation for Picture Rate Conversion

    Full text link

    No-reference depth map quality evaluation model based on depth map edge confidence measurement in immersive video applications

    Get PDF
    When it comes to evaluating perceptual quality of digital media for overall quality of experience assessment in immersive video applications, typically two main approaches stand out: Subjective and objective quality evaluation. On one hand, subjective quality evaluation offers the best representation of perceived video quality assessed by the real viewers. On the other hand, it consumes a significant amount of time and effort, due to the involvement of real users with lengthy and laborious assessment procedures. Thus, it is essential that an objective quality evaluation model is developed. The speed-up advantage offered by an objective quality evaluation model, which can predict the quality of rendered virtual views based on the depth maps used in the rendering process, allows for faster quality assessments for immersive video applications. This is particularly important given the lack of a suitable reference or ground truth for comparing the available depth maps, especially when live content services are offered in those applications. This paper presents a no-reference depth map quality evaluation model based on a proposed depth map edge confidence measurement technique to assist with accurately estimating the quality of rendered (virtual) views in immersive multi-view video content. The model is applied for depth image-based rendering in multi-view video format, providing comparable evaluation results to those existing in the literature, and often exceeding their performance

    Analysis of MVD and color edge detection for depth maps enhacement

    Get PDF
    Prjecte final de carrera realitzat en col.laboració amb Fraunhofer Heinrich Hertz InstituteMVD (Multiview Video plus Depth) data consists of two components: color video and depth maps sequences. Depth maps represent the spatial arrangement (or three dimensional geometry) of the scene. The MVD representation is used for rendering virtual views in FVV (Free Viewpoint Video) and for 3DTV (3-dimensional TeleVision) applications. Distortions of the silhouettes of objects in the depth maps are a problem when rendering a stereo video pair. This Master thesis presents a system to improve the depth component of MVD . For this purpose, it introduces a new method called correlation histograms for analyzing the two components of depth-enhanced 3D video representations with special emphasis on the improved depth component. This document gives a description of this new method and presents an analysis of six di erent MVD data sets with di erent features. Moreover, a modular and exible system for improving depth maps is introduced. The idea behind is to use the color video component for extracting edges of the scene and to re-shape the depth component according to the edge information. The mentioned system basically describes a framework. Hence, it is capable to admit changes on speci c tasks if the concrete target is respected. After the improvement process, the MVD data is analyzed again via correlation histograms in order to obtain characteristics of the depth improvement. The achieved results show that correlation histograms are a good method for analyzing the impact of processing MVD data. It is also con rmed that the presented system is modular and exible, as it works with three di erent degrees of change, introducing modi cations in depth maps, according to the input characteristics. Hence, this system can be used as a framework for depth map improvement. The results show that contours with 1-pixel width jittering in depth maps have been correctly re-shaped. Additionally, constant background and foreground areas of depth maps have also been improved according to the degree of change, attaining better results in terms of temporal consistency. However, future work can focus on unresolved problems, such as jittering with more than one pixel width or by making the system more dynamic

    Analysis of MVD and color edge detection for depth maps enhacement

    Get PDF
    Prjecte final de carrera realitzat en col.laboració amb Fraunhofer Heinrich Hertz InstituteMVD (Multiview Video plus Depth) data consists of two components: color video and depth maps sequences. Depth maps represent the spatial arrangement (or three dimensional geometry) of the scene. The MVD representation is used for rendering virtual views in FVV (Free Viewpoint Video) and for 3DTV (3-dimensional TeleVision) applications. Distortions of the silhouettes of objects in the depth maps are a problem when rendering a stereo video pair. This Master thesis presents a system to improve the depth component of MVD . For this purpose, it introduces a new method called correlation histograms for analyzing the two components of depth-enhanced 3D video representations with special emphasis on the improved depth component. This document gives a description of this new method and presents an analysis of six di erent MVD data sets with di erent features. Moreover, a modular and exible system for improving depth maps is introduced. The idea behind is to use the color video component for extracting edges of the scene and to re-shape the depth component according to the edge information. The mentioned system basically describes a framework. Hence, it is capable to admit changes on speci c tasks if the concrete target is respected. After the improvement process, the MVD data is analyzed again via correlation histograms in order to obtain characteristics of the depth improvement. The achieved results show that correlation histograms are a good method for analyzing the impact of processing MVD data. It is also con rmed that the presented system is modular and exible, as it works with three di erent degrees of change, introducing modi cations in depth maps, according to the input characteristics. Hence, this system can be used as a framework for depth map improvement. The results show that contours with 1-pixel width jittering in depth maps have been correctly re-shaped. Additionally, constant background and foreground areas of depth maps have also been improved according to the degree of change, attaining better results in terms of temporal consistency. However, future work can focus on unresolved problems, such as jittering with more than one pixel width or by making the system more dynamic

    Bildbasierte Weichgeweberegistrierung in der Laparoskopie

    Get PDF
    Die minimal-invasive Chirurgie bietet viele Vorteile für den Patienten. Durch die Reduzierung des Operationstraumas und der damit beschleunigten Rekonvaleszenz des Patienten können zudem die Zeit der stationären Behandlung und damit auch die Kosten für das Gesundheitssystem reduziert werden. Dem gegenüber steht die höhere Belastung der Chirurgen während der Operation. Erst nach jahrelangem Training sind Ärzte in der Lage, die Herausforderungen dieser speziellen Operationstechnik zu meistern. Um Chirurgen bei dieser schwierigen Aufgabe zu unterstützen, wurden in den letzten Jahren durch die Verfügbarkeit von neuen Technologien verstärkt computergestützte Assistenzsysteme entwickelt. Während beispielsweise in der Neurochirurgie schon kommerzielle Assistenzsysteme existieren, gibt es in der Laparoskopie ein großes ungelöstes Problem: die Weichgeweberegistrierung. Um die detaillierten Organmodelle aus präoperativen Planungsdaten (bspw. aus der Computertomografie) während der Operation nutzen zu können, müssen diese an die Position, Ausrichtung und Form des intraoperativen Organs angeglichen werden. Diese nicht-rigide Anpassung des Modells wird als Weichgeweberegistrierung bezeichnet. Dabei werden die Verschiebungen und Deformationen der Organe des Patienten sowohl durch zuvor verursache Änderungen, wie der Lagerung des Patienten oder dem Anlegen des Pneumoperitoneums (Füllen und Aufblähen des Bauchraums mit CO2_2-Gas), als auch durch dynamische Ereignisse während der Operation, wie der Atmung des Patienten oder Manipulationen der chirurgischen Instrumente, verursacht. Im Rahmen dieser Arbeit wurden die verschiedenen Bestandteile und Schritte für die laparoskopischen Weichgeweberegistrierung untersucht. Zur Erzeugung von intraoperativen 3D-Modellen wurde ein auf Convolutional Neuronalen Netzen basiertes Stereorekonstruktionsverfahren entwickelt, welches Disparitäten endoskopischer Bilddaten durch das Training mit domänenspezifischen Trainingsdaten bestimmt. Da für endoskopische Bilddaten nur sehr schwer eine Referenz für die Tiefendaten bestimmt werden kann, wurde ein mehrstufiger Trainingsprozess entwickelt. Aufgrund der speziellen Endoskop-Optik und den Eigenheiten dieser Bildgebung, bspw. Glanzlichter und texturarme, kantenfreie Oberflächen, sind endoskopische Trainingsdaten jedoch unverzichtbar, um bestmögliche Resultate zu erzielen. Hierzu wurden einerseits virtuelle Stereobilder von endoskopischen Simulationen erzeugt, andererseits wurden vorhandene reale Aufnahmen genutzt, um daraus durch die Erkennung von Landmarken, vollautomatisch dünnbesetzte Referenzkarten zu erzeugen. Das Verfahren wurde mit einem öffentlichen Datensatz evaluiert und konnte eine hohe Genauigkeit bei geringer Laufzeit demonstrieren. Für den eigentlichen Registrierungsprozess wurde ein zweistufiges Verfahren entwickelt. Im ersten Schritt wird zu Beginn der Operation eine initiale Weichgeweberegistrierung durchgeführt. Da die Verschiebungen, Rotationen und Deformationen zwischen präoperativer Aufnahme und Operation sehr groß sein können, ist hier ein möglichst umfangreiches intraoperatives Modell des betrachteten Organs wünschenswert. Mit dem in dieser Arbeit entwickelten Mosaikverfahren kann ein globales Oberflächenmodell aus mehreren Rekonstruktionsfragmenten der einzelnen Aufnahmen erzeugt werden. Die Evaluation zeigt eine starke Verringerung des Registrierungsfehlers, im Vergleich zur Nutzung von einzelnen Oberflächenfragmenten. Um dynamische Deformationen während der Operation auf das präoperative Modell zu übertragen, wurde ein Verfahren zur dynamischen Registrierung entwickelt. Dabei werden die präoperativen Daten durch ein biomechanisches Modell repräsentiert. Dieses Modell wird durch die Projektion in das aktuelle Kamerabild mit den Punkten der intraoperativen 3D-Rekonstruktion verknüpft. Diese Verknüpfungen dienen anschließend als Randbedingungen für eine FEM-Simulation, die das biomechanische Modell in jedem Zeitschritt an das intraoperative Organ anpasst. In einer in silico Evaluation und einem ersten Tierversuch konnte das Verfahren vielversprechende Ergebnisse vorweisen. Neben den eigentlichen Verfahren zur Weichgeweberegistrierung ist auch deren Evaluation von Bedeutung. Hier zeigt sich, dass künstliche Organmodelle ein wichtiges Bindeglied zwischen Simulationen und Tierversuchen darstellen. Für die Evaluation von Registrierungsalgorithmen sind vor allem die mechanischen Eigenschaften des Organmodells von Bedeutung. Der Guss von Silikonorganen ist einfach und kostengünstig, hat aufgrund des verwendeten Silikons allerdings den Nachteil, dass die Modelle deutlich härter als vergleichbares Weichgewebe sind. Um ein weiches Organmodell zu erstellen und gleichzeitig die Vorteile des Silikongusses beizubehalten, wurde in dieser Arbeit ein spezielles 3D-Druckverfahren erforscht. Dabei wird ein Negativgussmodell des Organs aus wasserlöslichem Material mit einem 3D-Drucker hergestellt. Die Besonderheit ist eine Gitterstruktur, die sich durch das ganze Gussmodell zieht. Nach dem Einfüllen und Aushärten des Silikons kann die Gussform mitsamt der innen liegenden Gitterstruktur aufgelöst werden. Dadurch entstehen überall im Silikonmodell kleine Hohlräume, welche die Struktur des Modells schwächen. In dem die Gitterstruktur vor dem Druckprozess angepasst wird kann der Härtegrad des späteren Modells in einem Rahmen von 30-100% des Silikon-Vollmodells eingestellt werden. Mechanische Experimente konnten die zuvor in der Simulation berechneten Kennwerte bestätigen
    corecore