186 research outputs found

    Exploiting Spatio-Temporal Coherence for Video Object Detection in Robotics

    Get PDF
    This paper proposes a method to enhance video object detection for indoor environments in robotics. Concretely, it exploits knowledge about the camera motion between frames to propagate previously detected objects to successive frames. The proposal is rooted in the concepts of planar homography to propose regions of interest where to find objects, and recursive Bayesian filtering to integrate observations over time. The proposal is evaluated on six virtual, indoor environments, accounting for the detection of nine object classes over a total of ∼ 7k frames. Results show that our proposal improves the recall and the F1-score by a factor of 1.41 and 1.27, respectively, as well as it achieves a significant reduction of the object categorization entropy (58.8%) when compared to a two-stage video object detection method used as baseline, at the cost of small time overheads (120 ms) and precision loss (0.92).</p

    Auditory Displays for People with Visual Impairments during Travel

    Get PDF
    Menschen mit Blindheit oder Sehbehinderungen begegnen beim Reisen zahlreichen Barrieren, was sich auf die Lebensqualität auswirkt. Obwohl spezielle elektronische Reisehilfen schon seit vielen Jahren im Mittelpunkt der Forschung stehen, werden sie von der Zielgruppe nach wie vor kaum genutzt. Dies liegt unter anderem daran, dass die von den Nutzern benötigten Informationen von der Technologie nur unzureichend bereitgestellt werden. Außerdem entsprechen die Schnittstellen selten den Bedürfnissen der Nutzer. In der vorliegender Arbeit gehen wir auf diese Defizite ein und definieren die Anforderungen für barrierefreies Reisen in Bezug auf den Informationsbedarf (Was muss vermittelt werden?) und die nichtfunktionalen Anforderungen (Wie muss es vermittelt werden?). Außerdem schlagen wir verschiedene auditive Displays vor, die die Bedürfnisse von Menschen mit Sehbeeinträchtigungen während einer Reise berücksichtigen. Wir entwerfen, implementieren und evaluieren unsere Schnittstellen nach einem nutzerzentriertem Ansatz, wobei wir während des gesamten Prozesses Nutzer und Experten aus diesem Bereich einbeziehen. In einem ersten Schritt erheben wir den Informationsbedarf von Menschen mit Behinderungen im Allgemeinen und von Menschen mit Sehbeeinträchtigungen im Besonderen, wenn sie sich in Gebäuden bewegen. Außerdem vergleichen wir die gesammelten Informationen mit dem, was derzeit in OpenStreetMap (OSM), einer freien geografischen Datenbank, kartiert werden kann, und machen Vorschläge zur Schließung der Lücke. Unser Ziel ist es, die Kartierung aller benötigten Informationen zu ermöglichen, um sie in Lösungen zur Unterstützung des unabhängigen Reisens zu verwenden. Nachdem wir die Frage beantwortet haben, welche Informationen benötigt werden, gehen wir weiter und beantworten die Frage, wie diese den Nutzern vermittelt werden können. Wir definieren eine Sammlung nicht-funktionaler Anforderungen, die wir in einer Befragung mit 22 Mobilitätstrainern verfeinern und bewerten. Anschließend schlagen wir eine Grammatik - oder anders ausgedrückt, eine strukturierte Art der Informationsvermittlung - für Navigationsanweisungen bei Reisen im Freien vor, die Straßenränder, das Vorhandensein von Gehwegen und Kreuzungen berücksichtigt - alles wichtige Informationen für Menschen mit Sehbeeinträchtigungen. Darüber hinaus können mit unserer Grammatik auch Orientierungspunkte, Sehenswürdigkeiten und Hindernisse vermittelt werden, was die Reise zu einem ganzheitlichen und sichereren Erlebnis macht. Wir implementieren unsere Grammatik in einen bestehenden Prototyp und evaluieren sie mit der Zielgruppe. Es hat sich gezeigt, dass in Gebäuden Beschreibungen der Umgebung die Erstellung von mentalen Karten unterstützen und damit die Erkundung und spontane Entscheidungsfindung besser fördern als Navigationsanweisungen. Wir definieren daher eine Grammatik für die Vermittlung von Informationen über die Umgebung in Innenräumen für Menschen mit Sehbeeinträchtigungen. Wir bewerten die Grammatik in einer Online-Studie mit 8 Nutzern aus der Zielgruppe. Wir zeigen, dass die Nutzer strukturierte Sätze mit fester Wortreihenfolge benötigen. Schließlich implementieren wir die Grammatik als Proof-of-Concept in eine bestehende prototypische App. Sprachausgabe ist zwar Stand der Technik im Bereich der Ausgabeschnittstellen für Menschen mit Sehbeeinträchtigungen, hat aber auch Nachteile: es ist für Menschen mit Leseschwäche unzugänglich und kann für manche Nutzer zu langsam sein. Wir nehmen uns dieses Problems an und untersuchen den Einsatz von Sonifikation in Form von auditiven Symbolen in Kombination mit Parameter-Mapping zur Vermittlung von Informationen über Objekte und deren Verortung in der Umgebung. Da eine erste Evaluierung positive Ergebnisse lieferte, erstellten wir in einem nutzerzentrierten Entwicklungsansatz einen Datensatz mit kurzen auditiven Symbolen für 40 Alltagsgegenstände. Wir evaluieren den Datensatz mit 16 blinden Menschen und zeigen, dass die Töne intuitiv sind. Schließlich vergleichen wir in einer Nutzerstudie mit 5 Teilnehmern Sprachausgabe mit nicht-sprachlicher Sonifikation. Wir zeigen, dass Sonifikation für die Vermittlung von groben Informationen über Objekte in der Umgebung genau so gut geeignet ist wie Sprache, was die Benutzerfreundlichkeit angeht. Abschließend listen wir einige Vorteile von Sprache und Sonifikation auf, die zum Vergleich und als Entscheidungshilfe dienen sollen. Diese Arbeit befasst sich mit den Bedürfnissen von Menschen mit Sehbeeinträchtigungen während der Reise in Bezug auf die benötigten Informationen und Schnittstellen. In einem nutzerzentrierten Ansatz schlagen wir verschiedene akustische Schnittstellen vor, die auf sprachlicher und nicht-sprachlicher Sonifikation basieren. Anhand mehrerer Nutzerstudien, an denen sowohl Nutzer als auch Experten beteiligt sind, entwerfen, implementieren und evaluieren wir unsere Schnittstellen. Wir zeigen, dass elektronische Reisehilfen in der Lage sein müssen, große Mengen an Informationen auf strukturierte Weise zu vermitteln, jedoch angepasst an den Nutzungskontext und die Präferenzen und Fähigkeiten der Nutzer

    Detail Enhancing Denoising of Digitized 3D Models from a Mobile Scanning System

    Get PDF
    The acquisition process of digitizing a large-scale environment produces an enormous amount of raw geometry data. This data is corrupted by system noise, which leads to 3D surfaces that are not smooth and details that are distorted. Any scanning system has noise associate with the scanning hardware, both digital quantization errors and measurement inaccuracies, but a mobile scanning system has additional system noise introduced by the pose estimation of the hardware during data acquisition. The combined system noise generates data that is not handled well by existing noise reduction and smoothing techniques. This research is focused on enhancing the 3D models acquired by mobile scanning systems used to digitize large-scale environments. These digitization systems combine a variety of sensors – including laser range scanners, video cameras, and pose estimation hardware – on a mobile platform for the quick acquisition of 3D models of real world environments. The data acquired by such systems are extremely noisy, often with significant details being on the same order of magnitude as the system noise. By utilizing a unique 3D signal analysis tool, a denoising algorithm was developed that identifies regions of detail and enhances their geometry, while removing the effects of noise on the overall model. The developed algorithm can be useful for a variety of digitized 3D models, not just those involving mobile scanning systems. The challenges faced in this study were the automatic processing needs of the enhancement algorithm, and the need to fill a hole in the area of 3D model analysis in order to reduce the effect of system noise on the 3D models. In this context, our main contributions are the automation and integration of a data enhancement method not well known to the computer vision community, and the development of a novel 3D signal decomposition and analysis tool. The new technologies featured in this document are intuitive extensions of existing methods to new dimensionality and applications. The totality of the research has been applied towards detail enhancing denoising of scanned data from a mobile range scanning system, and results from both synthetic and real models are presented

    Image synthesis based on a model of human vision

    Get PDF
    Modern computer graphics systems are able to construct renderings of such high quality that viewers are deceived into regarding the images as coming from a photographic source. Large amounts of computing resources are expended in this rendering process, using complex mathematical models of lighting and shading. However, psychophysical experiments have revealed that viewers only regard certain informative regions within a presented image. Furthermore, it has been shown that these visually important regions contain low-level visual feature differences that attract the attention of the viewer. This thesis will present a new approach to image synthesis that exploits these experimental findings by modulating the spatial quality of image regions by their visual importance. Efficiency gains are therefore reaped, without sacrificing much of the perceived quality of the image. Two tasks must be undertaken to achieve this goal. Firstly, the design of an appropriate region-based model of visual importance, and secondly, the modification of progressive rendering techniques to effect an importance-based rendering approach. A rule-based fuzzy logic model is presented that computes, using spatial feature differences, the relative visual importance of regions in an image. This model improves upon previous work by incorporating threshold effects induced by global feature difference distributions and by using texture concentration measures. A modified approach to progressive ray-tracing is also presented. This new approach uses the visual importance model to guide the progressive refinement of an image. In addition, this concept of visual importance has been incorporated into supersampling, texture mapping and computer animation techniques. Experimental results are presented, illustrating the efficiency gains reaped from using this method of progressive rendering. This visual importance-based rendering approach is expected to have applications in the entertainment industry, where image fidelity may be sacrificed for efficiency purposes, as long as the overall visual impression of the scene is maintained. Different aspects of the approach should find many other applications in image compression, image retrieval, progressive data transmission and active robotic vision

    Face recognition by means of advanced contributions in machine learning

    Get PDF
    Face recognition (FR) has been extensively studied, due to both scientific fundamental challenges and current and potential applications where human identification is needed. FR systems have the benefits of their non intrusiveness, low cost of equipments and no useragreement requirements when doing acquisition, among the most important ones. Nevertheless, despite the progress made in last years and the different solutions proposed, FR performance is not yet satisfactory when more demanding conditions are required (different viewpoints, blocked effects, illumination changes, strong lighting states, etc). Particularly, the effect of such non-controlled lighting conditions on face images leads to one of the strongest distortions in facial appearance. This dissertation addresses the problem of FR when dealing with less constrained illumination situations. In order to approach the problem, a new multi-session and multi-spectral face database has been acquired in visible, Near-infrared (NIR) and Thermal infrared (TIR) spectra, under different lighting conditions. A theoretical analysis using information theory to demonstrate the complementarities between different spectral bands have been firstly carried out. The optimal exploitation of the information provided by the set of multispectral images has been subsequently addressed by using multimodal matching score fusion techniques that efficiently synthesize complementary meaningful information among different spectra. Due to peculiarities in thermal images, a specific face segmentation algorithm has been required and developed. In the final proposed system, the Discrete Cosine Transform as dimensionality reduction tool and a fractional distance for matching were used, so that the cost in processing time and memory was significantly reduced. Prior to this classification task, a selection of the relevant frequency bands is proposed in order to optimize the overall system, based on identifying and maximizing independence relations by means of discriminability criteria. The system has been extensively evaluated on the multispectral face database specifically performed for our purpose. On this regard, a new visualization procedure has been suggested in order to combine different bands for establishing valid comparisons and giving statistical information about the significance of the results. This experimental framework has more easily enabled the improvement of robustness against training and testing illumination mismatch. Additionally, focusing problem in thermal spectrum has been also addressed, firstly, for the more general case of the thermal images (or thermograms), and then for the case of facialthermograms from both theoretical and practical point of view. In order to analyze the quality of such facial thermograms degraded by blurring, an appropriate algorithm has been successfully developed. Experimental results strongly support the proposed multispectral facial image fusion, achieving very high performance in several conditions. These results represent a new advance in providing a robust matching across changes in illumination, further inspiring highly accurate FR approaches in practical scenarios.El reconeixement facial (FR) ha estat àmpliament estudiat, degut tant als reptes fonamentals científics que suposa com a les aplicacions actuals i futures on requereix la identificació de les persones. Els sistemes de reconeixement facial tenen els avantatges de ser no intrusius,presentar un baix cost dels equips d’adquisició i no la no necessitat d’autorització per part de l’individu a l’hora de realitzar l'adquisició, entre les més importants. De totes maneres i malgrat els avenços aconseguits en els darrers anys i les diferents solucions proposades, el rendiment del FR encara no resulta satisfactori quan es requereixen condicions més exigents (diferents punts de vista, efectes de bloqueig, canvis en la il·luminació, condicions de llum extremes, etc.). Concretament, l'efecte d'aquestes variacions no controlades en les condicions d'il·luminació sobre les imatges facials condueix a una de les distorsions més accentuades sobre l'aparença facial. Aquesta tesi aborda el problema del FR en condicions d'il·luminació menys restringides. Per tal d'abordar el problema, hem adquirit una nova base de dades de cara multisessió i multiespectral en l'espectre infraroig visible, infraroig proper (NIR) i tèrmic (TIR), sota diferents condicions d'il·luminació. En primer lloc s'ha dut a terme una anàlisi teòrica utilitzant la teoria de la informació per demostrar la complementarietat entre les diferents bandes espectrals objecte d’estudi. L'òptim aprofitament de la informació proporcionada pel conjunt d'imatges multiespectrals s'ha abordat posteriorment mitjançant l'ús de tècniques de fusió de puntuació multimodals, capaces de sintetitzar de manera eficient el conjunt d’informació significativa complementària entre els diferents espectres. A causa de les característiques particulars de les imatges tèrmiques, s’ha requerit del desenvolupament d’un algorisme específic per la segmentació de les mateixes. En el sistema proposat final, s’ha utilitzat com a eina de reducció de la dimensionalitat de les imatges, la Transformada del Cosinus Discreta i una distància fraccional per realitzar les tasques de classificació de manera que el cost en temps de processament i de memòria es va reduir de forma significa. Prèviament a aquesta tasca de classificació, es proposa una selecció de les bandes de freqüències més rellevants, basat en la identificació i la maximització de les relacions d'independència per mitjà de criteris discriminabilitat, per tal d'optimitzar el conjunt del sistema. El sistema ha estat àmpliament avaluat sobre la base de dades de cara multiespectral, desenvolupada pel nostre propòsit. En aquest sentit s'ha suggerit l’ús d’un nou procediment de visualització per combinar diferents bandes per poder establir comparacions vàlides i donar informació estadística sobre el significat dels resultats. Aquest marc experimental ha permès més fàcilment la millora de la robustesa quan les condicions d’il·luminació eren diferents entre els processos d’entrament i test. De forma complementària, s’ha tractat la problemàtica de l’enfocament de les imatges en l'espectre tèrmic, en primer lloc, pel cas general de les imatges tèrmiques (o termogrames) i posteriorment pel cas concret dels termogrames facials, des dels punt de vista tant teòric com pràctic. En aquest sentit i per tal d'analitzar la qualitat d’aquests termogrames facials degradats per efectes de desenfocament, s'ha desenvolupat un últim algorisme. Els resultats experimentals recolzen fermament que la fusió d'imatges facials multiespectrals proposada assoleix un rendiment molt alt en diverses condicions d’il·luminació. Aquests resultats representen un nou avenç en l’aportació de solucions robustes quan es contemplen canvis en la il·luminació, i esperen poder inspirar a futures implementacions de sistemes de reconeixement facial precisos en escenaris no controlats.Postprint (published version

    Robust real-time tracking in smart camera networks

    Get PDF

    Discrete Wavelet Transforms

    Get PDF
    The discrete wavelet transform (DWT) algorithms have a firm position in processing of signals in several areas of research and industry. As DWT provides both octave-scale frequency and spatial timing of the analyzed signal, it is constantly used to solve and treat more and more advanced problems. The present book: Discrete Wavelet Transforms: Algorithms and Applications reviews the recent progress in discrete wavelet transform algorithms and applications. The book covers a wide range of methods (e.g. lifting, shift invariance, multi-scale analysis) for constructing DWTs. The book chapters are organized into four major parts. Part I describes the progress in hardware implementations of the DWT algorithms. Applications include multitone modulation for ADSL and equalization techniques, a scalable architecture for FPGA-implementation, lifting based algorithm for VLSI implementation, comparison between DWT and FFT based OFDM and modified SPIHT codec. Part II addresses image processing algorithms such as multiresolution approach for edge detection, low bit rate image compression, low complexity implementation of CQF wavelets and compression of multi-component images. Part III focuses watermaking DWT algorithms. Finally, Part IV describes shift invariant DWTs, DC lossless property, DWT based analysis and estimation of colored noise and an application of the wavelet Galerkin method. The chapters of the present book consist of both tutorial and highly advanced material. Therefore, the book is intended to be a reference text for graduate students and researchers to obtain state-of-the-art knowledge on specific applications
    corecore