5 research outputs found

    A Weak Structure Model for Regular Pattern Recognition Applied to Facade Images

    No full text
    Abstract. We propose a novel method for recognition of structured images and demonstrate it on detection of windows in facade images. Given an ability to obtain local low-level data evidence on primitive elements of a structure (like window in a facade image), we determine their most probable number, attribute values (location, size) and neighborhood relation. The embedded structure is weakly modeled by pair-wise attribute constraints, which allow structure and attribute constraints to mutually support each other. We use a very general framework of reversible jump MCMC, which allows simple implementation of a specific structure model and plug-in of almost arbitrary element classifiers. The MC controls the classifier by prescribing it “where to look”, without wasting too much time on unpromising locations. We have chosen the domain of window recognition in facade images to demonstrate that the result is an efficient algorithm achieving performance of other strongly informed methods for regular structures like grids, while our general model covers loosely regular configurations as well.

    Low-rank Based Algorithms for Rectification, Repetition Detection and De-noising in Urban Images

    Full text link
    In this thesis, we aim to solve the problem of automatic image rectification and repeated patterns detection on 2D urban images, using novel low-rank based techniques. Repeated patterns (such as windows, tiles, balconies and doors) are prominent and significant features in urban scenes. Detection of the periodic structures is useful in many applications such as photorealistic 3D reconstruction, 2D-to-3D alignment, facade parsing, city modeling, classification, navigation, visualization in 3D map environments, shape completion, cinematography and 3D games. However both of the image rectification and repeated patterns detection problems are challenging due to scene occlusions, varying illumination, pose variation and sensor noise. Therefore, detection of these repeated patterns becomes very important for city scene analysis. Given a 2D image of urban scene, we automatically rectify a facade image and extract facade textures first. Based on the rectified facade texture, we exploit novel algorithms that extract repeated patterns by using Kronecker product based modeling that is based on a solid theoretical foundation. We have tested our algorithms in a large set of images, which includes building facades from Paris, Hong Kong and New York

    High-Level Facade Image Interpretation using Marked Point Processes

    Get PDF
    In this thesis, we address facade image interpretation as one essential ingredient for the generation of high-detailed, semantic meaningful, three-dimensional city-models. Given a single rectified facade image, we detect relevant facade objects such as windows, entrances, and balconies, which yield a description of the image in terms of accurate position and size of these objects. Urban digital three-dimensional reconstruction and documentation is an active area of research with several potential applications, e.g., in the area of digital mapping for navigation, urban planning, emergency management, disaster control or the entertainment industry. A detailed building model which is not just a geometric object enriched with texture, allows for semantic requests as the number of floors or the location of balconies and entrances. Facade image interpretation is one essential step in order to yield such models. In this thesis, we propose the interpretation of facade images by combining evidence for the occurrence of individual object classes which we derive from data, and prior knowledge which guides the image interpretation in its entirety. We present a three-step procedure which generates features that are suited to describe relevant objects, learns a representation that is suited for object detection, and that enables the image interpretation using the results of object detection while incorporating prior knowledge about typical configurations of facade objects, which we learn from training data. According to these three sub-tasks, our major achievements are: We propose a novel method for facade image interpretation based on a marked point process. Therefor, we develop a model for the description of typical configurations of facade objects and propose an image interpretation system which combines evidence derived from data and prior knowledge about typical configurations of facade objects. In order to generate evidence from data, we propose a feature type which we call shapelets. They are scale invariant and provide large distinctiveness for facade objects. Segments of lines, arcs, and ellipses serve as basic features for the generation of shapelets. Therefor, we propose a novel line simplification approach which approximates given pixel-chains by a sequence of lines, circular, and elliptical arcs. Among others, it is based on an adaption to Douglas-Peucker's algorithm, which is based on circles as basic geometric elements We evaluate each step separately. We show the effects of polyline segmentation and simplification on several images with comparable good or even better results, referring to a state-of-the-art algorithm, which proves their large distinctiveness for facade objects. Using shapelets we provide a reasonable classification performance on a challenging dataset, including intra-class variations, clutter, and scale changes. Finally, we show promising results for the facade interpretation system on several datasets and provide a qualitative evaluation which demonstrates the capability of complete and accurate detection of facade objectsHigh-Level Interpretation von Fassaden-Bildern unter Benutzung von Markierten PunktprozessenDas Thema dieser Arbeit ist die Interpretation von Fassadenbildern als wesentlicher Beitrag zur Erstellung hoch detaillierter, semantisch reichhaltiger dreidimensionaler Stadtmodelle. In rektifizierten Einzelaufnahmen von Fassaden detektieren wir relevante Objekte wie Fenster, Türen und Balkone, um daraus eine Bildinterpretation in Form von präzisen Positionen und Größen dieser Objekte abzuleiten. Die digitale dreidimensionale Rekonstruktion urbaner Regionen ist ein aktives Forschungsfeld mit zahlreichen Anwendungen, beispielsweise der Herstellung digitaler Kartenwerke für Navigation, Stadtplanung, Notfallmanagement, Katastrophenschutz oder die Unterhaltungsindustrie. Detaillierte Gebäudemodelle, die nicht nur als geometrische Objekte repräsentiert und durch eine geeignete Textur visuell ansprechend dargestellt werden, erlauben semantische Anfragen, wie beispielsweise nach der Anzahl der Geschosse oder der Position der Balkone oder Eingänge. Die semantische Interpretation von Fassadenbildern ist ein wesentlicher Schritt für die Erzeugung solcher Modelle. In der vorliegenden Arbeit lösen wir diese Aufgabe, indem wir aus Daten abgeleitete Evidenz für das Vorkommen einzelner Objekte mit Vorwissen kombinieren, das die Analyse der gesamten Bildinterpretation steuert. Wir präsentieren dafür ein dreistufiges Verfahren: Wir erzeugen Bildmerkmale, die für die Beschreibung der relevanten Objekte geeignet sind. Wir lernen, auf Basis abgeleiteter Merkmale, eine Repräsentation dieser Objekte. Schließlich realisieren wir die Bildinterpretation basierend auf der zuvor gelernten Repräsentation und dem Vorwissen über typische Konfigurationen von Fassadenobjekten, welches wir aus Trainingsdaten ableiten. Wir leisten dazu die folgenden wissenschaftlichen Beiträge: Wir schlagen eine neuartige Me-thode zur Interpretation von Fassadenbildern vor, die einen sogenannten markierten Punktprozess verwendet. Dafür entwickeln wir ein Modell zur Beschreibung typischer Konfigurationen von Fassadenobjekten und entwickeln ein Bildinterpretationssystem, welches aus Daten abgeleitete Evidenz und a priori Wissen über typische Fassadenkonfigurationen kombiniert. Für die Erzeugung der Evidenz stellen wir Merkmale vor, die wir Shapelets nennen und die skaleninvariant und durch eine ausgesprochene Distinktivität im Bezug auf Fassadenobjekte gekennzeichnet sind. Als Basismerkmale für die Erzeugung der Shapelets dienen Linien-, Kreis- und Ellipsensegmente. Dafür stellen wir eine neuartige Methode zur Vereinfachung von Liniensegmenten vor, die eine Pixelkette durch eine Sequenz von geraden Linienstücken und elliptischen Bogensegmenten approximiert. Diese basiert unter anderem auf einer Adaption des Douglas-Peucker Algorithmus, die anstelle gerader Linienstücke, Bogensegmente als geometrische Basiselemente verwendet. Wir evaluieren jeden dieser drei Teilschritte separat. Wir zeigen Ergebnisse der Liniensegmen-tierung anhand verschiedener Bilder und weisen dabei vergleichbare und teilweise verbesserte Ergebnisse im Vergleich zu bestehende Verfahren nach. Für die vorgeschlagenen Shapelets weisen wir in der Evaluation ihre diskriminativen Eigenschaften im Bezug auf Fassadenobjekte nach. Wir erzeugen auf einem anspruchsvollen Datensatz von skalenvariablen Fassadenobjekten, mit starker Variabilität der Erscheinung innerhalb der Klassen, vielversprechende Klassifikationsergebnisse, die die Verwendbarkeit der gelernten Shapelets für die weitere Interpretation belegen. Schließlich zeigen wir Ergebnisse der Interpretation der Fassadenstruktur anhand verschiedener Datensätze. Die qualitative Evaluation demonstriert die Fähigkeit des vorgeschlagenen Lösungsansatzes zur vollständigen und präzisen Detektion der genannten Fassadenobjekte

    Attributierte Grammatiken zur Rekonstruktion und Interpretation von Fassaden

    Get PDF
    Dem Bedarf und Nutzen hoch detaillierter 3D-Stadt- und Gebäudemodelle steht deren aufwendige Erfassung gegenüber. Ist die automatische Ableitung vereinfachter Dachstrukturen aus Luftbildern oder Laseraltimetrie weitestgehend gelöst, so existieren für terrestrisch erfasste Daten nur erste Ansätze zur automatischen Rekonstruktion der Fassadenstruktur. Diese zielen zumeist auf die Interpretation großer, planarer Fassaden ab und reduzieren sie auf die regelmäßige Anordnung von Fenstern. Im Wesentlichen mangelt es daher sowohl an Verfahren zur Rekonstruktion weiterer Fassadenelemente wie Treppen oder Türen als auch an Methoden zur Interpretation heterogener, komplexer Fassaden mit Vorsprüngen, Erkern sowie einer geringen Anzahl von Fenstern. Die vorliegende Arbeit thematisiert die Interpretation von 3D-Punktwolkee, die mittels terrestrischem Laserscanning in urbanen Räumen erfasst wurden. Der Fokus liegt dabei auf 3D-Punktwolkee heterogener Fassaden, die sich durch eine geringe Breite sowie durch Vorsprünge und Erker auszeichnen. Das Ziel der Arbeit ist die Rekonstruktion und Interpretation von Fassaden durch einen Parser, der attributierte Grammatiken und robuste Schätzer kombiniert. Aufgrund der Generizität der verwendeten Attributgrammatiken ist die Schätzung von Modellen mit einer vorab unbekannten Anzahl von Parametern möglich und der Varianz der Objekte wird somit Rechnung getragen. Das vorgestellte Konzept zeichnet sich durch die starke Integration von Vorwissen aus. Es wird sowohl ein geometrisches als auch ein semantisches Modell von Fassaden aufgestellt und in die attributierte Grammatik überführt. Darüber hinaus werden Wahrscheinlichkeitsdichten der Form- und Lageparameter der betrachteten Fassadenteile aus gemessenen Daten geschätzt und in der attributierten Grammatik kodiert. Die entsprechenden a priori Wahrscheinlichkeiten sind wesentlicher Bestandteil des vorgestellten robusten Schätzverfahrens MOSAP sowie des Parsing-Algorithmusparse3d. Die Relationen zwischen einzelnen Fassadenteilen werden auf die Grammatik abgebildet, die somit zur Repräsentation der komplexen Strukturen dient und die Basis des Parsing-Algorithmus darstellt. Beginnend mit dem allgemeinsten Symbol werden durch parse3d iterativ Produktionsregeln angewendet und so Modellhypothesen in Form von Ableitungsbäumen erzeugt, von denen schließlich die Wahrscheinlichste gewählt wird. Die Selektion der abzuleitenden Symbole sowie der anzuwendenden Regeln basiert auf den a priori Wahrscheinlichkeiten sowie den Wahrscheinlichkeitsdichten, die aus Kontextinformation wie den Parametern bereits rekonstruierter Objekte oder Teilmengen der 3D-Punktwolkee geschätzt werden. Die Schnittstelle zwischen Grammatik und 3D-Punktwolke wird durch den robusten Schätzer MOSAP sowie die eingeführten Guards realisiert. Letztere bestimmen die Wahrscheinlichkeit einer Produktionsregel und ermöglichen so deren Selektion. Die Grammatiksymbole, die durch eine geringe Anzahl von Parametern geometrisch definiert sind, werden durch einen robusten Schätzer rekonstruiert. Es wird der Algorithmus MOSAP (Model Based Sampling and Prediction) eingeführt, der auf dem hypothesize-and-verify Paradigma basiert und sich durch das modellbasierte Sampling auszeichnet, in das Modellwissen in Form von Wahrscheinlichkeitsdichten der Form- und Lageparameter der zu bestimmenden Objekte eingebracht wird. Darüber hinaus wird die Prädiktionsgüte als neuartiges Kriterium zur Bewertung der Modellhypothesen eingeführt.Attribute Grammars for the Reconstruction and Interpretation of Facades The needs and benefits of highly detailed 3D city and building models is opposed to their expensive acquisition. Though the automatic derivation of simplified roof structures from aerial images or laser altimetry is mostly solved, only a few approaches for the automatic reconstruction of facade structures from terrestrial data were presented yet. Most of the existing work is on the interpretation of large, planar facades that are reduced to a regular arrangement of windows. Therefore, it lacks in both, the reconstruction of additional facade elements such as stairs or doors as well as methods for the interpretation of heterogeneous and complex facades with protrusions, oriels and only a small number of windows. This thesis deals with the interpretation of 3D point clouds that have been captured by terrestrial laser scanning of urban areas. The focus is on 3D point clouds of heterogeneous facades, that are characterized by their narrow width and by protrusions and oriels. The main contribution is the reconstruction and interpretation of facades by a parser that combines attribute grammars and robust estimators. Due to the generic attribute grammar the estimation of models with a previously unknown number of parameters is possible and the heterogeneity of the objects is thus considered. The concept is distinguished by the heavily integration of prior knowledge. The geometric and the semantic model of facades are defined and transferred to the attributed grammar. Furthermore, the probability densities of the shape and position parameters of the considered facade parts are estimated and incorporated in the attributed grammar. The corresponding a priori probabilities are essential for the presented robust estimator MOSAP and the parsing algorithm parse3d. The relations between single parts of a facade are mapped to the attribute grammar. Therefore, the grammar represents the complex structures of facades and constitutes the foundation of the parsing algorithm. Beginning with the most common symbol parse3d iteratively applies production rules and, thus, generates hypothesis represented by derivation trees. Finally the most likely derivation tree is selected. Both, the selection of the symbol to be derived and the selection of the production rule to be applied base on the a priori probabilities and the densities that are estimated from the context information like the parameters of already reconstructed objects or subsets of the 3D point cloud. The interface between the grammar and the 3D point clouds is realized by the robust estimator MOSAP and guards. The latter determine the likelihood of a production rule and, therefore, provide a selection criterion. The symbols of the grammar that are geometrically defined by a small set of parameters are reconstructed by a robust estimator. MOSAP (Model Based Sampling and Prediction) bases on the hypothesize-and-verify paradigm and is characterized by the model-based sampling strategy that takes advantage of the probability densities of the shape and position parameters of the objects to be reconstructed. Furthermore, MOSAP evaluates the hypothesis by the newly introduced 'goodness of prediction' criterion
    corecore