29 research outputs found

    Efficient Decomposition of Image and Mesh Graphs by Lifted Multicuts

    Full text link
    Formulations of the Image Decomposition Problem as a Multicut Problem (MP) w.r.t. a superpixel graph have received considerable attention. In contrast, instances of the MP w.r.t. a pixel grid graph have received little attention, firstly, because the MP is NP-hard and instances w.r.t. a pixel grid graph are hard to solve in practice, and, secondly, due to the lack of long-range terms in the objective function of the MP. We propose a generalization of the MP with long-range terms (LMP). We design and implement two efficient algorithms (primal feasible heuristics) for the MP and LMP which allow us to study instances of both problems w.r.t. the pixel grid graphs of the images in the BSDS-500 benchmark. The decompositions we obtain do not differ significantly from the state of the art, suggesting that the LMP is a competitive formulation of the Image Decomposition Problem. To demonstrate the generality of the LMP, we apply it also to the Mesh Decomposition Problem posed by the Princeton benchmark, obtaining state-of-the-art decompositions

    Decomposition of Trees and Paths via Correlation

    Full text link
    We study the problem of decomposing (clustering) a tree with respect to costs attributed to pairs of nodes, so as to minimize the sum of costs for those pairs of nodes that are in the same component (cluster). For the general case and for the special case of the tree being a star, we show that the problem is NP-hard. For the special case of the tree being a path, this problem is known to be polynomial time solvable. We characterize several classes of facets of the combinatorial polytope associated with a formulation of this clustering problem in terms of lifted multicuts. In particular, our results yield a complete totally dual integral (TDI) description of the lifted multicut polytope for paths, which establishes a connection to the combinatorial properties of alternative formulations such as set partitioning.Comment: v2 is a complete revisio

    Lifted edges as connectivity priors for multicut and disjoint paths

    Get PDF
    This work studies graph decompositions and their representation by 0/1 labeling of edges. We study two problems. The first is multicut (MC) which represents decompositions of undirected graphs (clustering of nodes into connected components). The second is disjoint paths (DP) in directed acyclic graphs where the clusters correspond to node- disjoint paths. Unlike an alternative representation by node labeling, the number of clusters is not part of the input but is fully determined by the costs of edges. Our main interest is to study connectivity priors represented by so-called lifted edges in the two problems. The cost of a lifted edge expresses whether its endpoints should belong to the same cluster (path) in the optimal decomposition. We call the resulting problems lifted multicut (LMC) and lifted disjoint paths (LDP). The extension of MC to LMC was originally motivated by image segmentation where the information about the connectivity between non-neighboring pixels or superpixels led to a significant quality improvement. After that, LMC was successfully applied to other problems like multiple object tracking (MOT) which is also the main application of our proposed LDP model. Our study of lifted multicut concentrates on partial LMC represented by labeling of a subset of (lifted) edges. Given partial labeling, we conclude that deciding whether a complete LMC consistent with the partial labels exists is NP-complete. Similarly, we conclude that deciding whether an unlabeled edge exists such that its label is determined by the labels of other edges is NP-hard. After that, we present metrics for comparing (partial) graph decompositions. Finally, we study the properties of the LMC polytope. The largest part of this work is dedicated to the proposed LDP problem. We prove that this problem is NP-hard and propose an optimal integer linear programming (ILP) solver. In order to enable its global optimization, we formulate several classes of linear inequalities that produce a high-quality LP relaxation. Additionally, we propose efficient cutting plane algorithms for separating the proposed linear inequalities. Despite the advanced constraints and efficient separation routines, the general time complexity of our optimal ILP solver remains exponential. In order to solve even larger instances, we introduce an approximate LDP solver based on Lagrange decomposition. LDP is a convenient model for MOT because the underlying disjoint paths model naturally leads to trajectories of objects. Moreover, lifted edges encode long-range temporal interactions and thus help to prevent id switches and re-identify persons. Our tracker using the optimal LDP solver achieves nearly optimal assignments w.r.t. input detections. Consequently, it was a leading tracker on three benchmarks of the MOT challenge MOT15/16/17, improving significantly over state-of-the-art at the time of its publication. Our approximate LDP solver enables us to process the MOT15/16/17 benchmarks without sacrificing solution quality and allows for solving large and dense instances of a challenging dataset MOT20. On all these four standard MOT benchmarks we achieved performance comparable or better than state-of-the-art methods (at the time of publication) including our tracker based on the optimal LDP solver.Diese Arbeit studiert Graphenzerlegungen und ihre Repräsentation durch 0/1-wertige Kantenbelegungen. Das erste Problem ist das Mehrfachschnittproblem. Es repräsentiert Zerlegungen von ungerichteten Graphen (Cluster von Knoten sodass jeder Cluster eine Zusammenhangskomponente repräsentiert). Das zweite Problem ist die Suche von disjunkten Pfaden in einem gerichteten azyklischen Graph in dem die Cluster knotendisjunkten Pfaden entsprechen. Im Unterschied zu der alternativen Repräsentation durch Knotenbelegungen ist die Zahl von Clustern nicht im Voraus gegeben, sondern sie ist abhängig von den Kosten der Kanten. Der Fokus dieser Arbeit ist die Erforschung von hochgezogenen Kannten, die eine apriori Information über Verbundenheit von Knoten in Clustern respektive durch Pfade in den zwei Problemen darstellen. Die Kosten einer hochgezogenen Kante drücken aus, ob ihre Knoten zu dem gleichen Cluster (Pfad) in der optimalen Zerlegung gehören sollten. Wir bezeichnen diese neuen Probleme als das hochgezogene Mehrfachschnittproblem und das Problem der hochgezogenen disjunkten Pfade. Die Erweiterung des Mehrfachschnittproblems zu dem hochgezogenen Mehrfachschnittproblem wurde ursprünglich durch die Bildsegmentierung motiviert, für die die Information über Verbundenheit von nicht benachbarten Pixeln oder Superpixeln zu einer bedeutenden Verbesserung der Qualität führte. Danach wurde das hochgezogene Mehrfachschnittproblem zu der Lösung von anderen Problemen wie zum Beispiel der Verfolgung von mehreren Objekten in einem Video angewendet. Diese Aufgabe ist auch die Hauptanwendung des vorgeschlagenen Problems der hochgezogenen disjunkte Pfade. In unserer Untersuchung des hochgezogenen Mehrfachschnittproblems konzentrieren wir uns auf das teilweise hochgezogene Mehrfachschnittproblem. Das Problem wird durch eine Belegung einer Teilmenge der (hochgezogenen) Kanten repräsentiert. Wir beweisen, dass es NP-vollständig ist zu entscheiden, ob ein kompletter hochgezogener Mehrfachschnitt existiert, der einer gegebenen teilweisen Kantenbezeichnung entspricht. In analogerWeise beweisen wir, dass es NP-schwer ist zu entscheiden, ob eine nicht belegte Kante existiert, deren Belegung durch die Belegungen anderer Kanten entschieden ist. Danach präsentieren wir Metriken zum Vergleich von (teilweisen) Graphenzerlegungen. Schließlich untersuchen wir Eigenschaften des hochgezogenen Mehrfachschnitt-Polytops. Der größte Teil dieser Arbeit widmet sich dem von uns vorgeschlagenen Problem der hochgezogenen disjunkten Pfade. Wir beweisen, dass es NP-schwer ist. Wir formulieren es als ein ganzzahliges lineares Optimierungsproblem und implementieren ein Programm für dessen optimale Lösung. Um die globale Optimierung zu ermöglichen, formulieren wir mehrere Klassen von linearen Ungleichungen, die zu einer linearen Relaxierung mit einer hohen Qualität führen. Zusätzlich präsentieren wir ein effektives Schnittebenenverfahren für die Separierung der vorgeschlagenen Ungleichungen. Trotz der fortgeschrittenen Ungleichungen und der Effizienz der Schnittebenenseparierung in unserem optimalen Löser bleibt die allgemeine Komplexität des Algorithmus exponentiell. Um noch kompliziertere Instanzen zu lösen, präsentieren wir einen approximativen Löser, der auf Lagrange-Dualität aufbaut. Hochgezogene disjunkte Pfade sind ein praktisches Modell für die Verfolgung von mehreren Objekten, weil die disjunkten Pfade eine natürliche Repräsentation von Trajektorien der Objekten darstellen. Außerdem repräsentieren die hochgezogenen Kanten Interaktionen einer langen zeitlichen Reichweite. Deswegen helfen sie dieselbe Person in zeitlich weiter auseinander liegenden Zeitpunkten wieder zu identifizieren und Verwechselungen ihrer Identität zu verhindern. Aus diesem Grund war unsere Methode zur Zeit ihrer Publikation die beste für drei Vergleichsdatensätzen MOT Challenge MOT15/16/17 für die Verfolgung von mehreren Objekten. Im Vergleich zu den bisherigen besten Methoden war ihre Leistung sogar bedeutend höher. Unsere approximative Methode für hochgezogene disjunkte Pfade ermöglicht uns die Vergleichsdatensätzen MOT15/16/17 zu verarbeiten ohne die Qualität der Lösungen zu vermindern und erlaubt uns, die großen Instanzen mit hoher Personendichte des anspruchsvolleren Datensatzes MOT20 zu lösen. Zur Zeit ihrer Publikation erreichte die Methode vergleichbare oder bessere Ergebnisse als die bisherigen besten Methoden einschließlich unseres optimalen Löser für hochgezogene disjunkte Pfade

    Generalizations of the Multicut Problem for Computer Vision

    Get PDF
    Graph decomposition has always been a very important concept in machine learning and computer vision. Many tasks like image and mesh segmentation, community detection in social networks, as well as object tracking and human pose estimation can be formulated as a graph decomposition problem. The multicut problem in particular is a popular model to optimize for a decomposition of a given graph. Its main advantage is that no prior knowledge about the number of components or their sizes is required. However, it has several limitations, which we address in this thesis: Firstly, the multicut problem allows to specify only cost or reward for putting two direct neighbours into distinct components. This limits the expressibility of the cost function. We introduce special edges into the graph that allow to define cost or reward for putting any two vertices into distinct components, while preserving the original set of feasible solutions. We show that this considerably improves the quality of image and mesh segmentations. Second, multicut is notorious to be NP-hard for general graphs, that limits its applications to small super-pixel graphs. We define and implement two primal feasible heuristics to solve the problem. They do not provide any guarantees on the runtime or quality of solutions, but in practice show good convergence behaviour. We perform an extensive comparison on multiple graphs of different sizes and properties. Third, we extend the multicut framework by introducing node labels, so that we can jointly optimize for graph decomposition and nodes classification by means of exactly the same optimization algorithm, thus eliminating the need to hand-tune optimizers for a particular task. To prove its universality we applied it to diverse computer vision tasks, including human pose estimation, multiple object tracking, and instance-aware semantic segmentation. We show that we can improve the results over the prior art using exactly the same data as in the original works. Finally, we use employ multicuts in two applications: 1) a client-server tool for interactive video segmentation: After the pre-processing of the video a user draws strokes on several frames and a time-coherent segmentation of the entire video is performed on-the-fly. 2) we formulate a method for simultaneous segmentation and tracking of living cells in microscopy data. This task is challenging as cells split and our algorithm accounts for this, creating parental hierarchies. We also present results on multiple model fitting. We find models in data heavily corrupted by noise by finding components defining these models using higher order multicuts. We introduce an interesting extension that allows our optimization to pick better hyperparameters for each discovered model. In summary, this thesis extends the multicut problem in different directions, proposes algorithms for optimization, and applies it to novel data and settings.Die Zerlegung von Graphen ist ein sehr wichtiges Konzept im maschinellen Lernen und maschinellen Sehen. Viele Aufgaben wie Bild- und Gittersegmentierung, Kommunitätserkennung in sozialen Netzwerken, sowie Objektverfolgung und Schätzung von menschlichen Posen können als Graphzerlegungsproblem formuliert werden. Der Mehrfachschnitt-Ansatz ist ein populäres Mittel um über die Zerlegungen eines gegebenen Graphen zu optimieren. Sein größter Vorteil ist, dass kein Vorwissen über die Anzahl an Komponenten und deren Größen benötigt wird. Dennoch hat er mehrere ernsthafte Limitierungen, welche wir in dieser Arbeit behandeln: Erstens erlaubt der klassische Mehrfachschnitt nur die Spezifikation von Kosten oder Belohnungen für die Trennung von zwei Nachbarn in verschiedene Komponenten. Dies schränkt die Ausdrucksfähigkeit der Kostenfunktion ein und führt zu suboptimalen Ergebnissen. Wir fügen dem Graphen spezielle Kanten hinzu, welche es erlauben, Kosten oder Belohnungen für die Trennung von beliebigen Paaren von Knoten in verschiedene Komponenten zu definieren, ohne die Menge an zulässigen Lösungen zu verändern. Wir zeigen, dass dies die Qualität von Bild- und Gittersegmentierungen deutlich verbessert. Zweitens ist das Mehrfachschnittproblem berüchtigt dafür NP-schwer für allgemeine Graphen zu sein, was die Anwendungen auf kleine superpixel-basierte Graphen einschränkt. Wir definieren und implementieren zwei primal-zulässige Heuristiken um das Problem zu lösen. Diese geben keine Garantien bezüglich der Laufzeit oder der Qualität der Lösungen, zeigen in der Praxis jedoch gutes Konvergenzverhalten. Wir führen einen ausführlichen Vergleich auf vielen Graphen verschiedener Größen und Eigenschaften durch. Drittens erweitern wir den Mehrfachschnitt-Ansatz um Knoten-Kennzeichnungen, sodass wir gemeinsam über Zerlegungen und Knoten-Klassifikationen mit dem gleichen Optimierungs-Algorithmus optimieren können. Dadurch wird der Bedarf der Feinabstimmung einzelner aufgabenspezifischer Löser aus dem Weg geräumt. Um die Allgemeingültigkeit dieses Ansatzes zu überprüfen, haben wir ihn auf verschiedenen Aufgaben des maschinellen Sehens, einschließlich menschliche Posenschätzung, Mehrobjektverfolgung und instanz-bewusste semantische Segmentierung, angewandt. Wir zeigen, dass wir Resultate von vorherigen Arbeiten mit exakt den gleichen Daten verbessern können. Abschließend benutzen wir Mehrfachschnitte in zwei Anwendungen: 1) Ein Nutzer-Server-Werkzeug für interaktive Video Segmentierung: Nach der Vorbearbeitung eines Videos zeichnet der Nutzer Striche auf mehrere Einzelbilder und eine zeit-kohärente Segmentierung des gesamten Videos wird in Echtzeit berechnet. 2) Wir formulieren eine Methode für simultane Segmentierung und Verfolgung von lebenden Zellen in Mikroskopie-Aufnahmen. Diese Aufgabe ist anspruchsvoll, da Zellen sich aufteilen und unser Algorithmus dies in der Erstellung von Eltern-Hierarchien mitberücksichtigen muss. Wir präsentieren außerdem Resultate zur Mehrmodellanpassung. Wir berechnen Modelle in stark verrauschten Daten indem wir mithilfe von Mehrfachschnitten höherer Ordnung Komponenten finden, die diesen Modellen entsprechen. Wir führen eine interessante Erweiterung ein, die es unserer Optimierung erlaubt, bessere Hyperparameter für jedes entdeckte Modell auszuwählen. Zusammenfassend erweitert diese Arbeit den Mehrfachschnitt-Ansatz in unterschiedlichen Richtungen, schlägt Algorithmen zur Inferenz in den resultierenden Modellen vor und wendet ihn auf neuartigen Daten und Umgebungen an

    Learning Embeddings for Image Clustering: An Empirical Study of Triplet Loss Approaches

    Full text link
    In this work, we evaluate two different image clustering objectives, k-means clustering and correlation clustering, in the context of Triplet Loss induced feature space embeddings. Specifically, we train a convolutional neural network to learn discriminative features by optimizing two popular versions of the Triplet Loss in order to study their clustering properties under the assumption of noisy labels. Additionally, we propose a new, simple Triplet Loss formulation, which shows desirable properties with respect to formal clustering objectives and outperforms the existing methods. We evaluate all three Triplet loss formulations for K-means and correlation clustering on the CIFAR-10 image classification dataset

    Unsupervised Multiple Person Tracking using AutoEncoder-Based Lifted Multicuts

    Full text link
    Multiple Object Tracking (MOT) is a long-standing task in computer vision. Current approaches based on the tracking by detection paradigm either require some sort of domain knowledge or supervision to associate data correctly into tracks. In this work, we present an unsupervised multiple object tracking approach based on visual features and minimum cost lifted multicuts. Our method is based on straight-forward spatio-temporal cues that can be extracted from neighboring frames in an image sequences without superivison. Clustering based on these cues enables us to learn the required appearance invariances for the tracking task at hand and train an autoencoder to generate suitable latent representation. Thus, the resulting latent representations can serve as robust appearance cues for tracking even over large temporal distances where no reliable spatio-temporal features could be extracted. We show that, despite being trained without using the provided annotations, our model provides competitive results on the challenging MOT Benchmark for pedestrian tracking

    Efficient Algorithms for Moral Lineage Tracing

    Full text link
    Lineage tracing, the joint segmentation and tracking of living cells as they move and divide in a sequence of light microscopy images, is a challenging task. Jug et al. have proposed a mathematical abstraction of this task, the moral lineage tracing problem (MLTP), whose feasible solutions define both a segmentation of every image and a lineage forest of cells. Their branch-and-cut algorithm, however, is prone to many cuts and slow convergence for large instances. To address this problem, we make three contributions: (i) we devise the first efficient primal feasible local search algorithms for the MLTP, (ii) we improve the branch-and-cut algorithm by separating tighter cutting planes and by incorporating our primal algorithms, (iii) we show in experiments that our algorithms find accurate solutions on the problem instances of Jug et al. and scale to larger instances, leveraging moral lineage tracing to practical significance.Comment: Accepted at ICCV 201
    corecore