12 research outputs found

    Discrete-Continuous ADMM for Transductive Inference in Higher-Order MRFs

    Full text link
    This paper introduces a novel algorithm for transductive inference in higher-order MRFs, where the unary energies are parameterized by a variable classifier. The considered task is posed as a joint optimization problem in the continuous classifier parameters and the discrete label variables. In contrast to prior approaches such as convex relaxations, we propose an advantageous decoupling of the objective function into discrete and continuous subproblems and a novel, efficient optimization method related to ADMM. This approach preserves integrality of the discrete label variables and guarantees global convergence to a critical point. We demonstrate the advantages of our approach in several experiments including video object segmentation on the DAVIS data set and interactive image segmentation

    Weakly Supervised Semantic Segmentation Using Constrained Dominant Sets

    Full text link
    The availability of large-scale data sets is an essential pre-requisite for deep learning based semantic segmentation schemes. Since obtaining pixel-level labels is extremely expensive, supervising deep semantic segmentation networks using low-cost weak annotations has been an attractive research problem in recent years. In this work, we explore the potential of Constrained Dominant Sets (CDS) for generating multi-labeled full mask predictions to train a fully convolutional network (FCN) for semantic segmentation. Our experimental results show that using CDS's yields higher-quality mask predictions compared to methods that have been adopted in the literature for the same purpose

    Lucid Data Dreaming for Video Object Segmentation

    Full text link
    Convolutional networks reach top quality in pixel-level video object segmentation but require a large amount of training data (1k~100k) to deliver such results. We propose a new training strategy which achieves state-of-the-art results across three evaluation datasets while using 20x~1000x less annotated data than competing methods. Our approach is suitable for both single and multiple object segmentation. Instead of using large training sets hoping to generalize across domains, we generate in-domain training data using the provided annotation on the first frame of each video to synthesize ("lucid dream") plausible future video frames. In-domain per-video training data allows us to train high quality appearance- and motion-based models, as well as tune the post-processing stage. This approach allows to reach competitive results even when training from only a single annotated frame, without ImageNet pre-training. Our results indicate that using a larger training set is not automatically better, and that for the video object segmentation task a smaller training set that is closer to the target domain is more effective. This changes the mindset regarding how many training samples and general "objectness" knowledge are required for the video object segmentation task.Comment: Accepted in International Journal of Computer Vision (IJCV

    Preconditioned Algorithm for Difference of Convex Functions with applications to Graph Ginzburg-Landau Model

    Full text link
    In this work, we propose and study a preconditioned framework with a graphic Ginzburg-Landau functional for image segmentation and data clustering by parallel computing. Solving nonlocal models is usually challenging due to the huge computation burden. For the nonconvex and nonlocal variational functional, we propose several damped Jacobi and generalized Richardson preconditioners for the large-scale linear systems within a difference of convex functions algorithms framework. They are efficient for parallel computing with GPU and can leverage the computational cost. Our framework also provides flexible step sizes with a global convergence guarantee. Numerical experiments show the proposed algorithms are very competitive compared to the singular value decomposition based spectral method

    Optimization for Image Segmentation

    Get PDF
    Image segmentation, i.e., assigning each pixel a discrete label, is an essential task in computer vision with lots of applications. Major techniques for segmentation include for example Markov Random Field (MRF), Kernel Clustering (KC), and nowadays popular Convolutional Neural Networks (CNN). In this work, we focus on optimization for image segmentation. Techniques like MRF, KC, and CNN optimize MRF energies, KC criteria, or CNN losses respectively, and their corresponding optimization is very different. We are interested in the synergy and the complementary benefits of MRF, KC, and CNN for interactive segmentation and semantic segmentation. Our first contribution is pseudo-bound optimization for binary MRF energies that are high-order or non-submodular. Secondly, we propose Kernel Cut, a novel formulation for segmentation, which combines MRF regularization with Kernel Clustering. We show why to combine KC with MRF and how to optimize the joint objective. In the third part, we discuss how deep CNN segmentation can benefit from non-deep (i.e., shallow) methods like MRF and KC. In particular, we propose regularized losses for weakly-supervised CNN segmentation, in which we can integrate MRF energy or KC criteria as part of the losses. Minimization of regularized losses is a principled approach to semi-supervised learning, in general. Our regularized loss method is very simple and allows different kinds of regularization losses for CNN segmentation. We also study the optimization of regularized losses beyond gradient descent. Our regularized losses approach achieves state-of-the-art accuracy in semantic segmentation with near full supervision quality

    画像の局所統計量に基づくフォーカルブラー領域分割

    Get PDF
     被写体と焦点距離の関係によって生じるフォーカルブラーは画像撮影に伴う典型的な現象であり,画像のブラー情報を解析する技術はコンピュータビジョンの重要課題の一つである.フォーカルブラーからはシーンの相対的な奥行きや,撮影者の注目領域などシーンに関する有用な情報が得られる.フォーカルブラー領域分割はこれらの情報を解析し有効に利用するための技術であり,様々なアプリケーションの性能向上に寄与する.本論文では,フォーカルブラー領域分割手法の精度向上を目的として,(1)ブラー特徴推定の阻害要因に頑健なブラー特徴推定,(2)単一画像に対するブラー領域分割,および(3)2 枚の画像を用いたブラー領域分割手法を提案する.さらに,フォーカルブラー領域分割手法を含む2値領域分割の有効性を適切に評価するため,クラスタリングとクラス分類の文脈に基づいてブラー領域分割精度評価尺度を検証する.本論文ではブラー特徴推定の阻害要因に頑健なブラー特徴量としてANGHS (Amplitude-Normalized Gradient Histogram Span) を提案する.ANGHSは局所領域の輝度勾配を輝度振幅で正規化し,さらに輝度勾配ヒストグラムの裾の重さを評価する.本論文が提案するANGHSは局所領域内の輝度変化の少ない画素集合に対する頑健性に加え,輝度振幅に対する頑健性を備えている.単一画像に対するブラー領域分割では,ブラー特徴マップの識別性能が精度に大きく影響する点に着目し,識別性能の高いブラー特徴マップ推定法を提案する.ブラー特徴マップの識別性能向上のために,(i)複数サイズのグリッド分割を利用したスパースブラー特徴マップ推定と(ii)EAI (Edge Aware Interpolation) によるブラー特徴マップ推定を適用する.さらに領域分割ではまず,大津法を用いてブラー特徴マップを初期分割し,その後,初期分割結果と色特徴,およびブラー特徴を併用したGraphcutsを用いて初期分割結果を修正することで,ノンパラメトリック推定に基づく大域的領域分割とエネルギー最小化に基づく領域の高精細化によって精度を向上させる2段階領域分割を提案する.2枚の画像を用いたブラー領域分割手法では,2枚のブラーが異なる画像対からブラー差分特徴を求めることで,被写体と背景を分割する理論的なしきい値が定義できることに着目する.2枚のフォーカルブラー画像から推定したブラー差分特徴マップを理論的なしきい値で分割する.さらに,色特徴と被写体合焦画像から求めたブラー特徴マップを併用したGraphcutsで初期分割結果を補正することで精度の向上を図る.フォーカルブラー領域分割の精度評価では,2値領域分割がクラスタリングとクラス分類の問題として捉えられる点に着目し,各文脈における最適な評価尺度を検証する.本論文では,クラスタリングとクラス分類の各文脈についてフォーカルブラー領域分割精度評価のための要求事項を定義する.要求事項についてF1 Score, Intersection over Union, Accuracy, Matthews Correlation Coefficient, Informednessの各評価尺度を比較し,クラスタリングとクラス分類の各文脈において,Informednessの絶対値とInformednessがそれぞれ最適な評価尺度であることを示す.さらに,アルゴリズムを複数の観点から比較可能な統計的要約手法として,複数の領域分割パラメータを試行した際の最高精度と平均精度を用いた統計的要約手法を提案する. 精度評価では,ブラー特徴マップの識別性能評価,単一画像に対するブラー領域分割の精度評価,2枚の画像を用いたブラー領域分割の精度評価を行う.最初に,ブラー特徴マップの識別性能評価では5種類の従来手法によるブラー特徴マップと比較した結果,提案手法によるクラス分類の最高分割性能は0:780 ポイントの精度となり従来手法に対して最小で0:092ポイント,最大で0:366ポイント精度が向上した.また,大津法を用いた際のクラス分類における分割性能は0:697ポイントの精度となり,従来手法に対して最小で0:201ポイント,最大で0:400ポイント精度が向上した.次に,単一画像に対するブラー領域分割精度を比較した.提案領域分割手法は,従来手法を含むすべてのブラー特徴マップに対してクラス分類における分割精度が改善しており,汎用性の高い手法となっている。提案手法はクラス分類において0:722ポイントの精度となり,従来手法に対して最小で0:158ポイント,最大で0:373ポイント精度が向上した.最後に,2 枚の画像を用いたブラー領域分割の精度評価では,単一画像に対するブラー領域分割と精度比較を行った.2枚の画像を用いたブラー領域分割はシンプルな被写体で0:988ポイントの精度となり,単一画像に対する領域分割に対して0:095ポイント精度が向上した.複雑な花画像においては2枚の画像を用いたブラー領域分割は0:827ポイントの精度となり,単一画像に対する領域分割に対して0:058ポイント精度が向上した.また,単一画像に対するブラー領域分割では分割性能が悪い画像に対しても2枚の画像を用いたブラー領域分割は精度が改善されており,提案手法の有効性を示した.電気通信大学201
    corecore