261 research outputs found

    Object Tracking in Distributed Video Networks Using Multi-Dimentional Signatures

    Get PDF
    From being an expensive toy in the hands of governmental agencies, computers have evolved a long way from the huge vacuum tube-based machines to today\u27s small but more than thousand times powerful personal computers. Computers have long been investigated as the foundation for an artificial vision system. The computer vision discipline has seen a rapid development over the past few decades from rudimentary motion detection systems to complex modekbased object motion analyzing algorithms. Our work is one such improvement over previous algorithms developed for the purpose of object motion analysis in video feeds. Our work is based on the principle of multi-dimensional object signatures. Object signatures are constructed from individual attributes extracted through video processing. While past work has proceeded on similar lines, the lack of a comprehensive object definition model severely restricts the application of such algorithms to controlled situations. In conditions with varying external factors, such algorithms perform less efficiently due to inherent assumptions of constancy of attribute values. Our approach assumes a variable environment where the attribute values recorded of an object are deemed prone to variability. The variations in the accuracy in object attribute values has been addressed by incorporating weights for each attribute that vary according to local conditions at a sensor location. This ensures that attribute values with higher accuracy can be accorded more credibility in the object matching process. Variations in attribute values (such as surface color of the object) were also addressed by means of applying error corrections such as shadow elimination from the detected object profile. Experiments were conducted to verify our hypothesis. The results established the validity of our approach as higher matching accuracy was obtained with our multi-dimensional approach than with a single-attribute based comparison

    Image sequence restoration by median filtering

    Get PDF
    Median filters are non-linear filters that fit in the generic category of order-statistic filters. Median filters are widely used for reducing random defects, commonly characterized by impulse or salt and pepper noise in a single image. Motion estimation is the process of estimating the displacement vector between like pixels in the current frame and the reference frame. When dealing with a motion sequence, the motion vectors are the key for operating on corresponding pixels in several frames. This work explores the use of various motion estimation algorithms in combination with various median filter algorithms to provide noise suppression. The results are compared using two sets of metrics: performance-based and objective image quality-based. These results are used to determine the best motion estimation / median filter combination for image sequence restoration. The primary goals of this work are to implement a motion estimation and median filter algorithm in hardware and develop and benchmark a flexible software alternative restoration process. There are two unique median filter algorithms to this work. The first filter is a modification to a single frame adaptive median filter. The modification applied motion compensation and temporal concepts. The other is an adaptive extension to the multi-level (ML3D) filter, called adaptive multi-level (AML3D) filter. The extension provides adaptable filter window sizes to the multiple filter sets that comprise the ML3D filter. The adaptive median filter is capable of filtering an image in 26.88 seconds per frame and results in a PSNR improvement of 5.452dB. The AML3D is capable of filtering an image in 14.73 seconds per frame and results in a PSNR improvement of 6.273dB. The AML3D is a suitable alternative to the other median filters

    Scene verification using an imaging model in 3-D computer vision

    Get PDF

    Motion compensation for image compression: pel-recursive motion estimation algorithm

    Get PDF
    In motion pictures there is a certain amount of redundancy between consecutive frames. These redundancies can be exploited by using interframe prediction techniques. To further enhance the efficiency of interframe prediction, motion estimation and compensation, various motion compensation techniques can be used. There are two distinct techniques for motion estimation block matching and pel-recursive block matching has been widely used as it produces a better signal-to-noise ratio or a lower bit rate for transmission than the pel-recursive method. In this thesis, various pel-recursive motion estimation techniques such as steepest descent gradient algorithm have been considered and simulated. [Continues.

    Classification-Based Adaptive Search Algorithm for Video Motion Estimation

    Get PDF
    A video sequence consists of a series of frames. In order to compress the video for efficient storage and transmission, the temporal redundancy among adjacent frames must be exploited. A frame is selected as reference frame and subsequent frames are predicted from the reference frame using a technique known as motion estimation. Real videos contain a mixture of motions with slow and fast contents. Among block matching motion estimation algorithms, the full search algorithm is known for its superiority in the performance over other matching techniques. However, this method is computationally very extensive. Several fast block matching algorithms (FBMAs) have been proposed in the literature with the aim to reduce computational costs while maintaining desired quality performance, but all these methods are considered to be sub-optimal. No fixed fast block matching algorithm can effi- ciently remove temporal redundancy of video sequences with wide motion contents. Adaptive fast block matching algorithm, called classification based adaptive search (CBAS) has been proposed. A Bayes classifier is applied to classify the motions into slow and fast categories. Accordingly, appropriate search strategy is applied for each class. The algorithm switches between different search patterns according to the content of motions within video frames. The proposed technique outperforms conventional stand-alone fast block matching methods in terms of both peak signal to noise ratio (PSNR) and computational complexity. In addition, a new hierarchical method for detecting and classifying shot boundaries in video sequences is proposed which is based on information theoretic classification (ITC). ITC relies on likelihood of class label transmission of a data point to the data points in its vicinity. ITC focuses on maximizing the global transmission of true class labels and classify the frames into classes of cuts and non-cuts. Applying the same rule, the non-cut frames are also classified into two categories of arbitrary shot frames and gradual transition frames. CBAS is applied on the proposed shot detection method to handle camera or object motions. Experimental evidence demonstrates that our method can detect shot breaks with high accuracy

    Energy efficient enabling technologies for semantic video processing on mobile devices

    Get PDF
    Semantic object-based processing will play an increasingly important role in future multimedia systems due to the ubiquity of digital multimedia capture/playback technologies and increasing storage capacity. Although the object based paradigm has many undeniable benefits, numerous technical challenges remain before the applications becomes pervasive, particularly on computational constrained mobile devices. A fundamental issue is the ill-posed problem of semantic object segmentation. Furthermore, on battery powered mobile computing devices, the additional algorithmic complexity of semantic object based processing compared to conventional video processing is highly undesirable both from a real-time operation and battery life perspective. This thesis attempts to tackle these issues by firstly constraining the solution space and focusing on the human face as a primary semantic concept of use to users of mobile devices. A novel face detection algorithm is proposed, which from the outset was designed to be amenable to be offloaded from the host microprocessor to dedicated hardware, thereby providing real-time performance and reducing power consumption. The algorithm uses an Artificial Neural Network (ANN), whose topology and weights are evolved via a genetic algorithm (GA). The computational burden of the ANN evaluation is offloaded to a dedicated hardware accelerator, which is capable of processing any evolved network topology. Efficient arithmetic circuitry, which leverages modified Booth recoding, column compressors and carry save adders, is adopted throughout the design. To tackle the increased computational costs associated with object tracking or object based shape encoding, a novel energy efficient binary motion estimation architecture is proposed. Energy is reduced in the proposed motion estimation architecture by minimising the redundant operations inherent in the binary data. Both architectures are shown to compare favourable with the relevant prior art

    Street Surfaces and Boundaries from Depth Image Sequences Using Probabilistic Models

    Get PDF
    This thesis presents an approach for the detection and reconstruction of street surfaces and boundaries from depth image sequences. Active driver assistance systems which monitor and interpret the environment based on vehicle mounted sensors to support the driver embody a current research focus of the automotive industry. An essential task of these systems is the modeling of the vehicle's static environment. This comprises the determination of the vertical slope and curvature characteristics of the street surface as well as the robust detection of obstacles and, thus, the free drivable space (alias free-space). In this regard, obstacles of low height, e.g. curbs, are of special interest since they often embody the first geometric delimiter of the free-space. The usage of depth images acquired from stereo camera systems becomes more important in this context due to the high data rate and affordable price of the sensor. However, recent approaches for object detection are often limited to the detection of objects which are distinctive in height, such as cars and guardrails, or explicitly address the detection of particular object classes. These approaches are usually based on extremely restrictive assumptions, such as planar street surfaces, in order to deal with the high measurement noise. The main contribution of this thesis is the development, analysis and evaluation of an approach which detects the free-space in the immediate maneuvering area in front of the vehicle and explicitly models the free-space boundary by means of a spline curve. The approach considers in particular obstacles of low height (higher than 10 cm) without limitation on particular object classes. Furthermore, the approach has the ability to cope with various slope and curvature characteristics of the observed street surface and is able to reconstruct this surface by means of a flexible spline model. In order to allow for robust results despite the flexibility of the model and the high measurement noise, the approach employs probabilistic models for the preprocessing of the depth map data as well as for the detection of the drivable free-space. An elevation model is computed from the depth map considering the paths of the optical rays and the uncertainty of the depth measurements. Based on this elevation model, an iterative two step approach is performed which determines the drivable free-space by means of a Markov Random Field and estimates the spline parameters of the free-space boundary curve and the street surface. Outliers in the elevation data are explicitly modeled. The performance of the overall approach and the influence of key components are systematically evaluated within experiments on synthetic and real world test scenarios. The results demonstrate the ability of the approach to accurately model the boundary of the drivable free-space as well as the street surface even in complex scenarios with multiple obstacles or strong curvature of the street surface. The experiments further reveal the limitations of the approach, which are discussed in detail.Schätzung von Straßenoberflächen und -begrenzungen aus Sequenzen von Tiefenkarten unter Verwendung probabilistischer Modelle Diese Arbeit präsentiert ein Verfahren zur Detektion und Rekonstruktion von Straßenoberflächen und -begrenzungen auf der Basis von Tiefenkarten. Aktive Fahrerassistenzsysteme, welche mit der im Fahrzeug verbauten Sensorik die Umgebung erfassen, interpretieren und den Fahrer unterstützen, sind ein aktueller Forschungsschwerpunkt der Fahrzeugindustrie. Eine wesentliche Aufgabe dieser Systeme ist die Modellierung der statischen Fahrzeugumgebung. Dies beinhaltet die Bestimmung der vertikalen Neigungs- und Krümmungseigenschaften der Fahrbahn, sowie die robuste Detektion von Hindernissen und somit des befahrbaren Freiraumes. Hindernisse von geringer Höhe, wie z.B. Bordsteine, sind in diesem Zusammenhang von besonderem Interesse, da sie häufig die erste geometrische Begrenzung des Fahrbahnbereiches darstellen. In diesem Kontext gewinnt die Verwendung von Tiefenkarten aus Stereo-Kamera-Systemen wegen der hohen Datenrate und relativ geringen Kosten des Sensors zunehmend an Bedeutung. Aufgrund des starken Messrauschens beschränken sich herkömmliche Verfahren zur Hinderniserkennung jedoch meist auf erhabene Objekte wie Fahrzeuge oder Leitplanken, oder aber adressieren einzelne Objektklassen wie Bordsteine explizit. Dazu werden häufig extrem restriktive Annahmen verwendet wie z.B. planare Straßenoberflächen. Der Hauptbeitrag dieser Arbeit besteht in der Entwicklung, Analyse und Evaluation eines Verfahrens, welches den befahrbaren Freiraum im Nahbereich des Fahrzeugs detektiert und dessen Begrenzung mit Hilfe einer Spline-Kurve explizit modelliert. Das Verfahren berücksichtigt insbesondere Hindernisse geringer Höhe (größer als 10 cm) ohne Beschränkung auf bestimmte Objektklassen. Weiterhin ist das Verfahren in der Lage, mit verschiedenartigen Neigungs- und Krümmungseigenschaften der vor dem Fahrzeug liegenden Fahrbahnoberfläche umzugehen und diese durch Verwendung eines flexiblen Spline-Modells zu rekonstruieren. Um trotz der hohen Flexibilität des Modells und des hohen Messrauschens robuste Ergebnisse zu erzielen, verwendet das Verfahren probabilistische Modelle zur Vorverarbeitung der Eingabedaten und zur Detektion des befahrbaren Freiraumes. Aus den Tiefenkarten wird unter Berücksichtigung der Strahlengänge und Unsicherheiten der Tiefenmessungen ein Höhenmodell berechnet. In einem iterativen Zwei-Schritt-Verfahren werden anhand dieses Höhenmodells der befahrbare Freiraum mit Hilfe eines Markov-Zufallsfeldes bestimmt sowie die Parameter der begrenzenden Spline-Kurve und Straßenoberfläche geschätzt. Ausreißer in den Höhendaten werden dabei explizit modelliert. Die Leistungsfähigkeit des Gesamtverfahrens sowie der Einfluss zentraler Komponenten, wird im Rahmen von Experimenten auf synthetischen und realen Testszenen systematisch analysiert. Die Ergebnisse demonstrieren die Fähigkeit des Verfahrens, die Begrenzung des befahrbaren Freiraumes sowie die Fahrbahnoberfläche selbst in komplexen Szenarien mit multiplen Hindernissen oder starker Fahrbahnkrümmung akkurat zu modellieren. Weiterhin werden die Grenzen des Verfahrens aufgezeigt und detailliert untersucht

    A Convex Optimization Approach for Depth Estimation Under Illumination Variation

    Full text link

    Digital Video Stabilization With Sift Flow

    Get PDF
    Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2015Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2015Bu çalı¸smada, bir videonun istenmeyen kamera hareketlerinin olabildi˘gince giderilmesi ele alınmaktadır. Videolardaki istenmeyen kamera hareketleri çekimin araba, helikopter gibi hareketli bir ortamda yapılması, kullanıcının elinin titremesi ya da güvenlik kameralarında rüzgar gibi hava ko¸sulları sebebiyle meydana gelebilir. Bu hareketler, videonun görsel kalitesini bozarak izleyicileri rahatsız edebilir. Bununla birlikte, hedef takibi gibi sayısal video i¸sleme uygulamalarında da belirsizliklere ve yanlı¸slıklara neden olmaktadır. Bu nedenle, sayısal video i¸sleme uygulamalarına geçmeden önce istenmeyen kamera hareketlerinin giderilmesi (video sabitleme) gerekmektedir. ˙Istenmeyen kamera hareketlerinin giderilmesi sonucunda görsel olarak daha yumu¸sak geçi¸sleri olan bir video olu¸sturulması amaçlanmaktadır. Literatürde, temel olarak üç çe¸sit video sabitleme yönteminden bahsedilmektedir. Bu yöntemler, mekanik, optik ve sayısal video sabitleme olarak adlandırılmaktadır. Mekanik video sabitlemenin amacı, kameranın üzerinde durdu˘gu platformun hareketinin algılanarak kamerayı titre¸simsiz bir çekim yapacak ¸sekilde fiziksel olarak düzeltmektir. Oldukça iyi sonuçların alınabildi˘gi mekanik video sabitlemede kamera dı¸sında ta¸sınması gereken aygıtlar bulundu˘gu için günlük kullanım ve amatör kullanıcılar için uygun olmayabilir. Bir di˘ger yöntem ise optik video sabitlemedir. Optik video sabitlemenin amacı ise kamera içindeki mercek grubunu görüntünün titre¸simine uygun olarak de˘gi¸sikli˘ge u˘gratmak ve görüntü düzlemine ula¸san ı¸sınların düzeltilmesini sa˘glamaktır. Son yıllarda, video kameraların pek ço˘gunda optik video sabitleme özelli˘gi bulunmaktadır. Buraya kadar bahsedilen iki video sabitleme yöntemi de istenmeyen hareketlerden arınmı¸s videolar çekmeyi amaçlamaktadır. Üçüncü ve son yöntem olan sayısal video sabitleme, sayısal video i¸sleme yöntemleri kullanılarak videolardaki titre¸simi gidermeye çalı¸smaktadır. Uygulamaya göre gerçek zamanlı ya da çekim sonrası i¸sleme ¸seklinde iki seçene˘gi mevcuttur. Gerçek zamanlı video sabitleme mobil cihazlara uygulanabilmektedir ve çekim sırasında titre¸simli çerçeveleri düzeltmeyi amaçlamaktadır. Bu yöntemin sakıncalı yanı, zaman kısıtlaması olmasıdır. Kullanılan yöntemlerin hesaplama karma¸sıklı˘gının ve süresinin mümkün oldu˘gunca az olması gerekmektedir. Bu nedenle, daha kolay uygulanabilir yöntemler tercih edilir. Örne˘gin, video sabitleme uygulamalarında en temel adım olan hareket kestriminde basitli˘gi sebebiyle ötelemeye dayalı hareket modeli kullanınabilmektedir. Gerçek zamanlı video sabitleme ile mobil uygulamalar için yeterli olabilecek bir sabitleme gerçekle¸stirilebilir. Ancak do˘grulu˘gu daha yüksek bir uygulamaya ihtiyaç varsa zaman kısıtlması olmayan çekim sonrası i¸sleme tercih edilmelidir. Bu yolla, gürültü, geometrik dönü¸sümler, ı¸sık de˘gi¸simleri gibi etkenlere daha dayanıklı ve hesaplama karma¸sıklı˘gı nispeten fazla olan daha kapsamlı yöntemler kullanılabilir. Bu nedenle, çekim sonrası video i¸sleme yöntemlerinin do˘grulu˘gu ve görsel kalitesi gerçek zamanlı yöntemlere göre daha iyi olmaktadır. Bu yöntemin olumsuz yani ise artan hesap karma¸sıklı˘gı ile programların çalı¸sma süresinin uzamasıdır. Her ne kadar gerçek zamanlı yöntemler gibi hesaplama süresi üzerinde bir kısıtlama olmasa da titre¸simsiz videoları elde etme süresinin kabul edilebilir ölçülerde olması gerekmektedir. Sayısal video sabitleme, hareket kestirimi ve hareket kar¸sılama olmak üzere iki temel adımdan olu¸smaktadır. Özellikle hareket kestiriminin do˘grulu˘gu video sabitleme uygulamaları açısından büyük öneme sahiptir. Hareket kestirimi sırasında meydana gelebilecek herhangi bir hata, video sabitleme performansının bütününü etkilemektedir. Bu nedenle, dayanıklı ve do˘grulu˘gu yüksek bir hareket kestirimi yöntemi tercih edilmelidir. Hareket kestirimi, blok e¸sleme algoritması, optik akı¸s yöntemleri, faz ili¸skisi, vb. çe¸sitli yöntemler kullanılarak gerçekle¸stirilmektedir. Bahsedilen bu yöntemler kullanılarak kom¸su video çerçevelerinin pikselleri veya piksel blokları e¸slenerek aralarındaki yer de˘gi¸stirme kestirilmeye çalı¸sılır. Bu e¸sleme esnasında, piksellerin gri seviye de˘gerleri, kenar, kö¸se noktaları ya da çerçeveler boyunca istikrarlı kalabilecek bir takım öznitelikler kullanılabilir. Tahmin edilece˘gi üzere gürültü, ı¸sık de˘gi¸simleri, ölçek ve geometrik dönü¸süm de˘gi¸simlerine kar¸sı dayanıksızlı˘gı sebebiyle do˘grudan piksellerin gri düzeylerini kullanmak tercih edilen bir yol de˘gildir. Bu nedenle video çerçevelerini e¸slerken Scale Invarinat Feature Transform (SIFT), Speeded up Robust Features (SURF), Oriented FAST and Rotated BRIEF (ORB), vb. özniteliklerden yararlanılmaktadır. Öznitelik tabanlı görüntü i¸sleme algoritmaları her ne kadar ayırt edici noktalar bulabilse de çerçeve içinde hareket eden nesneler ya da yanlı¸s e¸slemeler sebebiyle hareket kestiriminde istenmeyen sonuçlarla kar¸sıla¸sılabilir. Yanlı¸s e¸slemeler nedeniyle seçilen hareket modeline uymayan ya da hareket eden cisimler nedeniyle hareket vektörlerinde yerel de˘gi¸simlere sebep olan bu noktalar aykırı noktalar olarak adlandırılabilir. Aykırı noktalar, bir video sabitleme algoritması için büyük öneme sahip olan global hareketin kestirilme performansını olumsuz etkilemektedir. Bu nedenle, aykırı noktaların elenmesi gerekmektedir. 1981’de Fischler ve Bolles tarafından önerilen Random Sample Consensus (RANSAC) sık kullanılan bir aykırı nokta eleyici algoritmadır. Ayrık noktalar elendikten sonra artık video sabitleme için gerekli olan global hareket, elemeden geçen noktalar ile kestirilmeye çalı¸sılır. Ardı¸sık video çerçeveleri arasında bulunan hareket, iki boyutlu bir akı¸s alanı olarak ifade edilebilmektedir. ˙Iki boyutlu akı¸s vektörlerinin elemanları, yatay ve dü¸sey eksendeki yer de˘gi¸stirmeyi göstermektedir. Hesaplamalarda kolaylık sa˘gladı˘gı için yatay ve dü¸sey yer de˘gi¸stirmeler genellikle birbirlerinden ba˘gımsız olarak ele alınmaktadır. Bu akı¸s vektörlerini elde edebilmek için ayrık, sürekli ya da kabadan inceye e¸sleme yöntemleri bulunmaktadır. Ayrıca kom¸su çerçeveler arasındaki hareketi geometrik bir dönü¸süm olarak ifade etmek de mümkündür. Video sabitleme problemlerinde de sıkça kullanılan iki boyutlu parametrik hareket kestirimi, iki boyutlu yer de˘gi¸stirmeleri kullanarak ardı¸sık çerçeveler arasında geometrik bir dönü¸süm bulmayı hedefler. Yaygın olarak kullanılan parametrik hareket modelleri iki boyutlu do˘grusal koordinat dönü¸sümleridir. Bu çalı¸smada SIFT özniteliklerinden yararlanan ve optik akı¸s algoritmasından esinlenen bir e¸sleme yöntemi olan SIFT akı¸sı kullanılmı¸stır. SIFT akı¸sı, orijinal görüntüleri kullanarak her noktasında 128 boyutlu SIFT öznitelik vektörleri olan SIFT gürüntülerini elde eder. Böylece orijinal SIFT yöntemine göre daha sık bir SIFT gösterilimi elde edilmi¸s olur. Ancak SIFT akı¸sı SIFT özniteliklerini hesaplarken orijinal SIFT öznitelik çıkarma adımlarının tamamını izlemez. Buna ra˘gmen görüntü e¸slemede piksellerin gri düzey de˘gerlerini kullanmak yerine SIFT akı¸sı yönteminde hesaplanan SIFT özniteliklerini kullanmak gürültü, geometrik dönü¸sümler, ı¸sık de˘gi¸sikleri vb. etkenlere kar¸sı dayanıklılık sa˘glamaktadır. SIFT akı¸sı, SIFT görüntülerini optik akı¸sa benzer bir yakla¸sım ile e¸slemektedir. SIFT akı¸sının enerji fonksiyonu, yer de˘gi¸stirmenin akı¸s vektörleri boyunca olaca˘gı, bu akı¸s vektörlerinin Taylor açılımını sa˘glayacak kadar küçük bulunaca˘gı ve kom¸su akı¸s vektörlerinin birbirine benzer olaca˘gı yani süreksizliklerin kontrol altına alınabildi˘gi bir yapıda seçilmi¸stir. Enerji fonksiyonu ayrıca parçalı Markov Rastgele Alanı (piecewise Markov Random Field) ¸seklinde modellenmi¸stir ve böylece bu maliyet fonksiyonunu enküçülten akı¸s vektörlerinin bulunmasında Bayesçi bir yakla¸sım olan inanç aktarımı (belief propagation) yöntemi kullanılabilmektedir. SIFT akı¸sı sonucunda ardı¸sık iki çerçeve arasındaki yer de˘gi¸stirmeleri ifade eden akı¸s alanı elde edilmi¸s olmaktadır. Bu a¸samada ortaya çıkabilecek aykırı noktalar RANSAC kullanılarak elenmektedir. RANSAC algoritmasında öncelikle, göz önüne alınan hareket modelinin çözümü için gereken en az sayıda nokta rasgele seçilir. Bu noktalar kullanılarak bir ba¸slangıç hareket modeli hesaplanır. Daha sonra elimizdeki noktalardan bu modele uyan bir altküme seçilir. Noktaların modele uygunlu˘guna bakılırken kullanılan ölçüt ise Öklid uzaklı˘gına dayanmaktadır. ˙Ilk iterasyon sonucu testten geçen noktaların sayısı e˘ger önceden belirlenen olası veri içindeki modele uyumlu nokta sayısından daha fazla ise program sonlandırılır, de˘gilse ba¸sa dönülür ve i¸slemler tekrarlanır. RANSAC algoritması sonucunda elde edilen bütün uyumlu noktalar hareket modelinin bulunmasında kullanılmaktadır. Bu çalı¸smada model parametrelerini bulmak için en küçük kareler yöntemi kullanılmı¸stır. Ortalama almaya dayalı bir yöntem oldu˘gu için en küçük karelerin sonucu aykırı noktaların varlı˘gından oldukça etkilenmektedir. Bu nedenle, bu çalı¸smada en küçük kareler RANSAC ile aykırı noktalar elendikten sonra kullanılmı¸stır. Ancak bazı durumlarda sadece RANSAC algoritmasını kullanmak aykırı noktaların sonucu etkilemesini önlemeye yetmemektedir. Örne˘gin, videolarda hızla hareket eden ve oldukça çok yer kaplayan cisimlere ait noktalar RANSAC tarafından elenemeyecek aykırı noktalardır. Bu sorununun üstesinden gelmek için video çerçevesindeki noktalar kabul edilen hareket modeline uygunlukları açısından bir seçime tabi tutulmu¸stur. Hareketli cisimlerin genellikle çerçevenin ön planında yani ço˘gunlukla orta bölgelerde bulundu˘gu varsayılmaktadır. Bu nedenle, video sabitleme i¸sleminin ba¸sında çerçevenin orta bölgesi dı¸sında kalan noktalar RANSAC algoritmasında kullanılmı¸stır. Orta bölgenin büyüklü˘gü tahminen belirlenmektedir. ˙Ilk iki çerçeve için sadece arka plan noktaları kullanılarak hareket modeli hesaplanır. Sıradaki çerçeve çiftine geçmeden önce ön plan olarak kabul edilen bölgedeki noktalardan hesaplanan modele uyanlar da arka plan noktalarına katılır ve arka plan noktalarından modele uymayan noktalar elenir.Böylece, sıradaki RANSAC i¸slemi güncellenmi¸s arka plan noktaları kullanılarak yapılmaktadır. Bahsedilen i¸slemler bütün çerçeve çiftleri için tekrarlanarak devam eder. Dikkat edilmesi gereken nokta, bu tezde arka plan noktalarını seçmek ile ifade edilmek istenen her adımda hesaplanan hareket modeline uyan noktaların belirlenmesidir. Hareket modeli olarak olası kamera hareketlerinin ço˘gunlu˘gunu içeren 6 parametreli ilgin dönü¸süm tercih edilmi¸stir. Hareket modeli kestirildikten sonra video sabitleme yöntemlerinin son a¸saması olan hareket kar¸sılaması gerçekle¸stirilmektedir. Hareket kar¸sılamada istenmeyen hareketlerin giderildi˘gi yeni çerçeveler bir araya getirilerek sabitlenmi¸s videolar olu¸sturulmaktadır. ˙Ilgin dönü¸süm bulunduktan sonra ikinci çerçeveye bulunan dönü¸süm uygulanarak birinci çerçeve elde edilmektedir. Sıradaki çerçeve çiftine geçildi˘ginde ise bir önceki adımda düzeltilen çerçeve ile yeni çerçeve kar¸sıla¸stırılır. Herhangi bir adımda ilgin dönü¸süm hesaplamasında meydana gelen hatalar e¸sle¸smelerde düzeltilmi¸s çerçeveler kullanıldı˘gı için katlanarak artabilmektedir. Bu durumun üstesinden gelebilmek için hata yapma olasılı˘gının fazla oldu˘gu çerçeveler belirlenerek bu çerçevelerde ilgin dönü¸sümün sadece ötelemeleri kullanılarak çerçeveler düzeltilmeye çalı¸sılmı¸stır. Çünkü e¸sleme hataları ilgin dönü¸sümün öteleme kısmını nispeten daha az etkilemektedir. E¸sleme hatasının olası oldu˘gu çerçeveler ise çerçevelerin gradyenlerinden yararlanarak tespit edilmeye çalı¸sılmı¸stır. Çerçeveler düzeltilirken dikkate alınan bir di˘ger konu da bilinçli olarak kullanıcının ilgi alanının de˘gi¸smesi sonucu yapılan yalpa ve yunus gibi kamera hareketlerini istenmeyen titre¸sim hareketlerinden ayırt edilmesidir. Bunun için bilinçli kamera hareketlerinin titre¸sim hareketlerine göre daha düzenli ve yumu¸sak hareketler oldu˘gu sonucundan yararlanılmaktadır. Örne˘gin, yalpa hareketi için yatay öteleme parametreleri bir grup çerçeve için takip edilirse, parametrelerin tekdüze bir ¸sekilde bir yönde arttı˘gı görülmektedir. Bu çalı¸smadaki video sabitleme programınının yalpa hareketini bahsedilen ¸sekilde fark edip yalpa hareketi süresince çok büyük bir düzeltme yapmaması sa˘glanmaya çalı¸sılmı¸stır. Böylece istenen yalpa hareketinin takip edilebilmesi amaçlanmı¸stır. Bu tezde ayrıca yalpa hareketinin bilinçli bir kullanıcı tarafından yava¸s bir ¸sekilde yapıldı˘gı varsayılamaktadır. Sonuç olarak, videolardaki istenmeyen hareketler literatürdeki çalı¸smalara benzer bir yakla¸sımla giderilmeye çalı¸sılmı¸stır. Öznitelik tabanlı bir e¸sleme yöntemi ile akı¸s vektörlerine ula¸sılmı¸stır. Seçilen hareket modeli ile uyumsuzluk yaratacak aykırı noktalar elenmi¸s, hareket modeli iki çerçeve arasındaki ilgin dönü¸sümü olarak belirlenmi¸s ve bu bilgiler ı¸sı˘gında titre¸simli çerçeveler düzeltilerek sabitlenmi¸s videolar elde edilmeye çalı¸sılmı¸stır.Videos which are recorded by hand held devices generally suffer from unintentional camera motion. The reasons of the unintentional motion may be the hand shake of users, or recording videos in a moving vehicle like car, bicycle, etc. Unwanted camera motion is not only encountered in amateur recordings made on mobile devices but also in video surveillance systems because of weather conditions like wind, or in videos which are recorded from an aerial vehicle. This unwanted motion decreases the quality of the video. In addition, the shaky movements may cause ambiguities in applications such as target detection or tracking. In other words, unwanted movements deteriorate the accuracy and the performance of the video processing applications. Therefore, the reduction of unintentional camera motion becomes a fundamental step for digital video processing. Video stabilization can be defined as the correction of unstabilized video frames such that the new video which is constructed with the compensated frames has smoother frame to frame transitions. The possible methods for video stabilization can be divided into three categories such as mechanical, optical and digital video stabilization. In this study, digital video stabilization approach was taken into consideration. Digital video stabilization can also be divided into two categories such as offline and real-time video stabilization. Real-time video stabilization can be applied in mobile video recording devices. Real-time processing reduces the shakiness during the recording. However, this method is limited by the available processing time. Since the processing time is crucial, algorithms used in this method are generally chosen easy to implement and the motion models are also chosen simple to reduce the complexity. Stabilized videos with relatively sufficient visual quality are able to be produced by real time video stabilization methods. On the other hand, if the goal is improving accuracy and the performance of a video processing application, real time methods with simplified solutions may not be enough. In contrast, offline post-processing, which is the target of this study, allows us to use more robust and accurate methods. As a result, the quality and the accuracy of stabilized videos are consequently better than those for real-time. Digital video processing has two main steps such as motion estimation and motion compensation. Motion estimation is the crucial part of a video stabilization scheme. There is a wide variety of approaches for motion estimation such as block matching algorithms, optical flow methods, pel-recursive methods, phase correlation methods, Bayesian methods, parametric motion estimation models, and 3D motion estimation. Correspondence matching or image alignment focuses on finding a feature which will be consistent across images. Raw pixels, corners, edges or some distinctive descriptors are used for this goal. As it is expected, using raw pixels is not a favored way because of its weakness for noise, illumination and orientation changes, etc. On the contrary, feature based motion estimation is proposed as a more robust method to these condition changes, since it uses some lighting, scale, orientation and geometric transformation invariant features for correspondence matching. In this thesis, a relatively new high level image alignment technique called SIFT flow was used to extract the 2D flow field between consecutive video frames. SIFT flow can be briefly expressed as an algorithm whose computational framework is based on optical flow, but matches the SIFT descriptors instead of raw pixels. SIFT flow extracts pixelwise SIFT descriptors which are produced by local image structures and contextual information. These descriptors are then matched by a discrete, discontinuity preserving flow estimation algorithm. A discrete coarse to fine matching scheme based on the belief propagation is used to find flow vectors that minimize the cost function of the SIFT flow algorithm. Although feature based methods try to match highly distinctive and robust features, there can still be undesired results during the motion estimation because of the feature points on moving objects and incorrect correspondence point matching. These kinds of points are expressed as outliers. Outliers are the points which do not fit the global motion model and alter the motion vectors locally. The success of a video stabilization scheme is affected by the outliers significantly. For this reason, outlier points must be eliminated. One of the widely used methods for the elimination of outliers is the Random Sample Consensus (RANSAC) algorithm. RANSAC tries to find inlier points in an iterative scheme. RANSAC process is repeated until reaching a predetermined number of trials. The error function is chosen as the Euclidean distance. Therefore, RANSAC tries to find points whose Euclidean distance between the actual points in the target frame and the transformed points from the reference frame are less than a distance threshold. This threshold can be determined heuristically according to the data. The maximum number of trials and the threshold for the consensus set size is calculated by considering the number of points and the inlier probabilities. Although RANSAC is a practical tool for removing outliers, there may be some points that belong to moving objects and cannot be easily eliminated by RANSAC. Therefore, a background point selection approach, which means choosing points compatible with the motion model, was utilized to overcome this problem. After eliminating outliers, motion is estimated by using inlier feature points. Motion is generally expressed as a two dimensional vector whose elements are the horizontal and the vertical displacements. These two components are usually assumed to be independent. This assumption provides ease in computations. If a simple translation model is assumed as global camera motion, a global motion vector for a frame is looked for. On the other hand, there are also affine changes in real life videos and simple translation may not be enough for compensating the unstable frames. For example, the affine transformation constructs the camera motion model with scale, rotation, shear and translation together. If an affine parametric motion estimation is followed, global motion will be modeled as a global transformation between successive frames. In this study, global motion model was chosen as a 6 parameter affine transformation which is often preferred in literature. The last step of a video stabilization scheme is the motion compensation. Frames which have motion blur may yield wrong matching results. This may cause undesired affine transformation matrices. However, matching failures do not affect the translational motion as much as the affine part. Therefore, the frames with motion blur are compensated by using a translational motion model only. In conclusion, a feature based matching method was used to obtain flow vectors, outliers were eliminated by the RANSAC method, and shaky frames are compensated by taking the motion blurs into account in this thesis.Yüksek LisansM.Sc
    corecore