    Event detection in soccer video based on audio/visual keywords

    Kablosuz Çoklu Ortam Duyarga Ağlarında Gözetleme Uygulamaları için Füzyon-Tabanlı Çatı Tasarımı ve Geliştirilmesi

    TÜBİTAK MFAG Proje15.07.2018Bu proje kapsamında, kablosuz çoklu ortam duyarga ağları için özellikle aşağıda verilen ikikonuda çözüm üreten bir yaklaşım ve çatı (framework) geliştirilmesi amaçlanmıştır:- Halen kullanılan ağlara göre daha az enerji tüketen bir kablosuz duyarga ağı kümelemealgoritmasının geliştirilmesi: Proje kapsamında yeni bir kümeleme algoritması geliştirilmiştir.Geliştirilen algoritma, gözetleme uygulamaları da dahil olmak üzere uygulamadan bağımsızve enerji-etkin çalışabilecek şekilde tasarlanmıştır. Geliştirilen algoritma, gerçek duyargadüğüm donanımları üzerinde de kolaylıkla çalışabilir nitelikte dağıtık ve hafif bir yapıdatasarlanmış eşit olmayan bir kümeleme yaklaşımı sergilemektedir. Tasarlanan kümelemealgoritması ile, çeşitli metotlarla konuşlandırılmış düğüm noktaları içeren kümelenmemiş birkablosuz duyarga ağdan, etkin olarak veri toplayabilecek kümelenmiş bir duyarga ağı eldeedilebilmektedir. Kümeleme için uygun parametreler belirlenmiş ve bulanık mantık tabanlı biralgoritma geliştirilmiştir. Kümeleme yarı çapı tespitinde ana istasyona uzaklık, düğüm noktasıkalan enerjisi ve düğüm noktası göreli bağlanabilirlik parametreleri, yönlendirme için ise linkortalama kalan enerjisi ve göreli uzaklık parametreleri algoritma içerisinde kullanılmıştır.- Ana istasyona taşınacak bilginin miktarını azaltırken doğruluk oranını artıracak yöntemleringeliştirilmesi: Duyarga düğümlerinden ana istasyona kadar üç seviyede değişik veri füzyonyöntemleri kullanarak nesne çıkarımı yapan ve bu sayede taşınan veri miktarını azaltarakduyarga ağın ömrünü uzatan bir yöntem geliştirilmiştir. Bu çerçevede, ilk seviyede PKÖ,sismik ve akustik duyargalardan elde edilen veriler kullanılmıştır. Söz konusu skalerduyargalardan gelen veriler füzyon işlemine sokularak duyarganın kontrol ettiği alanda insanve araç gibi bir nesnenin olup olmadığı konusunda ilk karar oluşturulmaktadır. Bu karara göreikinci seviyede çoklu ortam duyargalarının (kamera ve mikrofon) uyandırılmasıgerçekleştirilmektedir. Kamera tarafından alınan görüntü ve mikrofon tarafından alınan sesişlenerek nesne tespiti yapılmaktadır. İkinci seviye füzyonu kapsamında görüntü ve sestençıkarılan bilgiler bir füzyon işleminden geçirilerek nesne sınıflandırılması doğruluk oranıartırılmaktadır. Duyarga düğümü üzerinde gerçekleştirilen bu işlemlerin ardından üretilen özetbilgi ana istasyona iletilmektedir. Üçüncü seviye füzyon ve sınıflandırma işleminde farklıkiplerden elde edilen veriler ile kip içi ve kipler arası korelasyonlar da kullanılarak, dahagelişmiş bir tanıma işlemi gerçekleştirilmektedir. Bu işlem enerji ve kaynak kullanım maliyetigerektirdiği için ana istasyonda yapılmaktadır.Bu projenin özgün değeri, skaler duyargalara ilave olarak çoklu ortam duyargaları tarafındantoplanan görüntü ve ses verilerinin duyarga düğümü içerisinde işlenerek ve füzyon edilerekpotansiyel tehditlere yönelik anlamlı bilgiler üretilmesi ve bu sayede taşınacak verininboyutunun azaltılması ile taşınacak verinin ağ üzerinde daha etkin taşınmasını sağlayanözgün kümeleme algoritmasının geliştirilmesinde yatmaktadır.Proje öneri dokümanında yer alan planlı faaliyetlerin tamamı gerçekleştirilmiş ve projebaşlangıcında hedeflenen noktaya ulaşılmıştır. Proje kapsamında, 6 adet uluslararasıdergilerde (4 adet SCI-E, 1 adet SSCI, 1 adet ESCI indeksli) ve 9 adet konferanslarda(tamamı uluslararası konferans) olmak üzere toplam 15 adet yayın gerçekleştirilmiştir. Projekapsamında projenin değişik süreçlerinde görev alan 6 doktora ve 2 lisansüstü öğrencisinintez çalışmasına imkân sağlanmıştır (iki doktora tezi tamamlandı, altısı devam ediyor).Bu proje, BİLİMSEL VE TEKNOLOJİK ARAŞTIRMA PROJELERİNİ DESTEKLEMEPROGRAMI kapsamında TÜBİTAK tarafından 114R082 kod numarasıyla desteklenmiştir.In this project, a wireless sensor network clustering algorithm which consumes less energythan currently used networks and methods that increase the accuracy rate while reducingthe amount of information to be transferred to the base station have been studied. In thiscontext, a new distributed and lightweight fuzzy logic-based clustering algorithm withunequal clustering approach has been developed. In order to reduce the amount ofinformation to be transferred to the base station and to increase the accuracy, a methodextracting objects using data fusion methods at three different levels from sensor nodes tothe base station and reducing the amount of data carried in this way has been developed toextend the lifetime of a sensor network. At the first level, the data from scalar sensors arefused to decide whether or not there is an object in the controlled area. In the context of thesecond level fusion, information extracted from visual and audio data are fused to increaseobject classification accuracy. In the third level fusion and classification process performed inthe main station, a more advanced recognition process is performed using intra and intermode correlations between data obtained from different channels.The project has been terminated in 39 months with a three-months extension. In the project,five researchers, who are experts on multimedia applications, fuzzy logic and wirelesssensor networks, have been worked. An opportunity is provided for 6 PhD and 2 MSstudents, who have contributed to the project during different terms of the project, to work onand finish their thesis successfully. It is evaluated that the studies done in the project fill a biggap in the academic literature. During project, 6 journal papers and 9 internationalconference papers, which make 15 in total, are published

    Information assimilation in Multimedia surveillance systems

    Extraction multimodale de la structure narrative des épisodes de séries télévisées

    Nos contributions portent sur l'extraction de la structure narrative d'épisodes de séries télévisées à deux niveaux hiérarchiques. Le premier niveau de structuration consiste à retrouver les transitions entre les scènes à partir d'une analyse de la couleur des images et des locuteurs présents dans les scènes. Nous montrons que l'analyse des locuteurs permet d'améliorer le résultat d'une segmentation en scènes basée sur la couleur. Il est courant de voir plusieurs histoires (ou lignes d'actions) racontées en parallèle dans un même épisode de série télévisée. Ainsi, le deuxième niveau de structuration consiste à regrouper les scènes en histoires. Nous cherchons à désentrelacer les histoires pour pouvoir, par exemple, visualiser les différentes lignes d'actions indépendamment. La principale difficulté consiste à déterminer les descripteurs les plus pertinents permettant de regrouper les scènes appartenant à une même histoire. A ce niveau, nous étudions également l'utilisation de descripteurs provenant des trois modalités différentes précédemment exposées. Nous proposons en outre des méthodes permettant de fusionner les informations provenant de ces trois modalités. Pour répondre à la variabilité de la structure narrative des épisodes de séries télévisées, nous proposons une méthode qui s'adapte à chaque épisode. Elle permet de choisir automatiquement la méthode de regroupement la plus pertinente parmi les différentes méthodes proposées. Enfin, nous avons développé StoViz, un outil de visualisation de la structure d'un épisode de série télévisée (scènes et histoires). Il permet de faciliter la navigation au sein d'un épisode, en montrant les différentes histoires racontées en parallèle dans l'épisode. Il permet également la lecture des épisodes histoire par histoire, et la visualisation d'un court résumé de l'épisode en donnant un aperçu de chaque histoire qui y est racontée.Our contributions concern the extraction of the structure of TV series episodes at two hierarchical levels. The first level of structuring is to find the scene transitions based on the analysis of the color information and the speakers involved in the scenes. We show that the analysis of the speakers improves the result of a color-based segmentation into scenes. It is common to see several stories (or lines of action) told in parallel in a single TV series episode. Thus, the second level of structure is to cluster scenes into stories. We seek to deinterlace the stories in order to visualize the different lines of action independently. The main difficulty is to determine the most relevant descriptors for grouping scenes belonging to the same story. We explore the use of descriptors from the three different modalities described above. We also propose methods to combine these three modalities. To address the variability of the narrative structure of TV series episodes, we propose a method that adapts to each episode. It can automatically select the most relevant clustering method among the various methods we propose. Finally, we developed StoViz, a tool for visualizing the structure of a TV series episode (scenes and stories). It allows an easy browsing of each episode, revealing the different stories told in parallel. It also allows playback of episodes story by story, and visualizing a summary of the episode by providing a short overview of each story

    A multi-modal approach to story segmentation for news video

