7 research outputs found

    Recognition of Emotions using Energy Based Bimodal Information Fusion and Correlation

    Get PDF
    Multi-sensor information fusion is a rapidly developing research area which forms the backbone of numerous essential technologies such as intelligent robotic control, sensor networks, video and image processing and many more. In this paper, we have developed a novel technique to analyze and correlate human emotions expressed in voice tone & facial expression. Audio and video streams captured to populate audio and video bimodal data sets to sense the expressed emotions in voice tone and facial expression respectively. An energy based mapping is being done to overcome the inherent heterogeneity of the recorded bi-modal signal. The fusion process uses sampled and mapped energy signal of both modalities’s data stream and further recognize the overall emotional component using Support Vector Machine (SVM) classifier with the accuracy 93.06%

    Hierachical methods for large population speaker identification using telephone speech

    Get PDF
    This study focuses on speaker identificat ion. Several problems such as acoustic noise, channel noise, speaker variability, large population of known group of speakers wi thin the system and many others limit good SiD performance. The SiD system extracts speaker specific features from digitised speech signa] for accurate identification. These feature sets are clustered to form the speaker template known as a speaker model. As the number of speakers enrolling into the system gets larger, more models accumulate and the interspeaker confusion results. This study proposes the hierarchical methods which aim to split the large population of enrolled speakers into smaller groups of model databases for minimising interspeaker confusion

    Identity Verification Using Speech and Face Information

    Get PDF
    This article first provides an review of important concepts in the field of information fusion, followed by a review of important milestones in audio–visual person identification and verification. Several recent adaptive and nonadaptive techniques for reaching the verification decision (i.e., to accept or reject the claimant), based on speech and face information, are then evaluated in clean and noisy audio conditions on a common database; it is shown that in clean conditions most of the nonadaptive approaches provide similar performance and in noisy conditions most exhibit a severe deterioration in performance; it is also shown that current adaptive approaches are either inadequate or utilize restrictive assumptions. A new category of classifiers is then introduced, where the decision boundary is fixed but constructed to take into account how the distributions of opinions are likely to change due to noisy conditions; compared to a previously proposed adaptive approach, the proposed classifiers do not make a direct assumption about the type of noise that causes the mismatch between training and testing conditions

    On the Use of Speech and Face Information for Identity Verification

    Get PDF
    {T}his report first provides a review of important concepts in the field of information fusion, followed by a review of important milestones in audio-visual person identification and verification. {S}everal recent adaptive and non-adaptive techniques for reaching the verification decision (i.e., to accept or reject the claimant), based on speech and face information, are then evaluated in clean and noisy audio conditions on a common database; it is shown that in clean conditions most of the non-adaptive approaches provide similar performance and in noisy conditions most exhibit a severe deterioration in performance; it is also shown that current adaptive approaches are either inadequate or utilize restrictive assumptions. A new category of classifiers is then introduced, where the decision boundary is fixed but constructed to take into account how the distributions of opinions are likely to change due to noisy conditions; compared to a previously proposed adaptive approach, the proposed classifiers do not make a direct assumption about the type of noise that causes the mismatch between training and testing conditions. {T}his report is an extended and revised version of {IDIAP-RR} 02-33

    Kablosuz Çoklu Ortam Duyarga Ağlarında Gözetleme Uygulamaları için Füzyon-Tabanlı Çatı Tasarımı ve Geliştirilmesi

    Get PDF
    TÜBİTAK MFAG Proje15.07.2018Bu proje kapsamında, kablosuz çoklu ortam duyarga ağları için özellikle aşağıda verilen ikikonuda çözüm üreten bir yaklaşım ve çatı (framework) geliştirilmesi amaçlanmıştır:- Halen kullanılan ağlara göre daha az enerji tüketen bir kablosuz duyarga ağı kümelemealgoritmasının geliştirilmesi: Proje kapsamında yeni bir kümeleme algoritması geliştirilmiştir.Geliştirilen algoritma, gözetleme uygulamaları da dahil olmak üzere uygulamadan bağımsızve enerji-etkin çalışabilecek şekilde tasarlanmıştır. Geliştirilen algoritma, gerçek duyargadüğüm donanımları üzerinde de kolaylıkla çalışabilir nitelikte dağıtık ve hafif bir yapıdatasarlanmış eşit olmayan bir kümeleme yaklaşımı sergilemektedir. Tasarlanan kümelemealgoritması ile, çeşitli metotlarla konuşlandırılmış düğüm noktaları içeren kümelenmemiş birkablosuz duyarga ağdan, etkin olarak veri toplayabilecek kümelenmiş bir duyarga ağı eldeedilebilmektedir. Kümeleme için uygun parametreler belirlenmiş ve bulanık mantık tabanlı biralgoritma geliştirilmiştir. Kümeleme yarı çapı tespitinde ana istasyona uzaklık, düğüm noktasıkalan enerjisi ve düğüm noktası göreli bağlanabilirlik parametreleri, yönlendirme için ise linkortalama kalan enerjisi ve göreli uzaklık parametreleri algoritma içerisinde kullanılmıştır.- Ana istasyona taşınacak bilginin miktarını azaltırken doğruluk oranını artıracak yöntemleringeliştirilmesi: Duyarga düğümlerinden ana istasyona kadar üç seviyede değişik veri füzyonyöntemleri kullanarak nesne çıkarımı yapan ve bu sayede taşınan veri miktarını azaltarakduyarga ağın ömrünü uzatan bir yöntem geliştirilmiştir. Bu çerçevede, ilk seviyede PKÖ,sismik ve akustik duyargalardan elde edilen veriler kullanılmıştır. Söz konusu skalerduyargalardan gelen veriler füzyon işlemine sokularak duyarganın kontrol ettiği alanda insanve araç gibi bir nesnenin olup olmadığı konusunda ilk karar oluşturulmaktadır. Bu karara göreikinci seviyede çoklu ortam duyargalarının (kamera ve mikrofon) uyandırılmasıgerçekleştirilmektedir. Kamera tarafından alınan görüntü ve mikrofon tarafından alınan sesişlenerek nesne tespiti yapılmaktadır. İkinci seviye füzyonu kapsamında görüntü ve sestençıkarılan bilgiler bir füzyon işleminden geçirilerek nesne sınıflandırılması doğruluk oranıartırılmaktadır. Duyarga düğümü üzerinde gerçekleştirilen bu işlemlerin ardından üretilen özetbilgi ana istasyona iletilmektedir. Üçüncü seviye füzyon ve sınıflandırma işleminde farklıkiplerden elde edilen veriler ile kip içi ve kipler arası korelasyonlar da kullanılarak, dahagelişmiş bir tanıma işlemi gerçekleştirilmektedir. Bu işlem enerji ve kaynak kullanım maliyetigerektirdiği için ana istasyonda yapılmaktadır.Bu projenin özgün değeri, skaler duyargalara ilave olarak çoklu ortam duyargaları tarafındantoplanan görüntü ve ses verilerinin duyarga düğümü içerisinde işlenerek ve füzyon edilerekpotansiyel tehditlere yönelik anlamlı bilgiler üretilmesi ve bu sayede taşınacak verininboyutunun azaltılması ile taşınacak verinin ağ üzerinde daha etkin taşınmasını sağlayanözgün kümeleme algoritmasının geliştirilmesinde yatmaktadır.Proje öneri dokümanında yer alan planlı faaliyetlerin tamamı gerçekleştirilmiş ve projebaşlangıcında hedeflenen noktaya ulaşılmıştır. Proje kapsamında, 6 adet uluslararasıdergilerde (4 adet SCI-E, 1 adet SSCI, 1 adet ESCI indeksli) ve 9 adet konferanslarda(tamamı uluslararası konferans) olmak üzere toplam 15 adet yayın gerçekleştirilmiştir. Projekapsamında projenin değişik süreçlerinde görev alan 6 doktora ve 2 lisansüstü öğrencisinintez çalışmasına imkân sağlanmıştır (iki doktora tezi tamamlandı, altısı devam ediyor).Bu proje, BİLİMSEL VE TEKNOLOJİK ARAŞTIRMA PROJELERİNİ DESTEKLEMEPROGRAMI kapsamında TÜBİTAK tarafından 114R082 kod numarasıyla desteklenmiştir.In this project, a wireless sensor network clustering algorithm which consumes less energythan currently used networks and methods that increase the accuracy rate while reducingthe amount of information to be transferred to the base station have been studied. In thiscontext, a new distributed and lightweight fuzzy logic-based clustering algorithm withunequal clustering approach has been developed. In order to reduce the amount ofinformation to be transferred to the base station and to increase the accuracy, a methodextracting objects using data fusion methods at three different levels from sensor nodes tothe base station and reducing the amount of data carried in this way has been developed toextend the lifetime of a sensor network. At the first level, the data from scalar sensors arefused to decide whether or not there is an object in the controlled area. In the context of thesecond level fusion, information extracted from visual and audio data are fused to increaseobject classification accuracy. In the third level fusion and classification process performed inthe main station, a more advanced recognition process is performed using intra and intermode correlations between data obtained from different channels.The project has been terminated in 39 months with a three-months extension. In the project,five researchers, who are experts on multimedia applications, fuzzy logic and wirelesssensor networks, have been worked. An opportunity is provided for 6 PhD and 2 MSstudents, who have contributed to the project during different terms of the project, to work onand finish their thesis successfully. It is evaluated that the studies done in the project fill a biggap in the academic literature. During project, 6 journal papers and 9 internationalconference papers, which make 15 in total, are published

    Automatic Person Verification Using Speech and Face Information

    Get PDF
    Interest in biometric based identification and verification systems has increased considerably over the last decade. As an example, the shortcomings of security systems based on passwords can be addressed through the supplemental use of biometric systems based on speech signals, face images or fingerprints. Biometric recognition can also be applied to other areas, such as passport control (immigration checkpoints), forensic work (to determine whether a biometric sample belongs to a suspect) and law enforcement applications (e.g. surveillance). While biometric systems based on face images and/or speech signals can be useful, their performance can degrade in the presence of challenging conditions. In face based systems this can be in the form of a change in the illumination direction and/or face pose variations. Multi-modal systems use more than one biometric at the same time. This is done for two main reasons -- to achieve better robustness and to increase discrimination power. This thesis reviews relevant backgrounds in speech and face processing, as well as information fusion. It reports research aimed at increasing the robustness of single- and multi-modal biometric identity verification systems. In particular, it addresses the illumination and pose variation problems in face recognition, as well as the challenge of effectively fusing information from multiple modalities under non-ideal conditions
    corecore