27 research outputs found

    Speaker segmentation and clustering

    Get PDF
    This survey focuses on two challenging speech processing topics, namely: speaker segmentation and speaker clustering. Speaker segmentation aims at finding speaker change points in an audio stream, whereas speaker clustering aims at grouping speech segments based on speaker characteristics. Model-based, metric-based, and hybrid speaker segmentation algorithms are reviewed. Concerning speaker clustering, deterministic and probabilistic algorithms are examined. A comparative assessment of the reviewed algorithms is undertaken, the algorithm advantages and disadvantages are indicated, insight to the algorithms is offered, and deductions as well as recommendations are given. Rich transcription and movie analysis are candidate applications that benefit from combined speaker segmentation and clustering. © 2007 Elsevier B.V. All rights reserved

    A functional approach to estimation of the parameters of generalized negative binomial and gamma distributions

    Full text link
    The generalized negative binomial distribution (GNB) is a new flexible family of discrete distributions that are mixed Poisson laws with the mixing generalized gamma (GG) distributions. This family of discrete distributions is very wide and embraces Poisson distributions, negative binomial distributions, Sichel distributions, Weibull--Poisson distributions and many other types of distributions supplying descriptive statistics with many flexible models. These distributions seem to be very promising for the statistical description of many real phenomena. GG distributions are widely applied in signal and image processing and other practical problems. The statistical estimation of the parameters of GNB and GG distributions is quite complicated. To find estimates, the methods of moments or maximum likelihood can be used as well as two-stage grid EM-algorithms. The paper presents a methodology based on the search for the best distribution using the minimization of p\ell^p-distances and LpL^p-metrics for GNB and GG distributions, respectively. This approach, first, allows to obtain parameter estimates without using grid methods and solving systems of nonlinear equations and, second, yields not point estimates as the methods of moments or maximum likelihood do, but the estimate for the density function. In other words, within this approach the set of decisions is not a Euclidean space, but a functional space.Comment: 13 pages, 6 figures, The XXI International Conference on Distributed Computer and Communication Networks: Control, Computation, Communications (DCCN 2018

    Πολυμεσική επεξεργασία ομιλίας

    No full text
    The subject of this PhD thesis is the study of multimodal language processing. The research is two-fold; on one hand it deals with statistical speech analysis and processing, in particular speech segmentation, while on the other hand it deals with text processing, Web information retrieval, and text language identification of multilingual documents. The research in speech processing is focused on the identification of phone boundaries in continuous speech using Bayesian analysis for the statistical hypothesis testing. Emphasis is given to the multivariate statistical analysis of the interrelationships between the Mel frequency cepstral coefficients and the independency of the observations for small sample sizes is tested, in order to estimate the parameters of the exponential distributions and to assess the multivariate likelihood ratio tests. Model selection techniques based on Akaike and Bayesian information criteria are used, which are derived from entropic and Bayes theories respectively. In specific, the hybrid method DISTBIC of Delacourt and Wellekens, which has been successfully applied to speech and speaker segmentation, is studied. The potential of its application to segmentation problems, where the analysis windows are small and the decision making distances are in word or phone level, is investigated. The method is appropriately adjusted so that the heuristic estimation of its parameters is limited, while its performance is adequate in speech with low signalto- noise ratios. Specifically, we propose the replacement of Bayesian information criterion with others criteria, such as the Bayesian Information Criterion-Corrected and the Approximate Bayes Factors criterion, which demonstrate better efficiency in situations with small sample sizes and, in parallel, we model speech features with the generalised Gamma distribution assuming independence between the Mel frequency cepstral coefficients. We evaluate these modifications in additive noisy environments using two speech datasets, NTIMIT and M2VTS, where we yield significant improvement in false alarm and missed detection rates relative to the baseline algorithm DISTBIC. In a different study, we take into account the role of parameter interrelationships in the distribution, by regarding the Information Complexity criterion. We examine the application of Bayesian Information and Information Complexity when we use statistically robust estimators for the covariance matrices while avoiding the demand of statistical independence between the variables. Evaluating these adjustments for the problem of phone segmentation in speech under additive noise, we yield total performance improvement in boundary detection over 5% in 13 minutes of speech signal. Regarding text processing, research is done on focused crawling of World Wide Web pages, in order to create vertical search engines with low computational cost. The proposed algorithm, Hyper-Content Latent Analysis (HCLA), uses the method of latent semantic indexing in order to incorporate text features (text content of the web pages) to link analysis and follows best first search visiting strategy. Significant performance improvement is attained, in both precision and recall rates, with respect to well known information retrieval techniques, such as PageRank and Shark-Search. In particular, in a corpus of 1638 web pages the improvement in precision is 24% and 40% respectively, when the recall approaches 100%, In a corpus of 582 hypertexts, the precision of the proposed algorithm is significantly better than the Probabilistic Lantent Semantic Indexing algorithm for high recall rates, while the two algorithms demonstrate comparative precision rates in low and medium recall rates.Αντικείμενο αυτής της διατριβής είναι η μελέτη της πολυμεσικής επεξεργασίας γλώσσας. Η έρευνα που πραγματοποιήθηκε αφορά αφενός τη στατιστική ανάλυση και επεξεργασία του προφορικού λόγου και ειδικότερα την αυτόματη κατάτμηση ομιλίας και αφετέρου την επεξεργασία του γραπτού λόγου, με στόχους την ανάκτηση πληροφορίας από τον παγκόσμιο Ιστό και την ταυτοποίηση γλώσσας σε πολυγλωσσικά κείμενα. Η έρευνα στην επεξεργασία ομιλίας εστιάζεται στην ανίχνευση των ορίων των φθόγγων στη συνεχή ομιλία εφαρμόζοντας Μπεϋζιανή ανάλυση για τον έλεγχο στατιστικών υποθέσεων. Δίνεται έμφαση στην πολυδιάστατη στατιστική ανάλυση συσχέτισης των χαρακτηριστικών χάσματος σε κλίμακα Mel και ελέγχεται η ανεξαρτησία των παρατηρήσεων για μικρό αριθμό δειγμάτων, με στόχο την εκτίμηση παραμέτρων εκθετικών κατανομών και τον πολυδιάστατο έλεγχο λόγου πιθανοφάνειας. Χρησιμοποιούνται τεχνικές επιλογής μοντέλων που βασίζονται στα Akaike και Bayesian πληροφοριακά κριτήρια καταλληλότητας που προκύπτουν από εντροπική και Μπεϋζιανή θεώρηση αντίστοιχα. Αυτά βασίζονται στο κριτήριο μέγιστης πιθανοφάνειας λαμβάνοντας υπόψη την πολυπλοκότητα του μοντέλου. Συγκεκριμένα, μελετάται η υβριδική μέθοδος DISTBIC των Delacourt και Wellekens η οποία έχει εφαρμοσθεί επιτυχώς στην κατάτμηση ομιλίας και ομιλητών. Εξετάζεται η δυνατότητα εφαρμογής της μεθόδου στην περίπτωση κατάτμησης ομιλίας, όπου τα παράθυρα της ανάλυσης χάσματος είναι αναγκαστικά μικρά και το διάστημα λήψης απόφασης βρίσκεται σε επίπεδο λέξης ή ακόμη και σε επίπεδο φθόγγων. Η μέθοδος τροποποιείται κατάλληλα ώστε να ελαχιστοποιείται ο ευρετικός υπολογισμός των παραμέτρων της, ενώ ταυτόχρονα να παρουσιάζει καλή απόδοση σε ομιλία με χαμηλή σηματοθορυβική σχέση. Συγκεκριμένα, προτείνουμε την αντικατάσταση του Μπεϋζιανού πληροφοριακού κριτηρίου με τα κριτήρια Bayesian Information Criterion-Corrected και Approximate Bayes Factors που είναι αποτελεσματικότερα στην περίπτωση λίγων παρατηρήσεων και παράλληλα μοντελοποιούμε τα χαρακτηριστικά ομιλίας με τη γενικευμένη Γάμμα κατανομή θεωρώντας ότι οι συντελεστές χάσματος σε κλίμακα Mel είναι ανεξάρτητοι μεταξύ τους. Αποτιμούμε τις παραπάνω τροποποιήσεις σε περιβάλλον αθροιστικού θορύβου για δύο φωνητικές βάσεις, την NTIMIT και την M2VTS, όπου επιτυγχάνουμε σημαντική βελτίωση, τόσο στο ρυθμό εσφαλμένης προειδοποίησης όσο και στο ρυθμό σφάλματος αστοχίας, σε σχέση με το βασικό αλγόριθμο DISTBIC. Σε ξεχωριστή μελέτη, λαμβάνουμε υπόψη το ρόλο της αλληλεξάρτησης των παραμέτρων της κατανομής θεωρώντας το κριτήριο πληροφοριακής πολυπλοκότητας. Εξετάζουμε την εφαρμογή του Μπεϋζιανού πληροφοριακού κριτηρίου και του κριτηρίου πληροφοριακής πολυπλοκότητας όταν θεωρούμε στατιστικά ανθεκτικούς εκτιμητές για τους πίνακες συνδιακύμανσης και δεν απαιτούμε ανεξαρτησία μεταξύ των μεταβλητών. Αξιολογώντας τις τροποποιήσεις αυτές για το πρόβλημα κατάτμησης ακουστικών φθόγγων στην ομιλία σε περιβάλλον αθροιστικού θορύβου, πετυχαίνουμε συνολική αύξηση της ακρίβειας ανίχνευσης ορίων της τάξης του 5% σε σήμα ομιλίας 13 λεπτών

    Robust detection of phone segments in continuous speech using model selection criteria

    No full text
    Automatic phone segmentation techniques based on model selection criteria are studied. We investigate the phone boundary detection efficiency of entropy- and Bayesian- based model selection criteria in continuous speech based on the DISTBIC hybrid segmentation algorithm. DISTBIC is a text-independent bottom-up approach that identifies sequential model changes by combining metric distances with statistical hypothesis testing. Using robust statistics and small sample corrections in the baseline DISTBIC algorithm, phone boundary detection accuracy is significantly improved, while false alarms are reduced. We also demonstrate further improvement in phonemic segmentation by taking into account how the model parameters are related in the probability density functions of the underlying hypotheses as well as in the model selection via the information complexity criterion and by employing M-estimators of the model parameters. The proposed DISTBIC variants are tested on the NTIMIT database and the achieved measure is 74.7% using a 20-ms tolerance in phonemic segmentation. © 2009 IEEE
    corecore