6 research outputs found

    Die Rolle phonetischer Information in der Sprechererkennung

    Get PDF
    Die gesprochene Sprache enthält neben den phonetischen bzw. lexikalischen Informationen, die den Inhalt einer Äußerung ausmachen, auch Informationen über den Sprecher. Beide Informationstypen interagieren miteinander, was dazu führt, dass manche Segmente mehr Informationen über einen Sprecher enthalten als andere und dass Wissen über den Sprecher dabei helfen kann, die phonetischen Informationen besser zu verarbeiten und somit eine Äußerung besser zu verstehen. Außerdem stellt sich die Frage, wie diese Informationen im Hinblick auf ein Sprachwahrnehmungsmodell (abstraktionistisch vs. exemplarbasiert) integriert werden. Von diesem Stand ausgehend wird in dieser Arbeit der Einfluss der Segmente, insbesondere der Konsonanten, auf die Sprecherdiskrimination bzw. -identifikation untersucht. Dafür werden zunächst einige akustische Merkmale ausgewählter Konsonanten des Deutschen in einem Sprachkorpus analysiert. Es werden die ersten vier spektralen Momente der Laute gemessen und deren Sprecherspezifität bestimmt. Vor allem die Nasale /m/ und /n/ sowie die Frikative /f/ und /s/ offenbarten viele sprecherspezifische Merkmale. Aufgrund der Annahme, dass sich diese akustisch gemessenen Merkmale auch perzeptiv in irgendeiner Form manifestieren müssen, wurde ein Sprecherdiskriminationsexperiment mit Hörern durchgeführt. In beiden Experimenten war das Sprachmaterial eine /aKa/- Sequenz. Im ersten Experiment enthielt der gesamte Stimulus Sprecherinformationen, während im zweiten Experiment nur der (statische Teil vom) Konsonant, aber nicht die Vokaletransitionen Sprecherinformationen enthielt. In beiden Untersuchungen zeigen sich Unterschiede in der Sprecherspezifität zwischen den verschiedenen Artikulationsmodi und -stellen, wobei die durchschnittliche Sprecherdiskriminationsrate im zweiten Experiment deutlich geringer ist als im ersten. Die Ergebnisse lassen darauf schließen, dass Nasale und Plosive viele ihrer Informationen in den Vokaltransitionen enthalten, während die Frikative mehr Informationen im (statischen Bereich des) Konsonanten besitzen. Da die phonetischen und Sprecherinformationen miteinander interagieren, wurde im letzten Teil der Arbeit die zeitliche Koordination der Verarbeitung beider Informationstypen mittels eines Visual-World Eye-Tracking Experiments untersucht. Die Ergebnisse zeigen, dass die Hörer das Target mit großer Sicherheit identifizierten, aber dass mit steigender Anzahl an Sprechern (2 vs. 4 Sprecher) die Schwierigkeit der Targetidentifikation steigt. Im Fall von verschieden geschlechtlichen Sprechern wird zuerst das Geschlecht und dann der einzelne Sprecher erkannt. Außerdem wird nachgewiesen, dass die Sprecherinformationen tendenziell sogar früher verarbeitet werden als die phonetischen Informationen und selbst dann Verwendung finden, wenn phonetische Informationen allein zur Targetidentifikation ausreichend sind. In phonetisch ambigen Fällen werden die Sprecherinformationen verwendet, um diese Ambiguität zu verringern. Die Ergebnisse unterstreichen die Bedeutung von Sprecherinformationen in der Verarbeitung gesprochener Sprache und sprechen somit eher für ein episodisches, exemplarbasiertes Modell der Sprachwahrnehmung, welches Sprecherinformationen bereits zu einem frühen Zeitpunkt im Sprachverarbeitungsprozess integriert

    Die Rolle phonetischer Information in der Sprechererkennung

    Get PDF
    Die gesprochene Sprache enthält neben den phonetischen bzw. lexikalischen Informationen, die den Inhalt einer Äußerung ausmachen, auch Informationen über den Sprecher. Beide Informationstypen interagieren miteinander, was dazu führt, dass manche Segmente mehr Informationen über einen Sprecher enthalten als andere und dass Wissen über den Sprecher dabei helfen kann, die phonetischen Informationen besser zu verarbeiten und somit eine Äußerung besser zu verstehen. Außerdem stellt sich die Frage, wie diese Informationen im Hinblick auf ein Sprachwahrnehmungsmodell (abstraktionistisch vs. exemplarbasiert) integriert werden. Von diesem Stand ausgehend wird in dieser Arbeit der Einfluss der Segmente, insbesondere der Konsonanten, auf die Sprecherdiskrimination bzw. -identifikation untersucht. Dafür werden zunächst einige akustische Merkmale ausgewählter Konsonanten des Deutschen in einem Sprachkorpus analysiert. Es werden die ersten vier spektralen Momente der Laute gemessen und deren Sprecherspezifität bestimmt. Vor allem die Nasale /m/ und /n/ sowie die Frikative /f/ und /s/ offenbarten viele sprecherspezifische Merkmale. Aufgrund der Annahme, dass sich diese akustisch gemessenen Merkmale auch perzeptiv in irgendeiner Form manifestieren müssen, wurde ein Sprecherdiskriminationsexperiment mit Hörern durchgeführt. In beiden Experimenten war das Sprachmaterial eine /aKa/- Sequenz. Im ersten Experiment enthielt der gesamte Stimulus Sprecherinformationen, während im zweiten Experiment nur der (statische Teil vom) Konsonant, aber nicht die Vokaletransitionen Sprecherinformationen enthielt. In beiden Untersuchungen zeigen sich Unterschiede in der Sprecherspezifität zwischen den verschiedenen Artikulationsmodi und -stellen, wobei die durchschnittliche Sprecherdiskriminationsrate im zweiten Experiment deutlich geringer ist als im ersten. Die Ergebnisse lassen darauf schließen, dass Nasale und Plosive viele ihrer Informationen in den Vokaltransitionen enthalten, während die Frikative mehr Informationen im (statischen Bereich des) Konsonanten besitzen. Da die phonetischen und Sprecherinformationen miteinander interagieren, wurde im letzten Teil der Arbeit die zeitliche Koordination der Verarbeitung beider Informationstypen mittels eines Visual-World Eye-Tracking Experiments untersucht. Die Ergebnisse zeigen, dass die Hörer das Target mit großer Sicherheit identifizierten, aber dass mit steigender Anzahl an Sprechern (2 vs. 4 Sprecher) die Schwierigkeit der Targetidentifikation steigt. Im Fall von verschieden geschlechtlichen Sprechern wird zuerst das Geschlecht und dann der einzelne Sprecher erkannt. Außerdem wird nachgewiesen, dass die Sprecherinformationen tendenziell sogar früher verarbeitet werden als die phonetischen Informationen und selbst dann Verwendung finden, wenn phonetische Informationen allein zur Targetidentifikation ausreichend sind. In phonetisch ambigen Fällen werden die Sprecherinformationen verwendet, um diese Ambiguität zu verringern. Die Ergebnisse unterstreichen die Bedeutung von Sprecherinformationen in der Verarbeitung gesprochener Sprache und sprechen somit eher für ein episodisches, exemplarbasiertes Modell der Sprachwahrnehmung, welches Sprecherinformationen bereits zu einem frühen Zeitpunkt im Sprachverarbeitungsprozess integriert

    Formant trajectories in forensic speaker recognition

    Get PDF
    Die vorliegende Arbeit untersucht das Leistungsverhalten eines Ansatzes der forensischen Sprechererkennung, der auf parametrischen Repräsentationen von Formantverläufen basiert. Quadratische und kubische Polynomfunktionen werden dabei an Formantverläufe von Diphthongen angenähert. Die resultierenden Koeffizienten sowie die ersten drei bzw. vier Komponenten der Diskreten Kosinustransformation (DCT) werden in Folge verwendet, um die dynamischen Eigenschaften der zugrundeliegenden akustischen Merkmale der Sprache und damit der Sprechercharakteristika zu erfassen. Am Ende steht eine Repräsentation bestehend aus wenigen dekorrelierten Parametern, die für die forensische Sprechererkennung verwendet werden. Die in der Untersuchung durchgeführte Evaluierung beinhaltet die Berechnung von Likelihood-Ratio-Werten für die Anwendung im Bayesschen Ansatz für die Bewertung von forensischen Beweisstücken. Die Vorteile dieses Systems und die derzeitigen Beschränkungen werden behandelt. Für die Berechnung der Likelihood-Ratio-Werte wird eine von Aitken & Lucy (2004) entwickelte multivariate Kernel-Density-Formel verwendet, die sowohl Zwischen-Sprecher- als auch Inner-Sprecher-Variabilität berücksichtigt. Automatische Kalibrierungs- und Fusionstechniken, wie sie in Systemen zur automatischen Sprecheridentifikation verwendet werden, werden auf die Ergebniswerte angewendet. Um die Bedeutung von Längenaspekten von Diphthongen für die forensische Sprechererkennung näher zu untersuchen wird ein Experiment durchgeführt, in dem der Effekt von Zeitnormalisierung sowie die Modellierung der Dauer durch einen expliziten Parameter evaluiert werden. Die Leistungsfähigkeit der parametrischen Repräsentationen verglichen mit anderen Methoden sowie die Effekte der Kalibrierung und Fusion werden unter Verwendung üblicher Bewertungswerkzeuge wie des Erkennungsfehlerabwägungs-(DET)-Diagramms, des Tippett-Diagramms und des angewandten Fehlerwahrscheinlichkeits-(APE)-Diagramms, sowie numerischer Kennziffern wie der Gleichfehlerrate (EER) und der Cllr-Metrik evaluiert.The present work investigates the performance of an approach for forensic speaker recognition that is based on parametric representations of formant trajectories. Quadratic and cubic polynomial functions are fitted to formant contours of diphthongs. The resulting coefficients as well as the first three to four components derived from discrete cosine transform (DCT) are used in order to capture the dynamic properties of the underlying speech acoustics, and thus of the speaker characteristics. This results in a representation based on only a small number of decorrelated parameters that are in turn used for forensic speaker recognition. The evaluation conducted in the study incorporates the calculation of likelihood ratios for use in the Bayesian approach of evidence evaluation. The advantages of this framework and its current limitations are discussed. For the calculation of the likelihood ratios a multivariate kernel density formula developed by Aitken & Lucy (2004) is used which takes both between-speaker and within-speaker variability into account. Automatic calibration and fusion techniques as they are used in automatic speaker identification systems are applied to the resulting scores. To further investigate the importance of duration aspects of the diphthongs for speaker recognition an experiment is undertaken that evaluates the effect of time-normalisation as well as modelling segment durations using an explicit parameter. The performance of the parametric representation approach compared with other methods as well as the effects of calibration and fusion are evaluated using standard evaluation tools like the detection error trade-off (DET) plots, the applied probability of error (APE) plot, the Tippett plot as well as numerical indices like the EER and the Cllr metric

    Voice Modeling Methods for Automatic Speaker Recognition

    Get PDF
    Building a voice model means to capture the characteristics of a speaker´s voice in a data structure. This data structure is then used by a computer for further processing, such as comparison with other voices. Voice modeling is a vital step in the process of automatic speaker recognition that itself is the foundation of several applied technologies: (a) biometric authentication, (b) speech recognition and (c) multimedia indexing. Several challenges arise in the context of automatic speaker recognition. First, there is the problem of data shortage, i.e., the unavailability of sufficiently long utterances for speaker recognition. It stems from the fact that the speech signal conveys different aspects of the sound in a single, one-dimensional time series: linguistic (what is said?), prosodic (how is it said?), individual (who said it?), locational (where is the speaker?) and emotional features of the speech sound itself (to name a few) are contained in the speech signal, as well as acoustic background information. To analyze a specific aspect of the sound regardless of the other aspects, analysis methods have to be applied to a specific time scale (length) of the signal in which this aspect stands out of the rest. For example, linguistic information (i.e., which phone or syllable has been uttered?) is found in very short time spans of only milliseconds of length. On the contrary, speakerspecific information emerges the better the longer the analyzed sound is. Long utterances, however, are not always available for analysis. Second, the speech signal is easily corrupted by background sound sources (noise, such as music or sound effects). Their characteristics tend to dominate a voice model, if present, such that model comparison might then be mainly due to background features instead of speaker characteristics. Current automatic speaker recognition works well under relatively constrained circumstances, such as studio recordings, or when prior knowledge on the number and identity of occurring speakers is available. Under more adverse conditions, such as in feature films or amateur material on the web, the achieved speaker recognition scores drop below a rate that is acceptable for an end user or for further processing. For example, the typical speaker turn duration of only one second and the sound effect background in cinematic movies render most current automatic analysis techniques useless. In this thesis, methods for voice modeling that are robust with respect to short utterances and background noise are presented. The aim is to facilitate movie analysis with respect to occurring speakers. Therefore, algorithmic improvements are suggested that (a) improve the modeling of very short utterances, (b) facilitate voice model building even in the case of severe background noise and (c) allow for efficient voice model comparison to support the indexing of large multimedia archives. The proposed methods improve the state of the art in terms of recognition rate and computational efficiency. Going beyond selective algorithmic improvements, subsequent chapters also investigate the question of what is lacking in principle in current voice modeling methods. By reporting on a study with human probands, it is shown that the exclusion of time coherence information from a voice model induces an artificial upper bound on the recognition accuracy of automatic analysis methods. A proof-of-concept implementation confirms the usefulness of exploiting this kind of information by halving the error rate. This result questions the general speaker modeling paradigm of the last two decades and presents a promising new way. The approach taken to arrive at the previous results is based on a novel methodology of algorithm design and development called “eidetic design". It uses a human-in-the-loop technique that analyses existing algorithms in terms of their abstract intermediate results. The aim is to detect flaws or failures in them intuitively and to suggest solutions. The intermediate results often consist of large matrices of numbers whose meaning is not clear to a human observer. Therefore, the core of the approach is to transform them to a suitable domain of perception (such as, e.g., the auditory domain of speech sounds in case of speech feature vectors) where their content, meaning and flaws are intuitively clear to the human designer. This methodology is formalized, and the corresponding workflow is explicated by several use cases. Finally, the use of the proposed methods in video analysis and retrieval are presented. This shows the applicability of the developed methods and the companying software library sclib by means of improved results using a multimodal analysis approach. The sclib´s source code is available to the public upon request to the author. A summary of the contributions together with an outlook to short- and long-term future work concludes this thesis
    corecore