13 research outputs found
CIVIL Corpus: Voice Quality for Speaker Forensic Comparison
AbstractThe most frequent way in which criminals disguise their voices implies changes in phonation types, but it is difficult to maintain them for a long time. This mechanism severely hampers identification. Currently, the CIVIL corpus comprises 60 Spanish speakers. Each subject performs three tasks: spontaneous conversation, carrier sentences and reading, using modal, falsetto and creak(y) phonation. Two different recording sessions, one month apart, were conducted for each speaker, who was recorded with microphone, telephone and electroglottography. This is the first (open-access) corpus of disguised voices in Spanish. Its main purpose is finding biometric traces that remain in voice despite disguise
Detection of Non-native Speaker Status from Backwards and Vocoded Content-masked Speech
This paper addresses the issue of speech rhythm as a cue to non-native pronunciation.
In natural recordings, it is impossible to disentangle rhythm from segmental, subphonemic
or suprasegmental features that may influence nativeness ratings. However, two methods of
speech manipulation, that is, backwards content-masked speech and vocoded speech, allow the
identification of native and non-native speech in which segmental properties are masked and
become inaccessible to the listeners. In the current study, we use these two methods to compare
the perception of content-masked native English speech and Polish-accented speech. Both
native English and Polish-accented recordings were manipulated using backwards masked
speech and 4-band white-noise vocoded speech. Fourteen listeners classified the stimuli as
produced by native or Polish speakers of English. Polish and English differ in their temporal
organization, so, if rhythm is a significant contributor to the status of non-native accentedness,
we expected an above-chance rate of recognition of native and non-native English
speech. Moreover, backwards content-masked speech was predicted to yield better results than
vocoded speech, because it retains some of the indexical properties of speakers. The results
show that listeners are unable to detect non-native accent in Polish learners of English from
backwards and vocoded speech samples
Listeners use temporal information to identify French- and English-accented speech
Which acoustic cues can be used by listeners to identify speakers’ linguistic origins in foreign-accented speech? We investigated accent identification performance in signal-manipulated speech, where (a) Swiss German listeners heard native German speech to which we transplanted segment durations of French-accented German and English-accented German, and (b) Swiss German listeners heard 6-band noise-vocoded French-accented and English-accented German speech to which we transplanted native German segment durations. Therefore, the foreign accent cues in the stimuli consisted of only temporal information (in a) and only strongly degraded spectral information (in b). Findings suggest that listeners were able to identify the linguistic origin of French and English speakers in their foreign-accented German speech based on temporal features alone, as well as based on strongly degraded spectral features alone. When comparing these results to previous research, we found an additive trend of temporal and spectral cues: identification performance tended to be higher when both cues were present in the signal. Acoustic measures of temporal variability could not easily explain the perceptual results. However, listeners were drawn towards some of the native German segmental cues in condition (a), which biased responses towards ‘French’ when stimuli featured uvular /r/s and towards ‘English’ when they contained vocalized /r/s or lacked /r/
Die Rolle phonetischer Information in der Sprechererkennung
Die gesprochene Sprache enthält neben den phonetischen bzw. lexikalischen Informationen,
die den Inhalt einer Äußerung ausmachen, auch Informationen über den Sprecher. Beide
Informationstypen interagieren miteinander, was dazu führt, dass manche Segmente mehr
Informationen über einen Sprecher enthalten als andere und dass Wissen über den Sprecher
dabei helfen kann, die phonetischen Informationen besser zu verarbeiten und somit eine
Äußerung besser zu verstehen. Außerdem stellt sich die Frage, wie diese Informationen
im Hinblick auf ein Sprachwahrnehmungsmodell (abstraktionistisch vs. exemplarbasiert)
integriert werden.
Von diesem Stand ausgehend wird in dieser Arbeit der Einfluss der Segmente, insbesondere
der Konsonanten, auf die Sprecherdiskrimination bzw. -identifikation untersucht. Dafür
werden zunächst einige akustische Merkmale ausgewählter Konsonanten des Deutschen in
einem Sprachkorpus analysiert. Es werden die ersten vier spektralen Momente der Laute
gemessen und deren Sprecherspezifität bestimmt. Vor allem die Nasale /m/ und /n/ sowie
die Frikative /f/ und /s/ offenbarten viele sprecherspezifische Merkmale.
Aufgrund der Annahme, dass sich diese akustisch gemessenen Merkmale auch perzeptiv
in irgendeiner Form manifestieren müssen, wurde ein Sprecherdiskriminationsexperiment
mit Hörern durchgeführt. In beiden Experimenten war das Sprachmaterial eine /aKa/-
Sequenz. Im ersten Experiment enthielt der gesamte Stimulus Sprecherinformationen,
während im zweiten Experiment nur der (statische Teil vom) Konsonant, aber nicht die
Vokaletransitionen Sprecherinformationen enthielt. In beiden Untersuchungen zeigen sich
Unterschiede in der Sprecherspezifität zwischen den verschiedenen Artikulationsmodi und
-stellen, wobei die durchschnittliche Sprecherdiskriminationsrate im zweiten Experiment
deutlich geringer ist als im ersten. Die Ergebnisse lassen darauf schließen, dass Nasale und
Plosive viele ihrer Informationen in den Vokaltransitionen enthalten, während die Frikative
mehr Informationen im (statischen Bereich des) Konsonanten besitzen.
Da die phonetischen und Sprecherinformationen miteinander interagieren, wurde im letzten
Teil der Arbeit die zeitliche Koordination der Verarbeitung beider Informationstypen
mittels eines Visual-World Eye-Tracking Experiments untersucht. Die Ergebnisse zeigen,
dass die Hörer das Target mit großer Sicherheit identifizierten, aber dass mit steigender
Anzahl an Sprechern (2 vs. 4 Sprecher) die Schwierigkeit der Targetidentifikation steigt. Im
Fall von verschieden geschlechtlichen Sprechern wird zuerst das Geschlecht und dann der
einzelne Sprecher erkannt. Außerdem wird nachgewiesen, dass die Sprecherinformationen
tendenziell sogar früher verarbeitet werden als die phonetischen Informationen und selbst
dann Verwendung finden, wenn phonetische Informationen allein zur Targetidentifikation
ausreichend sind. In phonetisch ambigen Fällen werden die Sprecherinformationen verwendet,
um diese Ambiguität zu verringern. Die Ergebnisse unterstreichen die Bedeutung von
Sprecherinformationen in der Verarbeitung gesprochener Sprache und sprechen somit
eher für ein episodisches, exemplarbasiertes Modell der Sprachwahrnehmung, welches
Sprecherinformationen bereits zu einem frühen Zeitpunkt im Sprachverarbeitungsprozess
integriert
Speaker idiosyncratic rhythmic features in the speech signal
Speakers' voices are to a high degree individual. In the present paper we report about an ongoing research project in which we study how temporal characteristics of human speech (e.g. segmental or prosodic timing patterns, speech rhythmic characteristics and durational patterns of voicing) contribute to speaker individuality. We report about the creation of the TEVOID-Corpus (Temporal Voice Idiosyncrasy) that we are currently creating in our lab at Zurich University. 8 speakers producing 16 spontaneous sentences each are currently in the database which is rapidly growing. The paper gives an overview of the general ideas for the data collection and first results showing that there are significant rhythmic differences (%V, %VO, VarcoPeak) in spontaneously produced sentences between speakers of Zurich German
Speaker idiosyncratic rhythmic features in the speech signal
Speakers' voices are to a high degree individual. In the present paper we report about an ongoing research project in which we study how temporal characteristics of human speech (e.g. segmental or prosodic timing patterns, speech rhythmic characteristics and durational patterns of voicing) contribute to speaker individuality. We report about the creation of the TEVOID-Corpus (Temporal Voice Idiosyncrasy) that we are currently creating in our lab at Zurich University. 8 speakers producing 16 spontaneous sentences each are currently in the database which is rapidly growing. The paper gives an overview of the general ideas for the data collection and first results showing that there are significant rhythmic differences (%V, %VO, VarcoPeak) in spontaneously produced sentences between speakers of Zurich German