Dans un processus de classification ou d'indexation de documents audio, la première étape est souvent la segmentation du signal en composantes primaires : la plupart du temps musique et parole. Très peu de travaux ont cependant été jusqu'alors consacrés à la détection du chant, qu'il soit accompagné ou non. Nous proposons ici d'utiliser des paramètres simples (vibrato et coefficient harmonique), ainsi qu'une nouvelle segmentation du signal pour caractériser le chant. Nous fusionnons ensuite les résultats avec ceux d'une segmentation classique parole/musique. Les tests sont réalisés sur un corpus que nous avons composé nous même, de façon à avoir la plus grande diversité possible. Nous testons d'abord notre système sur une tâche d'identification, puis sur une tâche de détection. Dans les deux cas, les résultats sont satisfaisants. Notre système de classification est presque parfait, les seules erreurs sont dues à des styles musicaux anecdotiques. Pour la tâche de détection, nous avons des non-détections, mais très peu de fausses-détections

ANDRE-OBRECHT, Régine

LACHAMBRE, Hélène

PINQUIER, Julien

I-Revues

Caracte´risation de la voix chante´e dans un contexte
d’indexation audio
He´le`ne Lachambre, Re´gine Andre´-Obrecht, Julien Pinquier
Institut de Recherche en Informatique de Toulouse, 118 route de Narbonne, 31062 Toulouse Cedex 9, France
lachambre@irit.fr, obrecht@irit.fr, pinquier@irit.fr
Re´sume´ – Dans un processus de classiﬁcation ou d’indexation de documents audio, la premie`re e´tape est souvent la segmentation
du signal en composantes primaires : la plupart du temps musique et parole. Tre`s peu de travaux ont cependant e´te´ jusqu’alors
consacre´s a` la de´tection du chant, qu’il soit accompagne´ ou non.
Nous proposons ici d’utiliser des parame`tres simples (vibrato et coeﬃcient harmonique), ainsi qu’une nouvelle segmentation du
signal pour caracte´riser le chant. Nous fusionnons ensuite les re´sultats avec ceux d’une segmentation classique parole/musique.
Les tests sont re´alise´s sur un corpus que nous avons compose´ nous meˆme, de fac¸on a` avoir la plus grande diversite´ possible. Nous
testons d’abord notre syste`me sur une taˆche d’identiﬁcation, puis sur une taˆche de de´tection. Dans les deux cas, les re´sultats sont
satisfaisants. Notre syste`me de classiﬁcation est presque parfait, les seules erreurs sont dues a` des styles musicaux anecdotiques.
Pour la taˆche de de´tection, nous avons des non-de´tections, mais tre`s peu de fausses-de´tections.
Abstract – To extract the content of audio documents, the ﬁrst step in many methods is to segment the signal in primary
components: music and speech. But very few work has been done to detect the singing voice, coupled or not with music.
In this paper, we propose simple parameters (vibrato and harmonic coeﬃcient) and an original segmentation based on a sinu-
soidal segmentation to characterize the singing voice. The results are then mixed with those from a speech/music decomposition.
We test this classiﬁcation system on a database composed of various types of sound. We test its performances in classiﬁcation
and in detection. In both cases, the results are good. In our classiﬁcation system, the only misclassiﬁcation are due to very rare
musical styles. In the detection task, our system misses some of the singing voice segments, but has very few false-alarm.
1 Introduction
Pour indexer un document audiovisuel, la premie`re e´tape
est de de´terminer le type d’information pre´sent. Si dans
le cas de la bande sonore, de nombreux travaux ont e´te´
re´alise´s pour de´tecter la musique, la parole, ou encore des
sons caracte´ristiques [1, 2], tre`s peu ont e´te´ mene´s sur le
chant [3]. Les caracte´ristiques du chant se trouvent entre
celles de la parole et de la musique ; dans un syste`me pa-
role/musique, le chant est souvent reconnu comme de la
musique, mais il est parfois pris pour de la parole !
Notre e´tude se base sur une segmentation de type pa-
role/musique [4] de´veloppe´e au sein de notre e´quipe. Celle-
ci utilise des parame`tres robustes et simples et ne ne´cessite
pas d’apprentissage. Plus pre´cise´ment, il ne´cessite le re´-
glage de quelques (4) seuils inde´pendants du corpus. Nous
avons suivi la meˆme ide´e pour le chant : de´velopper un
syste`me sans apprentissage base´ sur quelques parame`tres.
Nous introduisons une segmentation originale, base´e sur
une segmentation sinuso¨ıdale [5], et y associons deux
parame`tres simples mais discriminants : le vibrato et le co-
eﬃcient harmonique [6]. L’analyse de ces deux parame`tres,
et la fusion avec les informations issues de la segmentation
parole/musique, nous permettent de savoir, a` chaque ins-
tant, lesquelles des trois composantes sont pre´sentes.
Dans la partie 2, nous de´crivons l’e´tat de l’art. Dans
la partie 3, nous pre´sentons notre nouvelle segmentation,
les parame`tres et le processus de de´cision. Les tests sont
re´sume´s dans la partie 4.
2 E´tat de l’art
Nous avons utilise´ deux parame`tres (le vibrato et le co-
eﬃcient harmonique) et la segmentation sinuso¨ıdale .
Nous de´crivons ci-dessous ces trois outils.
2.1 Le vibrato
Le vibrato est une oscillation de la fre´quence. Le propre
du vibrato de la voix est qu’il est toujours pre´sent lorsque
nous chantons, mais pas quand nous parlons [7, 8] (voir
ﬁgure 1). Il est e´galement possible de faire du vibrato avec
des instruments (vents et cordes), mais il sera la plupart
du temps a` une autre fre´quence.
(a) Chant (vibrato) (b) Parole (pas de vibrato)
Fig. 1 – Fre´quence fondamentale pour des extraits de 2 se-
condes de chant (a) et de parole (b).
La pre´sence de vibrato est caracte´rise´e par un maximum
Colloque GRETSI, 11-14 septembre 2007, Troyes 169
entre 4 et 8 Hz dans la DFT de la fre´quence fondamentale.
L’inconve´nient de ce parame`tre est qu’il faudrait, pour
de la musique polyphonique, extraire la fre´quence fonda-
mentale de chaque instrument (voir section 3.2.2).
2.2 Le coeﬃcient harmonique
Le coeﬃcient harmonique [9] mesure le poids de la plus
importante se´rie dans une de´composition en se´ries harmo-
niques. E´leve´ en pre´sence de chant [6], il est calcule´ ainsi :
– auto-corre´lation temporelle RT :
RT (τ) =
N−τ−1∑
n=0
[s˜(n) · s˜(n + τ)]
√√√√N−τ−1∑
n=0
s˜2(n) ·
N−τ−1∑
n=0
s˜2(n + τ)
(1)
avec s le signal a` analyser, s˜ sa version centre´e en ze´ro
et N la taille de la feneˆtre d’analyse.
– auto-corre´lation fre´quentielle RF :
RF (ωτ ) =
N−ωτ−1∑
ω=0
[
S˜(ω) · S˜(ω + ωτ )
]
√√√√N−ωτ−1∑
ω=0
S˜2(ω) ·
N−ωτ−1∑
ω=0
S˜2(ω + ωτ )
(2)
avec S le module de la transforme´e de Fourier de s,
S˜ sa version centre´e en ze´ro et ωτ = N/τ .
– combinaison des deux auto-corre´lations :
R(τ) = β ·RT (τ) + (1− β)RF (τ) (3)
– le coeﬃcient harmonique Ha est alors de´ﬁni ainsi :
Ha = max
τ
R(τ) (4)
Expe´rimentalement, [9] trouve β = 0, 5 comme valeur
optimale, que nous utiliserons e´galement dans cette e´tude.
2.3 La segmentation sinuso¨ıdale
Cette segmentation, de´veloppe´e par [5] re´alise un suivi
automatique des fre´quences (voir ﬁgure 2). Un segment
sinuso¨ıdal est de´ﬁni par 4 parame`tres : les indices de de´but
et ﬁn, les vecteurs des fre´quences et de leurs amplitudes.
Le calcul des segments sinuso¨ıdaux se fait ainsi [5] :
– calculer le spectrogramme toutes les 10 ms, avec une
feneˆtre de Hamming de 20 ms,
– convertir les fre´quences en cent (100cent = 1/2ton) :
fcent = 1200 · log2
(
fHz
440 · 2
3
11
−5
)
(5)
– de´tecter les maxima du spectrogramme : leurs fre´-
quences f it et leurs amplitudes p
i
t,
– calculer les distances entre les points du spectrogramme :
di1,i2(t) =
√√√√(f i1t − f i2t−1
Cf
)2
+
(
pi1t − p
i2
t−1
Cp
)2
(6)
Deux points (t, f i1t ) et (t + 1, f
i2
t+1) appartiennent au
meˆme segment sinuso¨ıdal si di1,i2(t) < dth. Cf , Cp et dth
sont de´termine´s expe´rimentalement : Cf = 100 (1 demi-
ton), Cp = 3 (puissance divise´e par 2) et dth = 5 (voir [5]).
Fig. 2 – Segmentation sinuso¨ıdale d’un extrait de 23 se-
condes de chant a capella : chaque ligne est un segment.
3 Syste`me Parole/Musique/Chant
Notre syste`me se base sur trois de´cisions : pre´sence ou
non de parole, de musique et de chant. Le travail sur la
parole et la musique a e´te´ re´alise´ ante´rieurement. Le pro-
ble`me du chant nous a amene´s a` introduire une nouvelle
segmentation et une extension de la notion de vibrato.
Dans cette partie, nous de´crivons la segmentation et les
parame`tres. Nous concluons par les re`gles de de´cision.
3.1 La segmentation temporelle
L’e´tude de spectrogrammes nous a amene´s a` proposer
cette nouvelle segmentation, base´e sur la segmentation si-
nuso¨ıdale (voir ﬁgure 3) : pendant un son harmonique
stable (typiquement une note), la fre´quence fondamen-
tale et ses harmoniques commencent et ﬁnissent en meˆme
temps. Nous analysons donc les corre´lations temporelles
entre les de´buts et les ﬁns des segments sinuso¨ıdaux :
– calculer les segments sinuso¨ıdaux (voir 2.3),
– trouver toutes les extre´mite´s temporelles des segments,
en distinguant les de´buts des ﬁns,
– placer une limite a` l’instant t s’il y a au moins 2 ex-
tre´mite´s a` t ET 3 de´buts ou 3 ﬁns entre t et t + 1.
Un segment temporel est alors de´ﬁni par deux limites
successives. On en distingue imme´diatement deux types :
– les segments longs et stables (dure´e supe´rieure a` 100 ms),
– les segments courts.
A` l’issue de cette segmentation, chaque segment long
correspond a` une note. Nous analysons ceux-ci, car ils sont
discriminants dans l’e´tude du chant.
170
Fig. 3 – Segmentation temporelle du meˆme extrait que la
ﬁgure 2, les lignes verticales sont les limites des segments.
3.2 La parame´trisation
3.2.1 La musique et la parole
Les parame`tres sont ceux de [4] : la modulation de
l’e´nergie a` 4 Hz mod4Hz , la modulation de l’entropiemodH ,
la dure´e l et le nombre n de segments stationnaires [10].
Les deux premiers parame`tres sont utilise´s pour de´tecter
la parole. La modulation de l’e´nergie a` 4 Hz caracte´rise le
fait qu’on prononce en moyenne 4 syllabes par seconde.
La modulation de l’entropie fait apparaˆıtre le fait que la
parole est moins ordonne´e que la musique.
Les deux autres parame`tres l et n sont utilise´s pour de´-
tecter la musique. Ils sont issus d’une segmentation du si-
gnal en segments stationnaires [10] et sont calcule´s chaque
seconde. n est le nombre de segments par seconde. l est la
dure´e moyenne des 7 plus longs segments de la seconde.
3.2.2 Le chant
Le coeﬃcient harmonique Ha est calcule´ comme dans la
partie 2.2.
Le vibrato est une forte caracte´ristique du chant. Nous
avons e´tendu cette notion en notant qu’il aﬀecte la fre´-
quence fondamentale, mais aussi ses harmoniques. Ceci
nous permet de traiter de la musique polyphonique.
Nous introduisons le parame`tre vibr, qui mesure, dans
un segment temporel, la proportion de segments sinuso¨ı-
daux qui ont du vibrato. Les segments sinuso¨ıdaux prove-
nant du chant auront du vibrato mais pas les autres ; ainsi
la valeur de vibr sera plus e´leve´e en pre´sence de chant.
Comme pre´cise´ pre´ce´demment, seuls les segments tem-
porels longs sont discriminants. Nous ne calculons vibr que
pour eux, et attribuons la valeur 0 aux segments courts.
vibr =
∑
s∈Γ
l(s)
∑
s∈Ω
l(s)
(7)
avec :
l(s) la longueur de s,
Γ les segments sinuso¨ıdaux longs (>50 ms) avec du vi-
brato,
Ω l’ensemble des segments sinuso¨ıdaux longs.
Finalement, Ha et vibr sont moyenne´s sur une seconde,
pour eˆtre a` la meˆme e´chelle que les autres parame`tres.
3.3 Le processus de de´cision
Nous avons trois de´cisions a` prendre : pre´sence ou ab-
sence de parole (P), de musique (M) et de chant (C). Nous
comple´tons les re`gles donne´es par [4] en y introduisant Ha
et vibr et en ajoutant une cate´gorie : le chant.
P = (modH ≥ λ1)& (mod4Hz ≥ λ2)& (Ha ≥ λ5)
C = (non(Parole)) & (vibr ≥ λ6)
M = Chant ∪ ((n ≤ λ3)& (l ≥ λ4))
(8)
Les seuils λ1, λ2, λ3 et λ4 sont donne´s dans [4] : λ1 =
0, 5, λ2 = 2, 5, λ3 = 17, λ4 = 50ms. λ5 et λ6 sont de´ter-
mine´s expe´rimentalement (voir 4.1).
Remarque : nous imposons Chant ⊂ Musique,
et Parole ∩ Chant = ∅.
4 Tests
4.1 Corpus
Pour tester notre algorithme, nous avons constitue´ un
corpus le plus varie´ possible : de la parole, de la musique
instrumentale, du chant a capella ou accompagne´ (voir
tableau. 1) avec des styles, instruments et eﬀectifs varie´s.
Tab. 1 – Re´partition du corpus.
Type Fichiers Dure´e
Seuils Tests Seuils Test
Chant a capella 2 9 8’ 22’
Parole 3 12 25’ 2h
Musique instru. 8 32 25’ 2h
Chant accompagne´ 9 36 45’ 3h
Total 22 89 1h44’ 7h22’
Nous avons utilise´ une partie du corpus (1/4 des ﬁchiers,
soit 1h30) pour ﬁxer les seuils : λ5 = 0, 7, λ6 = 0, 08.
4.2 Identiﬁcation
Nous testons d’abord la capacite´ d’identiﬁcation du sys-
te`me : pour un extrait audio homoge`ne donne´, il doit de´-
terminer si c’est de la parole ou de la musique et, dans ce
cas, s’il y a du chant. La de´cision parole/musique est prise
par vote majoritaire. Il n’y a jamais d’ambigu¨ıte´ puisque
pour la classiﬁcation parole/musique, le taux d’erreur est
infe´rieur a` 10% (voir [4]). Si c’est un extrait musical, la
pre´sence de chant est caracte´rise´e par le fait qu’on en de´-
tecte pendant au moins 1/4 du temps. Cela permet de
prendre en compte les interme`des instrumentaux parfois
longs.
Colloque GRETSI, 11-14 septembre 2007, Troyes 171
Tab. 2 – Classiﬁcation des extraits.
Chant Parole Musique Total
Chant a capella 9 0 0 9
Parole 0 12 0 12
Musique instru. 3 0 29 32
Musique+Chant 27 0 9 36
Les re´sultats pour cette taˆche (tableau 2) sont parfaits
pour la parole et la musique. La de´tection de chant dans
des extraits instrumentaux (3 sur 32) est due a` des instru-
ments rares (ﬂuˆte de pan, accorde´on, . . . ) qui ont le meˆme
vibrato que la voix. La non de´tection du chants est plus
courante (9 sur 36). Dans ces cas, le chanteur chante peu,
ou sa voix est parfois quasi-totalement masque´e.
4.3 De´tection
Nous avons ensuite teste´ les performances de de´tec-
tion : de´terminer a` chaque instant quelles sont les com-
posantes pre´sentes. Nous avons des informations toutes
les secondes, mais cette e´chelle n’est pas adapte´e au chant
car elle ne permet pas de prendre en compte des interrup-
tions courtes, par exemple les respirations. Nous lissons
donc les re´sultats obtenus pour le chant apre`s l’e´tape de
de´cision : il y a du chant si on en de´tecte pendant au moins
2 secondes sur 3 conse´cutives.
Pour e´valuer les re´sultats, nous comparons notre sys-
te`me a` un syste`me classique : extraction de 18 MFCC
toutes les 10 ms, puis construction de 2 mode`les GMM
(32 gaussiennes) pour repre´senter les classes chant et non-
chant. Pour les mode`les GMM de musique/non musique
et de parole/non parole, voir [4].
Aﬁn de pouvoir comparer les deux syste`mes, nous avons
re´alise´ l’apprentissage des GMM avec la meˆme partie du
corpus qui nous avait permis de re´gler les seuils λ5 et λ6.
Les re´sultats issus du syste`me classique pour le chant sont
e´galement lisse´s sur 3 secondes.
Tab. 3 – Taux de bonne de´tection.
Type audio Notre syste`me GMM
Parole 89,5% 94%
Musique 93% 91%
Chant 70% 70,3%
Les re´sultats (tableau 3) pour la de´tection de la parole et
de la musique sont bons (89,5% et 93%) et sont compe´titifs
avec ceux obtenus avec des GMM.
Pour le chant, la de´tection est moins performante (70%),
mais reste malgre´ tout comparable a` un syste`me classique.
Les erreurs ont les meˆmes causes que dans la taˆche d’iden-
tiﬁcation : les non de´tections sont dues soit au masquage
du chant par les instruments, soit a` la pre´sence d’instru-
ments (rares) tels une cornemuse. Le chant est alors classe´
comme de la musique (3/4) ou du silence (1/4). Le taux
de confusion (instruments pris pour du chant) est faible :
8,5%, contre 19,5% pour les GMM. Ces erreurs sont duˆes
a` des instruments qui ont le meˆme vibrato que la voix.
5 Conclusion
Dans cet article, nous avons pre´sente´ une me´thode pour
la de´tection du chant, base´e sur deux parame`tres simples :
le vibrato et le coeﬃcient harmonique, ainsi que sur une
segmentation originale du signal. En fusionnant les infor-
mations issues de ces parame`tres avec celles de la seg-
mentation Parole/Musique [4], nous savons quelles com-
posantes sont pre´sentes : parole, musique, chant. Les per-
formances de notre syste`me sont comparables a` celles d’un
syste`me classique (GMM et MFCC), avec l’avantage qu’il
ne ne´cessite aucun apprentissage.
Nous allons maintenant essayer d’ame´liorer nos perfor-
mances en exploitant deux pistes : ame´liorer la segmenta-
tion temporelle, et combiner notre syste`me et le classique.
Re´fe´rences
[1] E. Scheirer and M. Slaney, “Construction and eva-
luation of a robust multifeature speech/music discri-
minator,” in ICASSP. IEEE, 1997, vol. 2, pp. 1331–
1334.
[2] M. Karjalainen and T. Tolonen, “Multi-pitch and
periodicity analysis model for sound separation and
auditory scene analysis,” in ICASSP. IEEE, 1999,
vol. 2, pp. 929–932.
[3] I. Arroabarren, M. Zivanovic, X. Rodet, and A. Car-
losena, “Instantaneous frequency and amplitude of
vibrato in singing voice,” in ICASSP. IEEE, 2003,
vol. 5, pp. 537–540.
[4] J. Pinquier, J.L. Rouas, and R. Andre-Obrecht, “A
fusion study in speech / music classiﬁcation,” in
ICASSP. IEEE, 2003, vol. 2, pp. 17–20.
[5] Toru Taniguchi, Akishige Adachi, Shigeki Okawa,
Masaaki Honda, and Katsuhiko Shirai, “Discrimi-
nation of Speech, Musical Instruments and Singing
Voices Using the Temporal Patterns of Sinusoidal
Segments in Audio Signals,” in Interspeech - European
Conference on Speech Communication and Techno-
logy. ISCA, 2005, pp. 589–592.
[6] Wu Chou and Liang Gu, “Robust Singing Detection
in Speech/Music Discriminator Design,” in ICASSP.
IEEE, 2001, vol. 2, pp. 865–868.
[7] I. Arroabarren and A. Carlosena, “Voice production
mechanisms of vocal vibrato in male singers,” IEEE
Transactions on Audio, Speech and Language Proces-
sing, vol. 15, no. 1, pp. 320–332, Jan 2007.
[8] R. Timmers and P. Desain, “Vibrato : questions and
answers from musicians and science,” in Proc. Int.
Conf. on Music Perception and Cognition, 2000.
[9] Y.D. Cho, M.Y. Kim, and S.R. Kim, “A spectrally
mixed excitation (SMX) vocoder with robust parame-
ter determination,” in ICASSP. IEEE, 1998, vol. 2,
pp. 601–604.
[10] R. Andre´-Obrecht, “A new statistical approach for
the automatic segmentation of continuous speech,”
IEEE Transaction on Acoustics, Speech, and Signal
Processing, vol. 36, pp. 29–40, 1988.
172


Caractérisation de la voix chantée dans un contexte d'indexation audio

http://documents.irevues.inist.fr/bitstream/2042/17469/1/GRETSI_2007_169.pdf

Caractérisation de la voix chantée dans un contexte d'indexation audio

Abstract

Similar works

Full text

Available Versions

I-Revues