Currently, the amount of music available, notably via the Internet, is growing daily. The collections are too huge for a user to navigate into without help from a computer. Our work takes place in the general context of music indexation. In order to detail the context of our work, we present a brief overview of the work currently made in music indexation for indexation : instrument recognition, tonality and tempo estimation, genre and mood classification, singer identification, melody, score, chord and lyrics transcription. For each of these subjects, we insist on the definition of the problem and of technical terms, and on the more imporants problems encountered. In a second part, we present au method we developped to automatically distinguish between monophonic and polyphonic sounds. For this task, we developped two new parameters, based on the analysis of a confidence indicator. The modeling of these parameters is made with Weibull bivariate distributions. We studied the problem of the estimation of the parameters of this distribution, and suggested an original method derived from the moment method. A full set of experiment allow us to compare our system with classical method, and to validate each step of our approach. In the third part, we present a singing voice detector, in monophonic and polyphonic context. This method is base on the detection of vibrato. This parameter is derived from the analysis of the fundamental frequency, so it is a priori defined for monophonic sounds. Using two segmentations, we extend this concept to polyphonic sound, and present a new parameter : the extended vibrato. Our system's performances are comparable with those of state-of-the-art methods. Using the monophonic / polyphonic distinction as a pre-processing allow us to adapt our singing voice detector to each context. This leads to an improvment of the results. After giving some reflexions on the use of music for automatic description, annotating and indexing of audiovisual documents, we present the contribution of each tool we presented to music indexation, and to audiovisual documents indexation using music, and finally give some perspectives.Actuellement, la quantité de musique disponible, notamment via Internet, va tous les jours croissant. Les collections sont trop gigantesques pour qu'il soit possible d'y naviguer ou d'y rechercher un extrait sans l'aide d'outils informatiques. Notre travail se place dans le cadre général de l'indexation automatique de la musique. Afin de situer le contexte de travail, nous proposons tout d'abord une brève revue des travaux réalisés actuellement pour la description automatique de la musique à des fins d'indexation : reconnaissance d'instruments, détermination de la tonalité, du tempo, classification en genre et en émotion, identification du chanteur, transcriptions de la mélodie, de la partition, de la suite d'accords et des paroles. Pour chacun de ces sujets, nous nous attachons à définir le problème, les termes techniques propres au domaine, et nous nous attardons plus particulièrement sur les problèmes les plus saillants. Dans une seconde partie, nous décrivons le premier outil que nous avons développé : une distinction automatique entre les sons monophoniques et les sons polyphoniques. Nous avons proposé deux nouveaux paramètres, basés sur l'analyse d'un indice de confiance. La modélisation de la répartition bivariée de ces paramètre est réalisée par des distributions de Weibull bivariées. Le problème de l'estimation des paramètres de cette distribution nous a conduit à proposer une méthode originale d'estimation dérivée de l'analyse des moments de la loi. Une série d'expériences nous permet de comparer notre système à des approches classiques, et de valider toutes les étapes de notre méthode. Dans la troisième partie, nous proposons une méthode de détection du chant, accompagné ou non. Cette méthode se base sur la détection du vibrato, un paramètre défini à partir de l'analyse de la fréquence fondamentale, et défini a priori pour les sons monophoniques. A l'aide de deux segmentations, nous étendons ce concept aux sons polyphoniques, en introduisant un nouveau paramètre : le vibrato étendu. Les performances de cette méthode sont comparables à celles de l'état de l'art. La prise en compte du pré-traitement monophonique / polyphonique nous a amenés à adapter notre méthode de détection du chant à chacun de ces contextes. Les résultats s'en trouvent améliorés. Après une réflexion sur l'utilisation de la musique pour la description, l'annotation et l'indexation automatique des documents audiovisuels, nous nous posons la question de l'apport de chacun des outils décrits dans cette thèse au problème de l'indexation de la musique, et de l'indexation des documents audiovisuels par la musique et offrons quelques perspectives