National audienceThis paper presents a clustering method of detections of the same object seen on a video. We apply it to the context of the automatic construction of photo album. We use a global analysis, based on a probabilistic framework of data association problems. The solution is given by Maximum A Posteriori estimation. Our main contribution concerns the use of a local front-back tracking, applied to each detection ; to increase appearance information of detections with a spatial information, through local tracks construction. We introduce a new likelihood measure based on the spatio-temporal dissimilarity between tracks. The algorithm is then able to deal with situations in which the face detections are scattered. We propose to use criteria derived from purity and inverse purity of a clustering to assess performances of the proposed method. This method is compared to hierarchical clustering on two real test sequences.Cet article présente une méthode de regroupement de détections d'un même objet vu sur une séquence vidéo, en se plaçant dans le cadre applicatif plus précis de la construction automatique d'un album photo. Nous utilisons une méthode d'analyse globale, basée sur une formalisation probabiliste du problème d'association de données. La solution du problème est alors donnée par une estimation du Maximum A Posteriori (MAP). La principale contribution concerne l'utilisation d'une méthode de suivi locale avant-arrière appliquée à chaque détection. Cela afin d'enrichir l'information d'apparence issue de la détection, par une information spatiale provenant de la construction de pistes locales. Nous introduisons une nouvelle mesure de vraisemblance basée sur la dissimilarité spatio-temporelle entre les pistes. L'algorithme obtenu est alors capable d'adresser des situations où les détections de visages sont éparses. Nous proposons d'utiliser des critères dérivés de la pureté et la pureté inverse d'un clustering pour évaluer les performances de la méthode proposée. La méthode est ensuite comparée à un clustering ascendant hiérarchique, sur deux séquences test réelles