L’analyse vidéo pour la vidéo-surveillance nécessite d’avoir une bonne résolution pour pouvoir analyser les flux vidéo avec un maximum de robustesse. Dans le contexte de la détection d’objets stationnaires dans les grandes zones, telles que les parkings, le compromis entre la largeur du champ d’observation et la bonne résolution est difficile avec un nombre limité de caméras. Nous allons utiliser une paire de caméras à focale variable de type Pan-Tilt-Zoom (PTZ). Les caméras parcourent un ensemble de positions (pan, tilt, zoom) prédéfinies afin de couvrir l’ensemble de la scène à une résolution adaptée. Chacune de ces positions peut être vue comme une caméra stationnaire à très faible taux de rafraîchissement. Dans un premier temps notre approche considère les positions des PTZ comme des caméras indépendantes. Une soustraction de fond robuste aux changements de luminosité reposant sur une grille de descripteurs SURF est effectuée pour séparer le fond du premier plan. La détection des objets stationnaires est effectuée par ré-identification des descripteurs à un modèle du premier plan. Dans un deuxième temps afin de filtrer certaines fausses alarmes et pouvoir localiser les objets en 3D une phase de mise en correspondance des silhouettes entre les deux caméras et effectuée. Les silhouettes des objets stationnaires sont placées dans un repère commun aux deux caméras en coordonnées rectifiées. Afin de pouvoir gérer les erreurs de segmentation, des groupes de silhouettes s’expliquant mutuellement et provenant des deux caméras sont alors formés. Chacun de ces groupes (le plus souvent constitué d’une silhouette de chaque caméra, mais parfois plus) correspond à un objet stationnaire. La triangulation des points frontière haut et bas permet ensuite d’accéder à sa localisation 3D et à sa taille.Video analysis for video surveillance needs a good resolution in order to analyse video streams with a maximum of robustness. In the context of stationary object detection in wide areas a good compromise between a limited number of cameras and a high coverage of the area is hard to achieve. Here we use a pair of Pan-Tilt-Zoom (PTZ) cameras whose parameter (pan, tilt and zoom) can change. The cameras go through a predefined set of parameters chosen such that the entire scene is covered at an adapted resolution. For each triplet of parameters a camera can be assimilated to a stationary camera with a very low frame-rate and is referred to as a view. First each view is considered independently. A background subtraction algorithm, robust to changes in illumination and based on a grid of SURF descriptors, is proposed in order to separate background from foreground. Then the detection and segmentation of stationary objects is done by reidentifying foreground descriptor to a foreground model. Then in order to filter out false alarms and to localise the objects in the3D world, the detected stationary silhouettes are matched between the two cameras. To remain robust to segmentation errors, instead of matched a silhouette to another, groups of silhouettes from the two cameras and mutually explaining each other are matched. Each of the groups then correspond to a stationary object. Finally the triangulation of the top and bottom points of the silhouettes gives an estimation of the position and size of the object