The need for a better integration of new Computer-Assisted-Surgical systems in the Operating Room (OR) has been recently emphasized. One necessity to achieve this objective is to retrieve data from the OR with different sensors, then to derive models from these data for creating Surgical Process Models (SPMs). Recently, the use of videos from cameras in the OR has demonstrated its efficiency for advancing the creation of situation-aware CAS systems. The purpose of this thesis was to present a new method for the automatic detection of high-level (i.e. surgical phases) and low-level surgical tasks (i.e. surgical activities) from microscope video images only. The first step consisted in the detection of high-level surgical tasks. The idea was to combine state-of-the-art computer vision techniques with time series analysis. Image-based classifiers were implemented for extracting visual cues, therefore characterizing each frame of the video, and time-series algorithms were then applied to model time-varying data. The second step consisted in the detection of low-level surgical tasks. Information concerning surgical tools and anatomical structures were detected through an image-based approach and combined with the information of the current phase within a knowledge-based recognition system. Validated on neurosurgical and eye procedures, we obtained recognition rates of around 94% for the recognition of high-level tasks and 64% for low-level tasks. These recognition frameworks might be helpful for automatic post-operative report generation, learning/teaching purposes, and for future context-aware surgical systems.La besoin d'une meilleure intégration des nouveaux systèmes de chirurgie assistée par ordinateur dans les salles d'opération à récemment été souligné. Une nécessité pour atteindre cet objectif est de récupérer des données dans les salles d'opérations avec différents capteurs, puis à partir de ces données de créer des modèles de processus chirurgicaux. Récemment, l'utilisation de vidéos dans la salle d'opération a démontré son efficacité pour aider à la création de systèmes de CAO sensibles au contexte. Le but de cette thèse était de présenter une nouvelle méthode pour la détection automatique de tâches haut niveaux (i.e. phases chirurgicales) et bas-niveaux (i.e. activités chirurgicales) à partir des vidéos des microscopes uniquement. La première étape a consisté à reconnaitre automatiquement les phases chirurgicales. L'idée fut de combiner des techniques récentes de vision par ordinateur avec une analyse temporelle. Des classifieurs furent tout d'abord mis en œuvre pour extraire des attributs visuels et ainsi caractériser chaque image, puis des algorithmes de classification de séries temporelles furent utilisés pour reconnaitre les phases. La deuxième étape a consisté à reconnaitre les activités chirurgicales. Des informations concernant des outils chirurgicaux et des structures anatomiques furent détectées et combinées avec l'information de la phase précédemment obtenu au sein d'un système de reconnaissance intelligent. Après des validations croisées sur des vidéos de neurochirurgie et de chirurgie de l'œil, nous avons obtenu des taux de reconnaissance de l'ordre de 94% pour la reconnaissance des phases et 64% pour la reconnaissance des activités. Ces systèmes de reconnaissance pourraient être utiles pour générer automatiquement des rapports post-opératoires, pour l'enseignement, l'apprentissage, mais aussi pour les futurs systèmes sensibles au contexte