17 research outputs found

    Mécanismes d’attention pour les modèles convolutifs dans le cadre de la prédiction de trajectoires

    Get PDF
    Cette maîtrise porte sur le problème de prédiction des mouvements des usagers de la route de différents types (piétons, cyclistes, automobilistes...) interagissant ensemble au sein d’intersections. Prédire les déplacements futurs d’agents présente un intérêt dans divers domaines comme les voitures autonomes et les analyses de sécurité routière. Si diverses approches ont été proposées pour traiter ce problème, l’explosion récente des performances des méthodes d’apprentissage profond dans des domaines comme la vision par ordinateur ou le traitement du langage naturel a conduit à son utilisation pour la tâche de prédiction de trajectoires. Un intérêt majeur de l’apprentissage profond étant de ne pas devoir définir manuellement les caractéristiques pertinentes à utiliser pour réaliser une prédiction, mais laisser les modèles l’apprendre automatiquement. Des modèles simples ont été proposés, prédisant la future trajectoire d’un agent en se basant uniquement sur son déplacement passé. Ces modèles peuvent être considérés comme naïfs puisque n’ayant pas conscience de l’environnement dans lequel l’agent évolue. Cet environnement est constitué tant d’une dimension sociale, c’est-à-dire l’influence mutuelle des agents sur leurs déplacements respectifs, que d’une dimension spatiale, c’est-à-dire l’influence que la structure de l’intersection (routes, bancs, lampadaires, obstacles en tous genre...) a sur le chemin des agents. Des modèles plus complexes ont été proposés pour prendre en compte ces interactions lors de la prédiction de la future trajectoire d’un agent. Parmi ces modèles, on retrouve les mécanismes d’attention. Directement importés du domaine du traitement du langage naturel, ils permettent d’entraîner un réseau de neurones à associer automatiquement à chaque élément d’un ensemble une pertinence relative aux autres éléments en se basant sur le contexte de prédiction. Dans le cadre de la traduction de langage, les éléments sont les mots de la phrase à traduire et le contexte de prédiction les mots déjà traduits. Pour la tâche de prédiction, ces modèles ont été transposés de deux manières différentes. Pour prendre en compte les interactions entre un agent et l’intersection qu’il parcourt, on utilise un mécanisme d’attention visuelle qui permet étant donnée l’image d’une scène en vue de dessus, de juger de la pertinence de chaque partie de l’image pour prédire la future position de l’agent. Pour prendre en compte les interactions d’un agent avec les autres agents, on utilise un mécanisme de soft-attention permettant de juger de la pertinence de chacun des agents présents dans la scène pour prédire la future position de l’agent. Ces mécanismes d’attention reposent sur l’architecture encodeur/décodeur utilisant des réseaux de neurones récurrents comme modèle de base. Les réseaux de neurones récurrents sont d’ailleurs en général utilisés dans la majorité des études de prédiction de futures trajectoires en apprentissage profond. Cependant, un petit nombre d’études ont montré que les réseaux de neurones convolutifs étaient capables d’obtenir de meilleures performances que les réseaux de neurones récurrents pour des approches naïves. En transposant directement les mécanismes d’attention du domaine du traitement du langage naturel au domaine de prédiction de trajectoire, aucune interrogation n’est portée sur la sémantique de ces modèles. Ils imposent notamment l’utilisation de l’architecture récurrente encodeur/décodeur, obligeant à prédire séquentiellement les futures positions et à recalculer le module d’attention pour prédire chacune des futures positions. Dans ce travail, nous faisons l’hypothèse que les mécanismes d’attention ainsi proposés apportent une information redondante augmentant inutilement leur temps de prédiction. On propose d’adapter les mécanismes d’attention visuelle et de soft-attention afin de pouvoir les utiliser avec des réseaux de neurones convolutifs. On fait l’hypothèse que ces nouvelles architectures permettront de réduire drastiquement le temps de prédiction tout en conservant une qualité de prédiction équivalente.----------ABSTRACT: This work addresses the problem of trajectory prediction of agents of various types such as pedestrian and cyclists interacting with each other within scenes. Predicting agents future paths can be useful in the field of autonomous driving for example. The recent and fast development of Deep Learning algorithms showing groundbreaking performance in fields such as Computer Vision and Natural Language Processing led it to be used for predicting agent future paths. Naïve models, e.g. models that use only past motion in order to predict the future one, have been developed. These models don’t make use of the agent environment. The environment is mainly composed of a social part regrouping the interactions between agents, and a spatial part, regrouping the interactions between an agent and the scene in which it moves. More advanced models were built to make use of the environment, based on the idea that the future motion of an agent isn’t independent of its surrounding environment. Amongst those models, attention mechanisms stand out. Taken from Natural Language Processing, they allow a neural network to automatically select relevant information from a set of element based on some prediction context. For instance, for language translation, the elements might be the words of the sentence to be translated and the prediction context the already translated words. In the field of future path prediction, attention mechanisms were used in two different ways. A spatial attention mechanism, making use of the Visual Attention model which allows the model to select the relevant parts of an image of the scene, accounting for spatial context, in the next position prediction. And a soft-attention mechanism to select which agents are relevant in predicting one agent next position, accounting for social context. Those attention mechanisms are based on the sequence-to-sequence or (encoder/decoder architecture) using Recurrent Neural Networks as base component. Recurrent-based approaches are mainly used for trajectory prediction. Some studies showed that Convolutional Neural Networks could be used as well, showing better performances than their recurrent counterpart for naïve approaches. By directly transposing the attention mechanisms from Natural Language Processing to trajectory prediction, no interrogation is carried on the semantics of these models. In particular, they require the use of the sequence-to-sequence architectur making it necessary to predict the future positions sequentially and to recalculate the attention module in order to predict each of the agent next positions. In this work, we make the hypothesis that the attention mechanisms, thus proposed bring redundant information unnecessarily increasing their prediction time. We want to adapt those mechanisms in order to be able to use them with convolutional neural networks. We think that these new architectures will drastically reduce the prediction time while maintaining the prediction quality

    Estimation de posture 3D à partir de données imprécises et incomplètes : application à l'analyse d'activité d'opérateurs humains dans un centre de tri

    Get PDF
    Dans un contexte d’étude de la pénibilité et de l’ergonomie au travail pour la prévention des troubles musculo-squelettiques, la société Ebhys cherche à développer un outil d’analyse de l’activité des opérateurs humains dans un centre de tri, par l’évaluation d’indicateurs ergonomiques. Pour faire face à l’environnement non contrôlé du centre de tri et pour faciliter l’acceptabilité du dispositif, ces indicateurs sont mesurés à partir d’images de profondeur. Une étude ergonomique nous permet de définir les indicateurs à mesurer. Ces indicateurs sont les zones d’évolution des mains de l’opérateur et d’angulations de certaines articulations du haut du corps. Ce sont donc des indicateurs obtenables à partir d’une analyse de la posture 3D de l’opérateur. Le dispositif de calcul des indicateurs sera donc composé de trois parties : une première partie sépare l’opérateur du reste de la scène pour faciliter l’estimation de posture 3D, une seconde partie calcule la posture 3D de l’opérateur, et la troisième utilise la posture 3D de l’opérateur pour calculer les indicateurs ergonomiques. Tout d’abord, nous proposons un algorithme qui permet d’extraire l’opérateur du reste de l’image de profondeur. Pour ce faire, nous utilisons une première segmentation automatique basée sur la suppression du fond statique et la sélection d’un objet dynamique à l’aide de sa position et de sa taille. Cette première segmentation sert à entraîner un algorithme d’apprentissage qui améliore les résultats obtenus. Cet algorithme d’apprentissage est entraîné à l’aide des segmentations calculées précédemment, dont on sélectionne automatiquement les échantillons de meilleure qualité au cours de l’entraînement. Ensuite, nous construisons un modèle de réseau de neurones pour l’estimation de la posture 3D de l’opérateur. Nous proposons une étude qui permet de trouver un modèle léger et optimal pour l’estimation de posture 3D sur des images de profondeur de synthèse, que nous générons numériquement. Finalement, comme ce modèle n’est pas directement applicable sur les images de profondeur acquises dans les centres de tri, nous construisons un module qui permet de transformer les images de profondeur de synthèse en images de profondeur plus réalistes. Ces images de profondeur plus réalistes sont utilisées pour réentrainer l’algorithme d’estimation de posture 3D, pour finalement obtenir une estimation de posture 3D convaincante sur les images de profondeur acquises en conditions réelles, permettant ainsi de calculer les indicateurs ergonomique

    Analyse comparative de l'utilisation de l'apprentissage profond sur des images satellitaires

    Get PDF
    L'analyse d'images satellites est un domaine de la géomatique permettant de nombreuses observations par rapport à la terre. Une étape importante de toute observation est d'identifier le contenu de l'image. Cette étape est normalement effectuée à la main, ce qui coûte temps et argent. Avec l'avènement des réseaux de neurones profonds, des GPUs à forte capacité de calculs et du nombre croissant de données satellitaires annotées, les algorithmes apprenants sont désormais les outils les plus prometteurs pour l'analyse automatique d'images satellitaires. Ce mémoire présente une étude préliminaire de l'application des réseaux à convolution sur des images satellites, ainsi que deux nouvelles méthodes devant permettre d'entraîner des réseaux de neurones a l'aide de données satellitaires pauvrement annotées. Pour cela, on a utilisé deux bases de données de l'international society for photogrammetry and remote sensing comprenant 40 images étiquetées de six classes. Les deux atouts majeurs de ces bases de données sont la grande variété des canaux composant leurs images, ainsi que les lieux différents (et donc contextes) où ces images ont été acquises. Par la suite, nous présenterons des résultats empiriques à plusieurs questions d'ordre pratique en lien avec les performances attendues des réseaux de neurones profonds appliqués à l'imagerie satellitaire. Vers la fin du rapport, nous présenterons deux techniques permettant de combiner plusieurs ensembles de données, et ce, grâce à des étiquettes de classes hiérarchiques

    Apports multimodaux et interactifs pour améliorer la compréhension et la navigation de non-voyants utilisant un système de neuroprothèse visuelle

    Get PDF
    Le dernier rapport de l’OMS sur la non-voyance rapporte que 253 millions de personnes souffrent de déficience visuelle (36 millions d’entre elles sont aveugles et 217 millions ont une déficience visuelle). Pour aider les non-voyants dans leurs tâches quotidiennes, de nombreux dispositifs ont été conçus. Les neuroprothèses visuelles sont des dispositifs apparus dans les années 60, qui permettent de rétablir une perception visuelle limitée chez les patients non-voyants implantés. Certaines de ces neuroprothèses, implantées dans la rétine ou dans le cortex visuel, comprennent un implant, un dispositif de calcul informatique et une caméra externe pour capturer la scène. Une perception visuelle appauvrie sous forme d’un ensemble de points blancs appelés phosphènes est alors restaurée grâce à une micro-stimulation de la rétine ou du cortex visuel via l’implant. Pendant les dix dernières années, plusieurs dispositifs ont été implantés sur des non-voyants et sont en phase d’essai clinique. Toutefois, la résolution (c’est-à-dire le nombre d’électrodes et leur densité) des implants actuels reste faible. Cette faible résolution, associée au nombre limité de couleurs différentes rendues par les implants, limite les informations qui peuvent être transférées et donc perçues. Au cours de nos travaux, nous nous sommes intéressés à l’intérêt et à la manière de coupler des mécanismes interactifs et multimodaux avec une neuroprothèse visuelle, dans l’objectif d’améliorer les capacités de décisions des non-voyants. Il s’agit plus précisément de savoir dans quelles mesures l’ajout d’un système d’indices audio permet aux non-voyants de se déplacer plus facilement, et dans quelles mesures l’ajout d’un système de sélection interactif de rendus permet de désambiguïser la scène. Dans ce mémoire, nous présentons les différentes technologies développées ces 30 dernières années ayant pour objectif de permettre à des non-voyants implantés de percevoir leur environnement en générant des cartes phosphéniques cohérentes. Nous abordons ensuite la question de la simulation de la vision prothétique, principalement due à la difficulté d’accès aux patients implantés. Ces simulateurs ont pour objectif de reproduire les conditions réelles de perception de phosphènes pour s’approcher le plus possible de la réalité. Ils permettent également de tester des méthodes de rendu originales. Nous présentons enfin deux études comparatives entre différents rendus, et nous montrons, d’une part, que l’ajout d’indices sonores couplés avec une restitution visuelle permet aux sujets de mieux comprendre la scène et de naviguer dans cette dernière, et, d’autre part, que donner aux non-voyants la possibilité d’alterner entre plusieurs modes de rendu en temps réel augmente significativement leur compréhension de l’environnement. En ce qui concerne l’ajout d’indices sonores, nous montrons que celui-ci permet aux sujets d’améliorer leurs capacités de perception de la scène (détection et localisation d’obstacles), et procure aux sujets un sentiment de confiance. En ce qui concerne le système interactif, nous montrons qu’il permet aux sujets d’avoir un meilleur taux de bonnes réponses à une série de questions réparties sur trois catégories (objets, rues, portes et passages piétons). De plus, les sujets montrent un intérêt certain pour ce système interactif

    Extraction automatique par apprentissage profond des obstacles et des facilitateurs à la mobilité des personnes à mobilité réduite à partir des données LiDAR mobile

    Get PDF
    La mobilité est une habitude de vie fondamentale pour la participation sociale des personnes à mobilité réduite (PMRs). L'un des plus grands défis des PMRs est de trouver des itinéraires accessibles pour leur déplacement en ville. À cet égard, plusieurs groupes de recherche, dont MobiliSIG, s'intéressent à l'évaluation de l'accessibilité des lieux en appui au développement des outils d'assistance à la mobilité des PMRs. Cependant, les méthodes traditionnelles de l'acquisition et le traitement de données pertinentes pour l'analyse de l'accessibilité de l'environnement urbain sont généralement peu précises, peu efficaces et très coûteuses en temps et en argent. Dans ce contexte, la technologie lidar présente une alternative intéressante pour l'acquisition de données très détaillées et précises sur l'environnement urbain. De plus, les techniques issues de l'intelligence artificielle ont démontré de grands potentiels pour l'extraction automatique de l'information pertinente à partir de nuages de points lidar. À cet effet, l'objectif global de cette recherche est d'évaluer le potentiel des nouvelles approches basées sur l'apprentissage profond pour la segmentation sémantique de nuages de points lidar afin d'automatiser l'extraction des obstacles et des facilitateurs (trottoirs, ilots de refuge, marches, etc.) en lien avec la mobilité des PMRs. Pour ce faire, nous nous sommes particulièrement intéressés au potentiel des méthodes d'apprentissage profond telles que les algorithmes de Superpoint graph et FKAconv. Les principales étapes de cette recherche consistent à : 1) élaborer une base de données 3D annotée dédiée à la mobilité des PMRs, 2) appliquer et évaluer les algorithmes de l'apprentissage profond, 3) mettre en évidence les défis rencontrés dans l'apprentissage sémantique en 3D à partir de données lidar mobile (données irrégulières et volumineuses, la complexité des scènes urbaines, morphologie très variable des instances, etc.). Les algorithmes visés sont appliqués aux données lidar mobile pour analyser l'accès aux commerces au centre-ville de Québec. Les résultats de cette recherche ont démontré le potentiel des méthodes d'apprentissage profond pour la segmentation sémantique des éléments pertinents à la mobilité des PMRs à partir des données lidar mobile. Cependant, ces méthodes souffrent de plusieurs problèmes qui engendrent de mauvaises classifications menant à des imperfections de segmentation.Mobility is a fundamental life habit for the social participation of people with motor disabilities (PMD). One of the biggest challenges for PMDs is to find accessible itineraries for their movement in the city. In this respect, several research groups, including MobiliSIG, are interested in assessing the accessibility of places to support the development of mobility assistance tools for PMDs. However, traditional methods for acquiring and processing data relevant to the analysis of the accessibility of the urban environments are generally inefficient and very costly in terms of time and money. In this context, the lidar technology presents an interesting alternative for the acquisition of very detailed and accurate data on the urban environment. Moreover, artificial intelligence techniques have shown great potential for the automatic extraction of relevant information from lidar point clouds. To this end, the overall objective of this research is to evaluate the potential of new deep learning-based approaches for the semantic segmentation of lidar point clouds to automate the extraction of obstacles and facilitators (sidewalks, island, steps, etc.) related to the mobility of PMDs. To do so, we were particularly interested in the potential of deep learning methods such as Superpoint graph and FKAconv algorithms. The main steps of this research are: 1) to develop an annotated 3D database dedicated to mobility setoff PMDs, 2) to apply and evaluate the deep learning algorithms, 3) to highlight the challenges encountered in 3D semantic learning (irregular and voluminous data, complexity of urban scenes, highly variable morphology of instances, etc.). The selected algorithms are applied to mobile lidar data to analyze access to shops in downtown Quebec City. The results of this research have demonstrated the potential of deep learning methods for semantic segmentation of elements relevant to PRM mobility from mobile lidar data. However, these methods still suffer from several problems that lead to misclassifications leading to segmentation imperfections

    Calibrage de caméra fisheye et estimation de la profondeur pour la navigation autonome

    Full text link
    Ce mémoire s’intéresse aux problématiques du calibrage de caméras grand angles et de l’estimation de la profondeur à partir d’une caméra unique, immobile ou en mouvement. Les travaux effectués se situent à l’intersection entre la vision 3D classique et les nouvelles méthodes par apprentissage profond dans le domaine de la navigation autonome. Ils visent à permettre la détection d’obstacles par un drone en mouvement muni d’une seule caméra à très grand angle de vue. D’abord, une nouvelle méthode de calibrage est proposée pour les caméras fisheyes à très grand angle de vue par calibrage planaire à correspondances denses obtenues par lumière structurée qui peuvent être modélisée par un ensemble de caméras génériques virtuelles centrales. Nous démontrons que cette approche permet de modéliser directement des caméras axiales, et validons sur des données synthétiques et réelles. Ensuite, une méthode est proposée pour estimer la profondeur à partir d’une seule image, à partir uniquement des indices de profondeurs forts, les jonctions en T. Nous démontrons que les méthodes par apprentissage profond sont susceptibles d’apprendre les biais de leurs ensembles de données et présentent des lacunes d’invariance. Finalement, nous proposons une méthode pour estimer la profondeur à partir d’une caméra en mouvement libre à 6 degrés de liberté. Ceci passe par le calibrage de la caméra fisheye sur le drone, l’odométrie visuelle et la résolution de la profondeur. Les méthodes proposées permettent la détection d’obstacle pour un drone.This thesis focuses on the problems of calibrating wide-angle cameras and estimating depth from a single camera, stationary or in motion. The work carried out is at the intersection between traditional 3D vision and new deep learning methods in the field of autonomous navigation. They are designed to allow the detection of obstacles by a moving drone equipped with a single camera with a very wide field of view. First, a new calibration method is proposed for fisheye cameras with very large field of view by planar calibration with dense correspondences obtained by structured light that can be modelled by a set of central virtual generic cameras. We demonstrate that this approach allows direct modeling of axial cameras, and validate it on synthetic and real data. Then, a method is proposed to estimate the depth from a single image, using only the strong depth cues, the T-junctions. We demonstrate that deep learning methods are likely to learn from the biases of their data sets and have weaknesses to invariance. Finally, we propose a method to estimate the depth from a camera in free 6 DoF motion. This involves calibrating the fisheye camera on the drone, visual odometry and depth resolution. The proposed methods allow the detection of obstacles for a drone

    Apprentissage profond multimodal appliqué à l'usinage

    Get PDF
    Les techniques axées sur les données ont offert à la technologie de fabrication intelligente des opportunités sans précédent pour assurer la transition vers une productivité basée sur l'industrie 4.0. L'apprentissage automatique et l'apprentissage profond occupent une place cruciale dans le développement de systèmes intelligents pour l'analyse descriptive, diagnostique et prédictive des machines-outils et la surveillance d’état des systèmes de fabrication industrielle. De nombreuses techniques d'apprentissage profond ont été testées sur les problèmes de surveillance d’état des machines-outils, de la détection du broutement, du diagnostic de défauts, de la sélection optimale des paramètres de coupe, etc. Une étude bibliométrique est proposée pour à retracer les techniques de détection du broutement, depuis les méthodes de traitement du signal temps-fréquence, la décomposition jusqu'à la combinaison avec des modèles d'apprentissage automatique ou d'apprentissage profond. Une analyse cartographique a été réalisée afin d’identifier les limites de ces différentes techniques et de proposer des axes de recherche pour détecter le broutement dans les processus d'usinage. Les données ont été collectées à partir du web of science (WoS 2022) en exploitant des requêtes particulières sur la détection du broutement. La plupart des documents recueillis présentent la détection du broutement à l'aide de techniques de transformation ou de décomposition. Ce travail a permis de détecter les articles les plus significatifs, les auteurs les plus cités, la collaboration entre auteurs, les pays, continents et revues les plus productifs, le partenariat entre pays, les mots-clés des auteurs et les tendances de la recherche sur la détection du broutement. Cette thèse à pour objective de proposer dans un premier temps, une méthode de prédiction du choix des paramètres de coupe en exploitant l’apprentissage profond multimodal. L'apprentissage profond multimodal a été utilisé pour associer un choix de conditions de coupe (outil, vitesse de coupe, profondeur de coupe et vitesse d'avance par dents) avec un état de surface, en considérant la rugosité arithmétique moyenne (Ra) et une photo de la pièce. Nous avons construit un modèle de fusion multimodale tardive avec deux réseaux de neurones profonds, un réseau de neurones convolutif (CNN) pour traiter les données images et un réseau de neurones récurrent avec des couches de mémoire à long terme (LSTM) pour les données numériques. Cette méthode permet d’intégrer les informations provenant de deux modalités (fusion multimodale) afin à terme d'assurer la qualité de surface dans les processus d'usinage. Les difficultés rencontrées lors de l’élaboration de cette méthode nous ont orientés vers une approche unimodale pour détecter le broutement d’usinage. Par la suite nous présentons une approche basée sur des compétences mécaniques pour d’abord identifier les traitements optimaux des signaux puis l'apprentissage profond (apprentissage par transfert) pour détecter automatiquement le phénomène de broutement en usinage. Ce travail a mis l’accent sur l’utilisation de données collectées dans les conditions industrielles contrairement à la majorité des travaux basés sur les données qui utilisent les données laboratoire. Cette méthode arrive à avoir de bonnes performances malgré le fait qu’elle ne donne aucune indication au réseau de neurones sur l'amplitude du signal, la vitesse de rotation

    Segmentation automatique de la colonne vertébrale lombaire à partir d'images à résonance magnétique par combinaison de réseau de neurones convolutifs et coupe de graphe

    Get PDF
    Le mal de dos, le mal du siècle comme beaucoup de gens le décrivent, est un terme général pour une maladie potentiellement grave et l’un des problèmes médicaux les plus courants dans le monde. Il peut se produire à n’importe quel endroit au niveau de la colonne vertébrale. Pour identifier l’origine d’une douleur et déterminer si un traitement est nécessaire, les experts dans ce domaine se basent sur l’analyse des images médicales telles que l’IRM et CT-scan pour identifier les zones endommagées ou les anomalies. Un examen de radiologie classique est une tâche compliquée et coûteuse en temps précieux pour le malade et le médecin. De plus, dans certaines situations, l’identification de ces anomalies à l’oeil nu n’est pas toujours évidente, ce qui nécessite l’application de certaines techniques de traitement d’image afin de guider l’expert à réaliser un bon diagnostic. Parmi les techniques les plus employées dans ce domaine nous citons la segmentation d’images qui permet de délimiter et d’identifier les zones d’intérêt. Une segmentation précise et robuste des structures est une condition préalable au diagnostic assisté par ordinateur et à l’identification des anomalies. Elle peut également être utilisée pour la planification assistée par ordinateur et la simulation d’une chirurgie. Cependant, malgré les inventions technologiques dans ce domaine, les approches utilisées pour la segmentation des images médicales restent limitées de point de vue performance et nécessitent l’intervention d’un expert humain. Récemment, les réseaux de neurones convolutifs (RNC) ont montré des performances exceptionnelles surtout dans le domaine de traitement d’images médicales surpassant les approches de segmentation existantes dans la littérature. C’est dans ce contexte que s’inscrit ce travail, qui vise à proposer une nouvelle approche pour la segmentation des vertèbres et des disques intervertébraux de la partie lombaire de la colonne vertébrale basée sur la combinaison des réseaux de neurones convolutifs avec la segmentation par coupe de graphe appliquée sur des images IRM 3D. Au lieu d’appliquer directement les RNC pour obtenir une segmentation finale, la technique proposée utilise les cartes de probabilités générées par le réseau de neurones comme initialisation pour la méthode de coupe de graphe afin de raffiner la segmentation initiale. Afin d’améliorer les résultats dans le cas de la segmentation multi-classes, nous avons utilisé l’algorithme α −expansion qui constitue une extension de la coupe de graphe appliquée sur des images multi-classes. L’approche a été évaluée quantitativement sur deux bases de données différentes utilisées dans la compétition annuelle MICCAI pour la segmentation des vertèbres et des disques. Nous avons aussi évalué qualitativement notre méthode sur une nouvelle base de données de dix sujets qui contient des annotations manuelles multi-classes des deux structures ; vertèbres et disques. L’évaluation expérimentale, basée sur le coefficient de similarité de Dice et la distance de Hausdorff, montre que notre approche réalise de bonnes performances sur les trois bases de données

    Analyse d'images en élevage aviaire

    Get PDF
    Le but de cette thèse a été de développer un outil de tracking de poulets de chaire en élevage commercial. Pour ce faire, un ensemble de tests ont été réalisés, tout d'abord dans un environnement contrôlé (expérimental) puis en élevage commercial. Il a été établit la meilleure façon de capter les images. Un modèle de réseaux de neurones convolutif a ensuite été entraîné à partir d'une base de données d'images issues des différentes captations réalisées. Suite au développement de cet outil de détection de poulets de chaires, un algorithme de tracking de poulets a été développé afin de générer un ensemble de données sur la position des poulets et leur identification sous le champ de la caméra au cours du temps. Enfin, il a été développé quelques algorithmes qui permettent de traduire ces données brutes de tracking sous forme de distribution notamment qui permettent une meilleure lecture du comportement global des animaux.The aim of this thesis was to develop a tool for tracking broiler chickens in commercial breeding. To do this, a series of tests were carried out, first in a controlled environment (experimental) and then in commercial breeding. It was established as the best way to capture the images. A model of neural networks was then trained from a database of images from the various recordings made. Following the development of this broiler chicken detection tool, a chicken tracking algorithm was developed to generate a set of data on the position of chickens and their identification under the camera's field over time. Finally, a few algorithms have been developed which make it possible to translate these raw tracking data into the form of distribution, in particular which allows a better reading of the overall behavior of the animals
    corecore