Search CORE

73 research outputs found

Les Forêts Aléatoires en Apprentissage Semi-Supervisé (Co-forest) pour la segmentation des images rétiniennes

Author: Mohammed El Amine Bechar
Nesma Settouti
Publication venue: HAL CCSD
Publication date: 08/12/2015
Field of study

Nous proposons une approche qui permet la reconnaissance automatique des régions Disques et Cups pour la mesure du rapport CDR (Cup/Disc Ratio) par apprentissage semi-supervisé. Une étude comparative de plusieurs techniques est proposée. Le principe repose sur une croissance de région en classifiant les pixels voisins à partir des pixels d'intérêt de l'image par apprentissage semi-supervisé. Les points d'intérêt sont détectés par l'algorithme Fuzzy C-means (FCM)

HAL Clermont Université

Contribution à l'analyse de la dynamique des écritures anciennes pour l'aide à l'expertise paléographique

Author: DAHER Hani
VINCENT Nicole
Publication venue
Publication date: 01/01/2012
Field of study

Mes travaux de thèse s inscrivent dans le cadre du projet ANR GRAPHEM1 (Graphemebased Retrieval and Analysis for PaleograpHic Expertise of Middle Age Manuscripts). Ilsprésentent une contribution méthodologique applicable à l'analyse automatique des écrituresanciennes pour assister les experts en paléographie dans le délicat travail d étude et dedéchiffrage des écritures.L objectif principal est de contribuer à une instrumetation du corpus des manuscritsmédiévaux détenus par l Institut de Recherche en Histoire des Textes (IRHT Paris) en aidantles paléographes spécialisés dans ce domaine dans leur travail de compréhension de l évolutiondes formes de l écriture par la mise en place de méthodes efficaces d accès au contenu desmanuscrits reposant sur une analyse fine des formes décrites sous la formes de petits fragments(les graphèmes). Dans mes travaux de doctorats, j ai choisi d étudier la dynamique del élément le plus basique de l écriture appelé le ductus2 et qui d après les paléographes apportebeaucoup d informations sur le style d écriture et l époque d élaboration du manuscrit.Mes contributions majeures se situent à deux niveaux : une première étape de prétraitementdes images fortement dégradées assurant une décomposition optimale des formes en graphèmescontenant l information du ductus. Pour cette étape de décomposition des manuscrits, nousavons procédé à la mise en place d une méthodologie complète de suivi de traits à partir del extraction d un squelette obtenu à partir de procédures de rehaussement de contraste et dediffusion de gradients. Le suivi complet du tracé a été obtenu à partir de l application des règlesfondamentales d exécution des traits d écriture, enseignées aux copistes du Moyen Age. Il s agitd information de dynamique de formation des traits portant essentiellement sur des indicationsde directions privilégiées.Dans une seconde étape, nous avons cherché à caractériser ces graphèmes par desdescripteurs de formes visuelles compréhensibles à la fois par les paléographes et lesinformaticiens et garantissant une représentation la plus complète possible de l écriture d unpoint de vue géométrique et morphologique. A partir de cette caractérisation, nous avonsproposé une approche de clustering assurant un regroupement des graphèmes en classeshomogènes par l utilisation d un algorithme de classification non-supervisé basée sur lacoloration de graphe. Le résultat du clustering des graphèmes a conduit à la formation dedictionnaires de formes caractérisant de manière individuelle et discriminante chaque manuscrittraité. Nous avons également étudié la puissance discriminatoire de ces descripteurs afin d obtenir la meilleure représentation d un manuscrit en dictionnaire de formes. Cette étude a étéfaite en exploitant les algorithmes génétiques par leur capacité à produire de bonne sélection decaractéristiques.L ensemble de ces contributions a été testé à partir d une application CBIR sur trois bases demanuscrits dont deux médiévales (manuscrits de la base d Oxford et manuscrits de l IRHT, baseprincipale du projet), et une base comprenant de manuscrits contemporains utilisée lors de lacompétition d identification de scripteurs d ICDAR 2011. L exploitation de notre méthode dedescription et de classification a été faite sur une base contemporaine afin de positionner notrecontribution par rapport aux autres travaux relevant du domaine de l identification d écritures etétudier son pouvoir de généralisation à d autres types de documents. Les résultats trèsencourageants que nous avons obtenus sur les bases médiévales et la base contemporaine, ontmontré la robustesse de notre approche aux variations de formes et de styles et son caractèrerésolument généralisable à tout type de documents écrits.My thesis work is part of the ANR GRAPHEM Project (Grapheme based Retrieval andAnalysis for Expertise paleographic Manuscripts of Middle Age). It represents a methodologicalcontribution applicable to the automatic analysis of ancient writings to assist the experts inpaleography in the delicate work of the studying and deciphering the writing.The main objective is to contribute to an instrumentation of the corpus of medievalmanuscripts held by Institut de Recherche en Histoire de Textes (IRHT-Paris), by helping thepaleographers specialized in this field in their work of understanding the evolution of forms inthe writing, with the establishment of effective methods to access the contents of manuscriptsbased on a fine analysis of the forms described in the form of small fragments (graphemes). Inmy PhD work, I chose to study the dynamic of the most basic element of the writing called theductus and which according to the paleographers, brings a lot of information on the style ofwriting and the era of the elaboration of the manuscript.My major contribution is situated at two levels: a first step of preprocessing of severelydegraded images to ensure an optimal decomposition of the forms into graphemes containingthe ductus information. For this decomposition step of manuscripts, we have proceeded to theestablishment of a complete methodology for the tracings of strokes by the extraction of theskeleton obtained from the contrast enhancement and the diffusion of the gradient procedures.The complete tracking of the strokes was obtained from the application of fundamentalexecution rules of the strokes taught to the scribes of the Middle Ages. It is related to thedynamic information of the formation of strokes focusing essentially on indications of theprivileged directions.In a second step, we have tried to characterize the graphemes by visual shape descriptorsunderstandable by both the computer scientists and the paleographers and thus unsuring themost complete possible representation of the wrting from a geometrical and morphological pointof view. From this characterization, we have have proposed a clustering approach insuring agrouping of graphemes into homogeneous classes by using a non-supervised classificationalgorithm based on the graph coloring. The result of the clustering of graphemes led to theformation of a codebook characterizing in an individual and discriminating way each processedmanuscript. We have also studied the discriminating power of the descriptors in order to obtaina better representation of a manuscript into a codebook. This study was done by exploiting thegenetic algorithms by their ability to produce a good feature selection.The set of the contributions was tested from a CBIR application on three databases ofmanuscripts including two medieval databases (manuscripts from the Oxford and IRHTdatabases), and database of containing contemporary manuscripts used in the writersidentification contest of ICDAR 2011. The exploitation of our description and classificationmethod was applied on a cotemporary database in order to position our contribution withrespect to other relevant works in the writrings identification domain and study itsgeneralization power to other types of manuscripts. The very encouraging results that weobtained on the medieval and contemporary databases, showed the robustness of our approachto the variations of the shapes and styles and its resolutely generalized character to all types ofhandwritten documents.PARIS5-Bibliotheque electronique (751069902) / SudocSudocFranceF

OpenGrey Repository

Techniques d'analyse de contenu appliquées à l'imagerie spatiale

Author: Le Goff Matthieu
Publication venue
Publication date: 20/10/2017
Field of study

Depuis les années 1970, la télédétection a permis d’améliorer l’analyse de la surface de la Terre grâce aux images satellites produites sous format numérique. En comparaison avec les images aéroportées, les images satellites apportent plus d’information car elles ont une couverture spatiale plus importante et une période de revisite courte. L’essor de la télédétection a été accompagné de l’émergence des technologies de traitement qui ont permis aux utilisateurs de la communauté d’analyser les images satellites avec l’aide de chaînes de traitement de plus en plus automatiques. Depuis les années 1970, les différentes missions d’observation de la Terre ont permis d’accumuler une quantité d’information importante dans le temps. Ceci est dû notamment à l’amélioration du temps de revisite des satellites pour une même région, au raffinement de la résolution spatiale et à l’augmentation de la fauchée (couverture spatiale d’une acquisition). La télédétection, autrefois cantonnée à l’étude d’une seule image, s’est progressivement tournée et se tourne de plus en plus vers l’analyse de longues séries d’images multispectrales acquises à différentes dates. Le flux annuel d’images satellite est supposé atteindre plusieurs Péta octets prochainement. La disponibilité d’une si grande quantité de données représente un atout pour développer de chaines de traitement avancées. Les techniques d’apprentissage automatique beaucoup utilisées en télédétection se sont beaucoup améliorées. Les performances de robustesse des approches classiques d’apprentissage automatique étaient souvent limitées par la quantité de données disponibles. Des nouvelles techniques ont été développées pour utiliser efficacement ce nouveau flux important de données. Cependant, la quantité de données et la complexité des algorithmes mis en place nécessitent une grande puissance de calcul pour ces nouvelles chaînes de traitement. En parallèle, la puissance de calcul accessible pour le traitement d’images s’est aussi accrue. Les GPUs («Graphic Processing Unit ») sont de plus en plus utilisés et l’utilisation de cloud public ou privé est de plus en plus répandue. Désormais, pour le traitement d’images, toute la puissance nécessaire pour les chaînes de traitements automatiques est disponible à coût raisonnable. La conception des nouvelles chaînes de traitement doit prendre en compte ce nouveau facteur. En télédétection, l’augmentation du volume de données à exploiter est devenue une problématique due à la contrainte de la puissance de calcul nécessaire pour l’analyse. Les algorithmes de télédétection traditionnels ont été conçus pour des données pouvant être stockées en mémoire interne tout au long des traitements. Cette condition est de moins en moins respectée avec la quantité d’images et leur résolution. Les algorithmes de télédétection traditionnels nécessitent d’être revus et adaptés pour le traitement de données à grande échelle. Ce besoin n’est pas propre à la télédétection et se retrouve dans d’autres secteurs comme le web, la médecine, la reconnaissance vocale,… qui ont déjà résolu une partie de ces problèmes. Une partie des techniques et technologies développées par les autres domaines doivent encore être adaptées pour être appliquée aux images satellites. Cette thèse se focalise sur les algorithmes de télédétection pour le traitement de volumes de données massifs. En particulier, un premier algorithme existant d’apprentissage automatique est étudié et adapté pour une implantation distribuée. L’objectif de l’implantation est le passage à l’échelle c’est-à-dire que l’algorithme puisse traiter une grande quantité de données moyennant une puissance de calcul adapté. Enfin, la deuxième méthodologie proposée est basée sur des algorithmes récents d’apprentissage automatique les réseaux de neurones convolutionnels et propose une méthodologie pour les appliquer à nos cas d’utilisation sur des images satellites

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

Architecture complètement convolutive à champ d'activation large pour la segmentation sémantique de la vasculature rétinienne dans les images de fond d'oeil

Author: Lepetit-Aimon Gabriel
Publication venue
Publication date: 01/08/2018
Field of study

L’imagerie de fond d’oeil permet l’observation non-intrusive des structures anatomiques de la rétine. Ces images sont singulièrement très informatives pour évaluer le risque d’apparition de pathologies oculaires, cardiovasculaires ou cérébrovasculaire, dont le dépistage et le traitement préventif sont des défis majeurs de la médecine contemporaine. Plus particulièrement, les anomalies de la micro-vasculature rétienne sont des symptômes connus pour présager de ces maladies. L’extraction automatique et fiable de cette vasculature est donc une étape importante vers la conception d’un algorithme de diagnostique automatique convoité par les cliniciens. L’extraction de la vasculature rétinienne nécessite l’exécution de deux opérations : d’une part la segmentation des vaisseaux de la rétine, et d’autre part leur classification entre artérioles et veinules. La revue de littérature sur ces deux tâches révèle que les réseaux de neurones convolutifs sont très souvent utilisés pour effectuer la segmentation des vaisseaux, mais presque toujours absents des méthodes de classification vasculaire. En effet, les méthodes de classification les plus performantes appliquent toutes le même protocole : grâce aux outils de la théorie des graphes, elles reconstruisent l’arbre vasculaire rétinien à partir de sa carte de segmentation. Ensuite, un classificateur rudimentaire établi une première labellisation artère/veine pour chaque pixel appartenant à vaisseau. Enfin, ces labels sont moyennés, corrigés et propagés à travers le graphe de l’arbre vasculaire afin que chacun de ses segments soit étiqueté. Ce protocole imite en fait la démarche des cliniciens lorsqu’ils annotent les images de fond d’oeil. En effet, mis-à-part les plus gros vaisseaux, il est souvent difficile, voire impossible, de distinguer une artériole d’une veinule simplement par son apparence. Par conséquent, les cliniciens annotent d’abord les vaisseaux larges émergeant du disque optique en fonction de leur couleur (les veinules sont plus foncées que les artérioles) puis suivent ces vaisseaux à travers les bifurcations et les croisements en propageant les labels vers les terminaisons vasculaires. Pour résoudre les bifurcations et les croisements, les méthodes de classifications vasculaires automatiques reposent en général sur des connaissances a priori de l’anatomie des vaisseaux rétiniens formulées sous forme de règles topologiques. Cependant, ces règles ne peuvent pas tenir compte des anomalies de la vasculature rétinienne, puisque ces dernières en sont précisément les exceptions. Ainsi, parce qu’elles sont particulièrement peu robustes aux anomalies de la vasculature rétinienne, ces méthodes sont mal adaptées pour l’analyse d’image de rétines pathologiques.----------ABSTRACT: Retinal fundus imaging allows the non-invasive observation of the retinal natomical structure. Fundus images and more specifically the study of retinal micro-vasculature anomaly, are known to be informative when estimating risks of retinopathy, cardiovascular and cerebrovascular pathologies. Early diagnosis of those pathologies is the key to reducing their mortality rates and is a challenge of modern medicine (cardiovascular diseases is the second cause of deaths in Canada). Thus, an automatic and reliable extraction of the retinal vasculature tree is a key step towards the conception of automatic screening algorithms wished by clinicians. Extraction of the retinal vasculature tree consist in two tasks: the segmentation of the vessels and their classification between arteries and veins. Deep neural network are often used for the segmentation task but are almost never used for the classification task. Indeed, for this second task, algorithms usually make an extensive usage of the graph theory to reconstruct the retinal vascular tree from the segmentation map. A simple classifier is then used to compute arteries and veins labels which are averaged, corrected, and propagated along the vascular graph. Actually, this method attempt to mimic clinicians behaviour. Because small arteries and veins are not distinguishable by local features, clinicians start by labelling larger vessels (veins are always darker than arteries) and then propagates those labels towards the vascular endings by following each vessels through its bifurcations and crossing. In order to solve those bifurcations and crossing, automatic vascular classifications usually relies on prior anatomical and structural knowledge of the retinal vasculature which are transcribed into topological rules. However they can’t take into account vascular anomalies because they are the exceptions of those rules. Thus, because the are not reliable to vascular anomalies, those methods are not well fitted to perform the retinal vasculature extraction with a view to diagnose cardiovascular or cerebrovascular pathologies

PolyPublie

Extraction automatique par apprentissage profond des obstacles et des facilitateurs à la mobilité des personnes à mobilité réduite à partir des données LiDAR mobile

Author: Ghodhbane Sarra
Publication venue
Publication date
Field of study

La mobilité est une habitude de vie fondamentale pour la participation sociale des personnes à mobilité réduite (PMRs). L'un des plus grands défis des PMRs est de trouver des itinéraires accessibles pour leur déplacement en ville. À cet égard, plusieurs groupes de recherche, dont MobiliSIG, s'intéressent à l'évaluation de l'accessibilité des lieux en appui au développement des outils d'assistance à la mobilité des PMRs. Cependant, les méthodes traditionnelles de l'acquisition et le traitement de données pertinentes pour l'analyse de l'accessibilité de l'environnement urbain sont généralement peu précises, peu efficaces et très coûteuses en temps et en argent. Dans ce contexte, la technologie lidar présente une alternative intéressante pour l'acquisition de données très détaillées et précises sur l'environnement urbain. De plus, les techniques issues de l'intelligence artificielle ont démontré de grands potentiels pour l'extraction automatique de l'information pertinente à partir de nuages de points lidar. À cet effet, l'objectif global de cette recherche est d'évaluer le potentiel des nouvelles approches basées sur l'apprentissage profond pour la segmentation sémantique de nuages de points lidar afin d'automatiser l'extraction des obstacles et des facilitateurs (trottoirs, ilots de refuge, marches, etc.) en lien avec la mobilité des PMRs. Pour ce faire, nous nous sommes particulièrement intéressés au potentiel des méthodes d'apprentissage profond telles que les algorithmes de Superpoint graph et FKAconv. Les principales étapes de cette recherche consistent à : 1) élaborer une base de données 3D annotée dédiée à la mobilité des PMRs, 2) appliquer et évaluer les algorithmes de l'apprentissage profond, 3) mettre en évidence les défis rencontrés dans l'apprentissage sémantique en 3D à partir de données lidar mobile (données irrégulières et volumineuses, la complexité des scènes urbaines, morphologie très variable des instances, etc.). Les algorithmes visés sont appliqués aux données lidar mobile pour analyser l'accès aux commerces au centre-ville de Québec. Les résultats de cette recherche ont démontré le potentiel des méthodes d'apprentissage profond pour la segmentation sémantique des éléments pertinents à la mobilité des PMRs à partir des données lidar mobile. Cependant, ces méthodes souffrent de plusieurs problèmes qui engendrent de mauvaises classifications menant à des imperfections de segmentation.Mobility is a fundamental life habit for the social participation of people with motor disabilities (PMD). One of the biggest challenges for PMDs is to find accessible itineraries for their movement in the city. In this respect, several research groups, including MobiliSIG, are interested in assessing the accessibility of places to support the development of mobility assistance tools for PMDs. However, traditional methods for acquiring and processing data relevant to the analysis of the accessibility of the urban environments are generally inefficient and very costly in terms of time and money. In this context, the lidar technology presents an interesting alternative for the acquisition of very detailed and accurate data on the urban environment. Moreover, artificial intelligence techniques have shown great potential for the automatic extraction of relevant information from lidar point clouds. To this end, the overall objective of this research is to evaluate the potential of new deep learning-based approaches for the semantic segmentation of lidar point clouds to automate the extraction of obstacles and facilitators (sidewalks, island, steps, etc.) related to the mobility of PMDs. To do so, we were particularly interested in the potential of deep learning methods such as Superpoint graph and FKAconv algorithms. The main steps of this research are: 1) to develop an annotated 3D database dedicated to mobility setoff PMDs, 2) to apply and evaluate the deep learning algorithms, 3) to highlight the challenges encountered in 3D semantic learning (irregular and voluminous data, complexity of urban scenes, highly variable morphology of instances, etc.). The selected algorithms are applied to mobile lidar data to analyze access to shops in downtown Quebec City. The results of this research have demonstrated the potential of deep learning methods for semantic segmentation of elements relevant to PRM mobility from mobile lidar data. However, these methods still suffer from several problems that lead to misclassifications leading to segmentation imperfections

CorpusUL

Analyse et caractérisation temps réel de vidéos chirurgicales. Application à la chirurgie de la cataracte

Author: Charriere Katia
Publication venue: HAL CCSD
Publication date: 23/11/2015
Field of study

Huge amounts of medical data are recorded every day. Those data could be very helpful for medical practice. The LaTIM has acquired solid know-how about the analysis of those data for decision support. In this PhD thesis, we propose to reuse annotated surgical videos previously recorded and stored in a dataset, for computer-aided surgery. To be able to provide relevant information, we first need to recognize which surgical gesture is being performed at each instant of the surgery, based on the monitoring video. This challenging task is the aim of this thesis. We propose an automatic solution to analyze cataract surgeries, in real time, while the video is being recorded. A content based video retrieval (CBVR) method is used to categorize the monitoring video, in combination with a statistical model of the surgical process to bring contextual information. The system performs an on-line analysis of the surgical process at two levels of description for a complete and precise analysis. The methods developed during this thesis have been evaluated in a dataset of cataract surgery videos collected at Brest University Hospital. Promising results were obtained for the automatic analysis of cataract surgeries and surgical gesture recognition. The statistical model allows an analysis which is both fine-tuned and comprehensive. The general approach proposed in this thesis could be easily used for computer aided surgery, by providing recommendations or video sequence examples. The method could also be used to annotate videos for indexing purposes.L'objectif de cette thèse est de fournir aux chirurgiens des aides opératoires en temps réel. Nous nous appuyons pour cela sur des vidéos préalablement archivées et interprétées. Pour que cette aide soit pertinente, il est tout d'abord nécessaire de reconnaître, à chaque instant, le geste pratiqué par le chirurgien. Ce point est essentiel et fait l'objet de cette thèse. Différentes méthodes ont été développées et évaluées, autour de la reconnaissance automatique du geste chirurgical. Nous nous sommes appuyés sur des méthodes de catégorisation (recherche des cas les plus proches basée sur l'extraction du contenu visuel) et des modèles statistiques du processus chirurgical. Les réflexions menées ont permis d'aboutir à une analyse automatique de la chirurgie à plusieurs niveaux de description. L'évaluation des méthodes a été effectuée sur une base de données de vidéos de chirurgies de la cataracte, collectées grâce à une forte collaboration avec le service d'ophtalmologie du CHRU de Brest. Des résultats encourageants ont été obtenus pour la reconnaissance automatique du geste chirurgical. Le modèle statistique multi-échelles développé permet une analyse fine et complète de la chirurgie. L'approche proposée est très générale et devrait permettre d'alerter le chirurgien sur les déroulements opératoires à risques, et lui fournir des recommandations en temps réel sur des conduites à tenir reconnues. Les méthodes développées permettront également d'indexer automatiquement des vidéos chirurgicales archivées

Thèses en Ligne

HAL-Inserm

HAL-Université de Bretagne Occidentale

Segmentation d'images par combinaison adaptative couleur-texture et classification de pixels. (Applications à la caractérisation de l'environnement de réception de signaux GNSS)

Author: ATTIA Dhouha
MARAIS Juliette
MEURIE Cyril
RUICHEK Yassine
Publication venue
Publication date: 01/01/2013
Field of study

En segmentation d images, les informations de couleur et de texture sont très utilisées. Le premier apport de cette thèse se situe au niveau de l utilisation conjointe de ces deux sources d informations. Nous proposons alors une méthode de combinaison couleur/texture, adaptative et non paramétrique, qui consiste à combiner un (ou plus) gradient couleur et un (ou plus) gradient texture pour ensuite générer un gradient structurel utilisé comme image de potentiel dans l algorithme de croissance de régions par LPE. L originalité de notre méthode réside dans l étude de la dispersion d un nuage de point 3D dans l espace, en utilisant une étude comparative des valeurs propres obtenues par une analyse des composantes principales de la matrice de covariance de ce nuage de points. L approche de combinaison couleur/texture proposée est d abord testée sur deux bases d images, à savoir la base générique d images couleur de BERKELEY et la base d images de texture VISTEX. Cette thèse s inscrivant dans le cadre des projets ViLoc (RFC) et CAPLOC (PREDIT), le deuxième apport de celle-ci se situe au niveau de la caractérisation de l environnement de réception des signaux GNSS pour améliorer le calcul de la position d un mobile en milieu urbain. Dans ce cadre, nous proposons d exclure certains satellites (NLOS dont les signaux sont reçus par réflexion voir totalement bloqués par les obstacles environnants) dans le calcul de la position d un mobile. Deux approches de caractérisation, basées sur le traitement d images, sont alors proposées. La première approche consiste à appliquer la méthode de combinaison couleur/texture proposée sur deux bases d images réelles acquises en mobilité, à l aide d une caméra fisheye installée sur le toit du véhicule de laboratoire, suivie d une classification binaire permettant d obtenir les deux classes d intérêt ciel (signaux LOS) et non ciel (signaux NLOS). Afin de satisfaire la contrainte temps réel exigée par le projet CAPLOC, nous avons proposé une deuxième approche basée sur une simplification de l image couplée à une classification pixellaire adaptée. Le principe d exclusion des satellites NLOS permet d améliorer la précision de la position estimée, mais uniquement lorsque les satellites LOS (dont les signaux sont reçus de manière direct) sont géométriquement bien distribués dans l espace. Dans le but de prendre en compte cette connaissance relative à la distribution des satellites, et par conséquent, améliorer la précision de localisation, nous avons proposé une nouvelle stratégie pour l estimation de position, basée sur l exclusion des satellites NLOS (identifiés par le traitement d images), conditionnée par l information DOP, contenue dans les trames GPS.Color and texture are two main information used in image segmentation. The first contribution of this thesis focuses on the joint use of color and texture information by developing a robust and non parametric method combining color and texture gradients. The proposed color/texture combination allows defining a structural gradient that is used as potential image in watershed algorithm. The originality of the proposed method consists in studying a 3D points cloud generated by color and texture descriptors, followed by an eigenvalue analysis. The color/texture combination method is firstly tested and compared with well known methods in the literature, using two databases (generic BERKELEY database of color images and the VISTEX database of texture images). The applied part of the thesis is within ViLoc project (funded by RFC regional council) and CAPLOC project (funded by PREDIT). In this framework, the second contribution of the thesis concerns the characterization of the environment of GNSS signals reception. In this part, we aim to improve estimated position of a mobile in urban environment by excluding NLOS satellites (for which the signal is masked or received after reflections on obstacles surrounding the antenna environment). For that, we propose two approaches to characterize the environment of GNSS signals reception using image processing. The first one consists in applying the proposed color/texture combination on images acquired in mobility with a fisheye camera located on the roof of a vehicle and oriented toward the sky. The segmentation step is followed by a binary classification to extract two classes sky (LOS signals) and not sky (NLOS signals). The second approach is proposed in order to satisfy the real-time constraint required by the application. This approach is based on image simplification and adaptive pixel classification. The NLOS satellites exclusion principle is interesting, in terms of improving precision of position, when the LOS satellites (for which the signals are received directly) are well geometrically distributed in space. To take into account the knowledge of satellite distribution and then increase the precision of position, we propose a new strategy of position estimation, based on the exclusion of NLOS satellites (identified by the image processing step), conditioned by DOP information, which is provided by GPS data.BELFORT-UTBM-SEVENANS (900942101) / SudocSudocFranceF

OpenGrey Repository

Analyse des problèmatiques liées à la reconnaissance de sons ambiants en environnement réel

Author: Turpault Nicolas
Publication venue: HAL CCSD
Publication date: 31/05/2021
Field of study

Notre vie est constamment bercée par les sons ambiants. Du bruit d’une voiture qui passe à un oiseau qui chante, de l’eau qui coule dans notre douche aux bruits de notre clavier, les sons ambiants sont partout. Les humains sans pertes auditives reconnaissent inconsciemment les sons qui les entourent et prennent de nombreuses décisions de la vie quotidienne en tenant compte des sons ambiants (réactions à des pleurs de bébé ou une alarme par exemple). Durant ces dernières années, la recherche autour de l’analyse automatique de ces sons ambiants s’est développée rapidement. L’analyse des sons ambiants est un problème difficile à résoudre en raison de la complexité des scènes sonores et de leur manque de structure apparente. Les événements sonores qui constituent les scènes sonores sont très variés et de nombreux événements peuvent être actifs simultanément. Afin de reconnaître les événements sonores de façon automatique, on a généralement recours à des méthodes d’apprentissage automatique. Les méthodes par apprentissage profond sont devenues très populaires ces dernières années grâce à leurs performances élevées pour des tâches diverses dont l’analyse de sons ambiants. Les méthodes d’apprentissage s’appuient sur l’utilisation de jeux de données contenant les événements que l’on souhaite reconnaître. Dans l’idéal, ces jeux de données contiennent des annotations concernant l’activité liée à chacune des classes d’événements sonores et éventuellement à leur temporalité (on parle alors d’annotations fortes). Ces dernières années, des jeux de données fortement annotés ont été collectés et publiés pour permettre l’analyse de sons ambiants, mais ils sont souvent composés d’une faible quantité de données qui ne sont pas toujours enregistrées en conditions réelles. Obtenir des annotations fortes coûte cher, et il est donc difficile d’obtenir un gros jeu de données fortement annotées. En revanche, la collecte de données non annotées ou annotées partiellement et sans indication de temporalité (annotations faibles) est plus facile. C’est dans ce cadre que s’inscrit cette thèse.Nous proposons de traiter le problème de la reconnaissance d’événements sonores en environnement domestique en utilisant des données non annotées et faiblement annotées. Le but est d’analyser les problèmes qui surviennent lors d’un scénario réel de reconnaissance d’événements sonores au sein d’une maison pour permettre l’assistance aux personnes en perte d’autonomie ou rendre la maison intelligente. Afin d’analyser ce problème, nous avons proposé une tâche de détection d’événements sonores dans un challenge international d’analyse de sons ambiants. Pour cette tâche nous avons défini un problème proche d’un scénario réel pour permettre l’analyse scientifique des différents problèmes qui apparaissent dans l’analyse de sons ambiants en environnement réel. Nous proposons un jeu de données pour permettre des analyses détaillées des problèmes scientifiques à résoudre pour permettre l’évolution continue de la tâche. Nous nous focalisons ensuite sur le problème de l’apprentissage semi-supervisé qui permet l’apprentissage de systèmes utilisant des données annotées et des données non annotées. Cette analyse se concentre sur l’apprentissage d’une représentation qui serait utile pour des applications finales d’étiquetage ou de détection d’événements sonores. Nous analysons enfin l’impact de l’annotation faible des données dans l’apprentissage d’un système de reconnaissance d’événements sonores afin de proposer des conseils pour l’annotation faible des jeux de données ou des pistes de solutions.We’re constantly surrounded by ambient sounds. From a car passing by to a bird’s song or from the running water in the shower to the sound of a keyboard, ambient sounds are everywhere. Humans without hearing loss unconsciously recognize them and take multiple decisions using the information provided by ambient sounds in their everyday life (reaction to a baby crying or to an alarm for example). In the last years, the research interest in automatic ambient sound analysis has rapidly grown. Ambient sound analysis is a difficult problem because of the complexity of the sound scenes and their lack of apparent structure.Sound events constituting these sound scenes are various and multiple events can appear simultaneously. To recognize sound events automatically, machine learning methods are usually used, in particular deep learning methods due to their good performance on a variety of tasks including ambient sound analysis. These methods require a training dataset containing the sound events to be recognized. Ideally, the dataset contains labels indicating the type of events and their time positions in the audio clips (strong labels). In recent years, some strongly annotated datasets have appeared that are designed for ambient sound analysis, but they usually contain only a small amount of data and are rarely recorded in real conditions. Strong annotations are expensive to collect, making it difficult to acquire a large scale strongly labeled dataset. However, collecting data without labels or with partial labels indicating the presence of some events without their time information (weak labels) is easier. This thesis fits in this context. We propose to address the problem of sound event recognition in domestic environments using unlabeled and weakly labeled data. Our goal is to analyze the different problems that can appear in a real world scenario of sound event recognition in domestic environment with applications to assisted living and smart house. To analyse this problem we have organized a domestic sound event detection task in an international ambient sound analysis challenge. We have defined this task in such a way that it allows us to analyze the different problems appearing in a real world scenario. We have collected, annotated and shared a dataset designed for this analysis. From 2018 to 2020, we have organized three evaluation campaigns to allow for a detailed analysis of the systems submitted by participants and a continuous improvement the task definition. Then, we focus on the problem of learning systems using both labeled and unlabeled training data (semi-supervised learning). The analysis concentrates on learning a representation which could be useful for a variety of tasks in sound event detection or tagging. Finally, we analyze the impact of weak labels in the training dataset of a sound event recognition system to understand if this is the main problem of a sound event recognition system and provide advice for the labelling of real world data

INRIA a CCSD electronic archive server

Modélisation de signaux temporels hautes fréquences multicapteurs à valeurs manquantes : Application à la prédiction des efflorescences phytoplanctoniques dans les rivières et les écosystèmes marins côtiers

Author: Rousseeuw Kévin
Publication venue: HAL CCSD
Publication date: 11/12/2014
Field of study

Because of the growing interest for environmental issues and to identify direct and indirect effects of anthropogenic activities on ecosystems, environmental monitoring programs have recourse more and more frequently to high resolution, autonomous and multi-sensor instrumented stations. These systems are implemented in harsh environment and there is a need to stop measurements for calibration, service purposes or just because of sensors failure. Consequently, data could be noisy, missing or out of range and required some pre-processing or filtering steps to complete and validate raw data before any further investigations. In this context, the objective of this work is to design an automatic numeric system able to manage such amount of data in order to further knowledge on water quality and more precisely with consideration about phytoplankton determinism and dynamics. Main phase is the methodological development of phytoplankton bloom forecasting models giving the opportunity to end-user to handle well-adapted protocols. We propose to use hybrid Hidden Markov Model to detect and forecast environment states (identification of the main phytoplankton bloom steps and associated hydrological conditions). The added-value of our approach is to hybrid our model with a spectral clustering algorithm. Thus all HMM parameters (states, characterisation and dynamics of these states) are built by unsupervised learning. This approach was applied on three data bases: first one from the marine instrumented station MAREL Carnot (Ifremer) (2005-2009), second one from a Ferry Box system implemented in the eastern English Channel en 2012 and third one from a freshwater fixed station in the river Deûle in 2009 (Artois Picardie Water Agency). These works fall within the scope of a collaboration between IFREMER, LISIC/ULCO and Artois Picardie Water Agency in order to develop optimised systems to study effects of anthropogenic activities on aquatic systems functioning in a regional context of massive blooms of the harmful algae, Phaeocystis globosa.La prise de conscience des problèmes d'environnement et des effets directs et indirects des activités humaines a conduit à renforcer la surveillance haute fréquence des écosystèmes marins par l'installation de stations de mesures multicapteurs autonomes. Les capteurs, installés dans des milieux hostiles, sont sujets à des périodes de calibration, d'entretien voire des pannes et sont donc susceptibles de générer des données bruitées, manquantes voire aberrantes qu'il est nécessaire de filtrer et compléter avant toute exploitation ultérieure. Dans ce contexte, l'objectif du travail est de concevoir un système numérique automatisé robuste capable de traiter de tel volume de données afin d’améliorer les connaissances sur la qualité des systèmes aquatiques, et plus particulièrement en considérant le déterminisme et la dynamique des efflorescences du phytoplancton. L'étape cruciale est le développement méthodologique de modèles de prédiction des efflorescences du phytoplancton permettant aux utilisateurs de disposer de protocoles adéquats. Nous proposons pour cela l'emploi du modèle de Markov caché hybridé pour la détection et la prédiction des états de l'environnement (caractérisation des phases clefs de la dynamique et des caractéristiques hydrologiques associées). L'originalité du travail est l'hybridation du modèle de Markov par un algorithme de classification spectrale permettant un apprentissage non supervisé conjoint de la structure, sa caractérisation et la dynamique associée. Cette approche a été appliquée sur trois bases de données réelles : la première issue de la station marine instrumentée MAREL Carnot (Ifremer) (2005-2009), la seconde d’un système de type Ferry Box mis en œuvre en Manche orientale en 2012 et la troisième d’une station de mesures fixe, installée le long de la rivière Deûle en 2009 (Agence de l’Eau Artois Picardie - AEAP). Le travail s’inscrit dans le cadre d’une collaboration étroite entre l'IFREMER, le LISIC/ULCO et l'AEAP afin de développer des systèmes optimisés pour l’étude de l’effet des activités anthropiques sur le fonctionnement des écosystèmes aquatiques et plus particulièrement dans le contexte des efflorescences de l’algue nuisible, Phaeocystis globosa

Thèses en Ligne

Société Francophone de Classification (SFC) Actes des 26èmes Rencontres

Author: Couceiro Miguel
Napoli Amedeo
Publication venue: HAL CCSD
Publication date: 01/01/2019
Field of study

National audienceLes actes des rencontres de la Société Francophone de Classification (SFC, http://www.sfc-classification.net/) contiennent l'ensemble des contributions,présentés lors des rencontres entre les 3 et 5 septembre 2019 au Centre de Recherche Inria Nancy Grand Est/LORIA Nancy. La classification sous toutes ces formes, mathématiques, informatique (apprentissage, fouille de données et découverte de connaissances ...), et statistiques, est la thématique étudiée lors de ces journées. L'idée est d'illustrer les différentes facettes de la classification qui reflètent les intérêts des chercheurs dans la matière, provenant des mathématiques et de l'informatique

INRIA a CCSD electronic archive server