157 research outputs found

    D'une pondération automatique des caractéristiques des graphèmes à la création des CodeBooks, un nouveau point de vue dédié aux applications CBIR

    Get PDF
    Session "Posters"National audienceNous présentons dans cet article un nouveau mécanisme de construction des codebooks à partir des graphèmes issus de la décomposition de l'écriture manuscrite. Ces derniers sont importants pour simplifier ultérieurement l'automatisation de l'analyse, de la transcription de ces manuscrits et de la reconnaissance de styles ou de scripteurs. Notre approche apporte d'une part une sélection précise des descripteurs de graphèmes par algorithmes génétiques et d'autre part une méthodologie performante pour la catégorisation de la forme des graphèmes en utilisant la coloration de graphes. Nous montrons en quoi le couplage de ces deux mécanismes " sélection-classification " permet d'offrir une meilleure séparation des formes à catégoriser en exploitant leurs particularités grapho-morphologiques, leurs densités et leurs orientations significative

    Contribution à l'analyse de la dynamique des écritures anciennes pour l'aide à l'expertise paléographique

    Get PDF
    Mes travaux de thèse s inscrivent dans le cadre du projet ANR GRAPHEM1 (Graphemebased Retrieval and Analysis for PaleograpHic Expertise of Middle Age Manuscripts). Ilsprésentent une contribution méthodologique applicable à l'analyse automatique des écrituresanciennes pour assister les experts en paléographie dans le délicat travail d étude et dedéchiffrage des écritures.L objectif principal est de contribuer à une instrumetation du corpus des manuscritsmédiévaux détenus par l Institut de Recherche en Histoire des Textes (IRHT Paris) en aidantles paléographes spécialisés dans ce domaine dans leur travail de compréhension de l évolutiondes formes de l écriture par la mise en place de méthodes efficaces d accès au contenu desmanuscrits reposant sur une analyse fine des formes décrites sous la formes de petits fragments(les graphèmes). Dans mes travaux de doctorats, j ai choisi d étudier la dynamique del élément le plus basique de l écriture appelé le ductus2 et qui d après les paléographes apportebeaucoup d informations sur le style d écriture et l époque d élaboration du manuscrit.Mes contributions majeures se situent à deux niveaux : une première étape de prétraitementdes images fortement dégradées assurant une décomposition optimale des formes en graphèmescontenant l information du ductus. Pour cette étape de décomposition des manuscrits, nousavons procédé à la mise en place d une méthodologie complète de suivi de traits à partir del extraction d un squelette obtenu à partir de procédures de rehaussement de contraste et dediffusion de gradients. Le suivi complet du tracé a été obtenu à partir de l application des règlesfondamentales d exécution des traits d écriture, enseignées aux copistes du Moyen Age. Il s agitd information de dynamique de formation des traits portant essentiellement sur des indicationsde directions privilégiées.Dans une seconde étape, nous avons cherché à caractériser ces graphèmes par desdescripteurs de formes visuelles compréhensibles à la fois par les paléographes et lesinformaticiens et garantissant une représentation la plus complète possible de l écriture d unpoint de vue géométrique et morphologique. A partir de cette caractérisation, nous avonsproposé une approche de clustering assurant un regroupement des graphèmes en classeshomogènes par l utilisation d un algorithme de classification non-supervisé basée sur lacoloration de graphe. Le résultat du clustering des graphèmes a conduit à la formation dedictionnaires de formes caractérisant de manière individuelle et discriminante chaque manuscrittraité. Nous avons également étudié la puissance discriminatoire de ces descripteurs afin d obtenir la meilleure représentation d un manuscrit en dictionnaire de formes. Cette étude a étéfaite en exploitant les algorithmes génétiques par leur capacité à produire de bonne sélection decaractéristiques.L ensemble de ces contributions a été testé à partir d une application CBIR sur trois bases demanuscrits dont deux médiévales (manuscrits de la base d Oxford et manuscrits de l IRHT, baseprincipale du projet), et une base comprenant de manuscrits contemporains utilisée lors de lacompétition d identification de scripteurs d ICDAR 2011. L exploitation de notre méthode dedescription et de classification a été faite sur une base contemporaine afin de positionner notrecontribution par rapport aux autres travaux relevant du domaine de l identification d écritures etétudier son pouvoir de généralisation à d autres types de documents. Les résultats trèsencourageants que nous avons obtenus sur les bases médiévales et la base contemporaine, ontmontré la robustesse de notre approche aux variations de formes et de styles et son caractèrerésolument généralisable à tout type de documents écrits.My thesis work is part of the ANR GRAPHEM Project (Grapheme based Retrieval andAnalysis for Expertise paleographic Manuscripts of Middle Age). It represents a methodologicalcontribution applicable to the automatic analysis of ancient writings to assist the experts inpaleography in the delicate work of the studying and deciphering the writing.The main objective is to contribute to an instrumentation of the corpus of medievalmanuscripts held by Institut de Recherche en Histoire de Textes (IRHT-Paris), by helping thepaleographers specialized in this field in their work of understanding the evolution of forms inthe writing, with the establishment of effective methods to access the contents of manuscriptsbased on a fine analysis of the forms described in the form of small fragments (graphemes). Inmy PhD work, I chose to study the dynamic of the most basic element of the writing called theductus and which according to the paleographers, brings a lot of information on the style ofwriting and the era of the elaboration of the manuscript.My major contribution is situated at two levels: a first step of preprocessing of severelydegraded images to ensure an optimal decomposition of the forms into graphemes containingthe ductus information. For this decomposition step of manuscripts, we have proceeded to theestablishment of a complete methodology for the tracings of strokes by the extraction of theskeleton obtained from the contrast enhancement and the diffusion of the gradient procedures.The complete tracking of the strokes was obtained from the application of fundamentalexecution rules of the strokes taught to the scribes of the Middle Ages. It is related to thedynamic information of the formation of strokes focusing essentially on indications of theprivileged directions.In a second step, we have tried to characterize the graphemes by visual shape descriptorsunderstandable by both the computer scientists and the paleographers and thus unsuring themost complete possible representation of the wrting from a geometrical and morphological pointof view. From this characterization, we have have proposed a clustering approach insuring agrouping of graphemes into homogeneous classes by using a non-supervised classificationalgorithm based on the graph coloring. The result of the clustering of graphemes led to theformation of a codebook characterizing in an individual and discriminating way each processedmanuscript. We have also studied the discriminating power of the descriptors in order to obtaina better representation of a manuscript into a codebook. This study was done by exploiting thegenetic algorithms by their ability to produce a good feature selection.The set of the contributions was tested from a CBIR application on three databases ofmanuscripts including two medieval databases (manuscripts from the Oxford and IRHTdatabases), and database of containing contemporary manuscripts used in the writersidentification contest of ICDAR 2011. The exploitation of our description and classificationmethod was applied on a cotemporary database in order to position our contribution withrespect to other relevant works in the writrings identification domain and study itsgeneralization power to other types of manuscripts. The very encouraging results that weobtained on the medieval and contemporary databases, showed the robustness of our approachto the variations of the shapes and styles and its resolutely generalized character to all types ofhandwritten documents.PARIS5-Bibliotheque electronique (751069902) / SudocSudocFranceF

    Vers un système omni-langage de recherche de mots dans des bases de documents écrits homogènes

    Get PDF
    The objective of our thesis is to build an omni-language word retrieval system for scanned documents. We place ourselves in the context where the content of documents is homogenous and the prior knowledge about the document (the language, the writer, the writing style, etc.) is not known. Due to this system, user can freely and intuitively compose his/her query. With the query created by the user, he/she can retrieve words in homogenous documents of any language, without finding an occurrence of the word to search. The key of our proposed system is the invariants, which are writing pieces that frequently appeared in the collection of documents. The invariants can be used in query making process in which the user selects and composes appropriate invariants to make the query. They can be also used as structural descriptor to characterize word images in the retrieval process. We introduce in this thesis our method for automatically extracting invariants from document collection, our evaluation method for evaluating the quality of invariants and invariant’s applications in the query making process as well as in the retrieval process.Notre thèse a pour objectif la construction d’un système omni-langage de recherche de mots dans les documents numérisés. Nous nous plaçons dans le contexte où le contenu du document est homogène (ce qui est le cas pour les documents anciens où l’écriture est souvent bien soignée et mono-scripteur) et la connaissance préalable du document (le langage, le scripteur, le type d’écriture, le tampon, etc.) n’est pas connue. Grâce à ce système, l'utilisateur peut composer librement et intuitivement sa requête et il peut rechercher des mots dans des documents homogènes de n’importe quel langage, sans détecter préalablement une occurrence du mot à rechercher. Le point clé du système que nous proposons est les invariants, qui sont les formes les plus fréquentes dans la collection de documents. Pour le requêtage, l’utilisateur pourra créer le mot à rechercher en utilisant les invariants (la composition des requêtes), grâce à une interface visuelle. Pour la recherche des mots, les invariants peuvent servir à construire des signatures structurelles pour représenter les images de mots. Nous présentons dans cette thèse la méthode pour extraire automatiquement les invariants à partir de la collection de documents, la méthode pour évaluer la qualité des invariants ainsi que les applications des invariants à la recherche de mots et à la composition des requêtes

    Applications des graphes en traitement d'images

    Get PDF
    International audienceLes graphes sont des outils de représentation des données très puissants et universels, utiles dans divers domaines des sciences notamment le traitement d'images, la reconnaissance des formes ou la vision par ordinateur. Dans ces domaines, la mesure de similarité entre les objets est souvent une phase importante. Dans le cadre d'une représentation sous forme de graphe cette phase se traduit par un appariement des graphes. Dans cet article nous passons en revue un ensemble de travaux basé sur la théorie des graphes appliquée aux traitements d'images. Notamment les approches de représentation en graphe et les différentes mesures de similarité de graphes. Également, nous présentons quelques applications des graphes dans l'analyse d'images et la recherche par le contenu

    Apport du Web sémantique au travail collaboratif : Application à l'édition d'un document d'information sur les risques majeurs

    Get PDF
    http://www.irit.fr/~Guillaume.Cabanac/docs/fjc2014/fjc2014actes.pdf" Collaborer " , " travailler ensemble " , ce sont des réalités familières à chacun d'entre nous. Or les techniques ont progressé et ont pris un nouveau tournant avec l'arrivée du numérique dans l'entreprise. Bien que l'introduction du numérique ne se fasse pas sans difficultés, de nouveaux outils continuent d'apparaître : le travail collaboratif assisté par ordinateur est progressivement devenu un domaine d'étude à part entière. Notre recherche s'inscrit dans ce courant et étudie les apports possibles des technologies du Web sémantique au travail collaboratif. Ces technologies, en apportant les concepts d'ontologie, de métadonnées, d'inférence, participent au passage d'un système d'information à un système plus orienté connaissance. Devant ce vaste champ d'étude, nous avons pour nous guider un cas d'application qui est d'ailleurs à l'origine de ces travaux. Il s'agit du DDRM " Dossier Départemental sur les Risques Majeurs " un document administratif réalisé sous la supervision du préfet et qui compile les informations essentielles concernant les risques naturels et technologiques majeurs connus sur le territoire d'un département. Ce document d'information et de prévention destiné aux citoyens, doit être actualisé tous les cinq ans, étape nécessitant le concours de plusieurs acteurs issus d'horizons et de métiers différents. C'est ici qu'intervient la possibilité d'améliorer ce travail, qui est par essence collaboratif, à l'aide des nouvelles technologies et en particulier celles issues du Web sémantique. Nous imaginons que le système, plongé dans le Web 2.0 et les Linked Open Data , favorisera les échanges entre départements

    Le traitement automatique des langues face aux données textuelles volumineuses et potentiellement dégradées : qu'est-ce que cela change ?

    Get PDF
    National audiencePrétendre que le phénomène récent du Big Data a bouleversé théoriquement et méthodologiquement le traitement automatique des langues (TAL) serait inexact : le TAL a connu sa dernière véritable révolution à la fin des années 80 - début des années 90. C'est en effet à cette période que s'est opéré un changement de paradigme, un passage du rationalisme vers l'empirisme, avec le " remplacement " des approches symboliques, à base de règles, fondées sur l'expertise humaine par des approches empiriques fondées sur les données, où la connaissance est extraite par des techniques d'apprentissage automatique, en particulier statistique. Permis par des capacités de stockage et de traitement accrues des ordinateurs et la disponibilité de volumes conséquents de textes au format numérique, ce bouleversement, même s'il s'est étendu sur plusieurs années, a été en fait assez profond : passage d'un TAL très linguistique où l'on cherchait à comprendre - expliquer les jugements de grammaticalité dont sont capables les locuteurs natifs d'une langue, construire et manipuler des représentations assez élaborées du sens... - à un TAL " très statistique " où l'on fait émerger des connaissances grâce à l'observation à grande échelle, au comptage..., et où l'on extrait des représentations de " sens utile " pour des traitements applicatifs. Affirmer que les volumes actuels de données à l'échelle du Big Data n'ont eu et n'ont aucun impact sur le TAL serait cependant également faux. Les données textuelles à traiter se déclinent à l'aune des 3 V (variété, volume, vélocité). Elles consistent bien sûr en des documents écrits, pages Web, emails et autres textes " traditionnels ", mais également en contenus de blogs, de réseaux sociaux, en sms, en documents audio transcrits automatiquement, ce qui correspond donc à des types et des qualités de langue très divers. Pour ne citer que quelques chiffres donnant tant une idée des volumes que de la vitesse d'évolution de ceux-ci, nous pouvons par exemple nous référer à ceux de Go-globe.com de juin 2011, cités à davidfayon.fr/2011/croissance-du-web-une-minute, qui, quoique un peu anciens, sont déjà extrêmement parlants : création par minute de 60 blogs, de 98000 messages sur Twitter, de 510000 commentaires sur Facebook, de 168 millions d'emails ou de 600 vidéos sur YouTube. À l'heure actuelle, ces nombres sont encore plus impressionnants. Ces volumes énormes de données textuelles ont accru le phénomène décrit précédemment de passage du TAL à l'empirisme, accompagné du renforcement de certains champs du domaine - parfois avec un regard nouveau - et de l'émergence d'applications nouvelles. Dans ce chapitre, nous revenons en détail sur l'impact de ce déluge de données sur le TAL en débutant par un rappel des spécificités des données textuelles au sein de ce monde du Big Data dans lequel les données volumineuses auxquelles il est fait référence sont fréquemment (semi-)structurées ; ceci nous permet de mieux comprendre l'intérêt mais aussi la difficulté d'accéder au contenu sémantique de ces données particulières. Nous nous penchons ensuite sur la façon dont les chercheurs en TAL représentent et exploitent ces données massives pour en faire émerger la connaissance utile pour l'objectif visé. Nous présentons ensuite successivement d'une part des applications qui tentent de trouver des solutions pour faire face au déluge de données disponibles, d'autre part certaines qui, elles, cherchent à tirer profit de cette masse d'informations et à exploiter sa redondance. Nous concluons en rappelant les grandes lignes de l'évolution du TAL

    Un modèle de recherche d'information basé sur les graphes et les similarités structurelles pour l'amélioration du processus de recherche d'information

    Get PDF
    The main objective of IR systems is to select relevant documents, related to a user's information need, from a collection of documents. Traditional approaches for document/query comparison use surface similarity, i.e. the comparison engine uses surface attributes (indexing terms). We propose a new method which uses a special kind of similarity, namely structural similarities (similarities that use both surface attributes and relation between attributes). These similarities were inspired from cognitive studies and a general similarity measure based on node comparison in a bipartite graph. We propose an adaptation of this general method to the special context of information retrieval. Adaptation consists in taking into account the domain specificities: data type, weighted edges, normalization choice. The core problem is how documents are compared against queries. The idea we develop is that similar documents will share similar terms and similar terms will appear in similar documents. We have developed an algorithm which traduces this idea. Then we have study problem related to convergence and complexity, then we have produce some test on classical collection and compare our measure with two others that are references in our domain. The Report is structured in five chapters: First chapter deals with comparison problem, and related concept like similarities, we explain different point of view and propose an analogy between cognitive similarity model and IR model. In the second chapter we present the IR task, test collection and measures used to evaluate a relevant document list. The third chapter introduces graph definition: our model is based on graph bipartite representation, so we define graphs and criterions used to evaluate them. The fourth chapter describe how we have adopted, and adapted the general comparison method. The Fifth chapter describes how we evaluate the ordering performance of our method, and also how we have compared our method with two others.Cette thèse d'informatique s'inscrit dans le domaine de la recherche d'information (RI). Elle a pour objet la création d'un modèle de recherche utilisant les graphes pour en exploiter la structure pour la détection de similarités entre les documents textuels d'une collection donnée et une requête utilisateur en vue d'améliorer le processus de recherche d'information. Ces similarités sont dites « structurelles » et nous montrons qu'elles apportent un gain d'information bénéfique par rapport aux seules similarités directes. Le rapport de thèse est structuré en cinq chapitres. Le premier chapitre présente un état de l'art sur la comparaison et les notions connexes que sont la distance et la similarité. Le deuxième chapitre présente les concepts clés de la RI, notamment l'indexation des documents, leur comparaison, et l'évaluation des classements retournés. Le troisième chapitre est consacré à la théorie des graphes et introduit les notations et notions liées à la représentation par graphe. Le quatrième chapitre présente pas à pas la construction de notre modèle pour la RI, puis, le cinquième chapitre décrit son application dans différents cas de figure, ainsi que son évaluation sur différentes collections et sa comparaison à d'autres approches

    Détection et correction d'erreurs utilisant les probabilités a posteriori dans un système de reconnaissance de phrases manuscrites en-ligne

    No full text
    National audienceDans cet article, nous présentons un système complet de reconnaissance de phrases manuscrites en-ligne. Nous nous intéressons plus particulièrement à la détection d'erreurs potentielles sur les phrases issues d'une reconnaissance avec une approche au Maximum A Posteriori. Les probabilités a posteriori des mots, obtenues à partir d'une représentation sous la forme d'un réseau de confusion, sont ainsi utilisées comme indices de confiance. Des classifieurs dédiés (ici, des SVM) sont ensuite appris afin de corriger ces erreurs, en combinant ces probabilités a posteriori à d'autres sources de connaissance. Un mécanisme de rejet est également introduit afin de distinguer les hypothèses d'erreur qui ne pourront être corrigées par l'approche proposée. Des expérimentations ont été menées sur une base de 425 phrases manuscrites écrites par 17 scripteurs. Elles ont mis en évidence une réduction relative du taux d'erreur sur les mots de 14,6

    Contributions au tri automatique de documents et de courrier d'entreprises

    Get PDF
    Ce travail de thèse s inscrit dans le cadre du développement de systèmes de vision industrielle pour le tri automatique de documents et de courriers d entreprises. Les architectures existantes, dont nous avons balayé les spécificités dans les trois premiers chapitres de la thèse, présentent des faiblesses qui se traduisent par des erreurs de lecture et des rejets que l on impute encore trop souvent aux OCR. Or, les étapes responsables de ces rejets et de ces erreurs de lecture sont les premières à intervenir dans le processus. Nous avons ainsi choisi de porter notre contribution sur les aspects inhérents à la segmentation des images de courriers et la localisation de leurs régions d intérêt en investissant une nouvelle approche pyramidale de modélisation par coloration hiérarchique de graphes ; à ce jour, la coloration de graphes n a jamais été exploitée dans un tel contexte. Elle intervient dans notre contribution à toutes les étapes d analyse de la structure des documents ainsi que dans la prise de décision pour la reconnaissance (reconnaissance de la nature du document à traiter et reconnaissance du bloc adresse). Notre architecture a été conçue pour réaliser essentiellement les étapes d analyse de structures et de reconnaissance en garantissant une réelle coopération entres les différents modules d analyse et de décision. Elle s articule autour de trois grandes parties : une partie de segmentation bas niveau (binarisation et recherche de connexités), une partie d extraction de la structure physique par coloration hiérarchique de graphe et une partie de localisation de blocs adresse et de classification de documents. Les algorithmes impliqués dans le système ont été conçus pour leur rapidité d exécution (en adéquation avec les contraintes de temps réels), leur robustesse, et leur compatibilité. Les expérimentations réalisées dans ce contexte sont très encourageantes et offrent également de nouvelles perspectives à une plus grande diversité d images de documents.This thesis deals with the development of industrial vision systems for automatic business documents and mail sorting. These systems need very high processing time, accuracy and precision of results. The current systems are most of time made of sequential modules needing fast and efficient algorithms throughout the processing line: from low to high level stages of analysis and content recognition. The existing architectures that we have described in the three first chapters of the thesis have shown their weaknesses that are expressed by reading errors and OCR rejections. The modules that are responsible of these rejections and reading errors are mostly the first to occur in the processes of image segmentation and interest regions location. Indeed, theses two processes, involving each other, are fundamental for the system performances and the efficiency of the automatic sorting lines. In this thesis, we have chosen to focus on different sides of mail images segmentation and of relevant zones (as address block) location. We have chosen to develop a model based on a new pyramidal approach using a hierarchical graph coloring. As for now, graph coloring has never been exploited in such context. It has been introduced in our contribution at every stage of document layout analysis for the recognition and decision tasks (kind of document or address block recognition). The recognition stage is made about a training process with a unique model of graph b-coloring. Our architecture is basically designed to guarantee a good cooperation bewtween the different modules of decision and analysis for the layout analysis and the recognition stages. It is composed of three main sections: the low-level segmentation (binarisation and connected component labeling), the physical layout extraction by hierarchical graph coloring and the address block location and document sorting. The algorithms involved in the system have been designed for their execution speed (matching with real time constraints), their robustness, and their compatibility. The experimentations made in this context are very encouraging and lead to investigate a wider diversity of document images.VILLEURBANNE-DOC'INSA-Bib. elec. (692669901) / SudocSudocFranceF
    • …
    corecore