Search CORE

157 research outputs found

Identification d'indicateurs stratégiques dans les documents

Author: Hasnaoui Ali
Publication venue
Publication date: 01/01/2019
Field of study

Contribution à l'analyse de la dynamique des écritures anciennes pour l'aide à l'expertise paléographique

Author: DAHER Hani
VINCENT Nicole
Publication venue
Publication date: 01/01/2012
Field of study

Mes travaux de thèse s inscrivent dans le cadre du projet ANR GRAPHEM1 (Graphemebased Retrieval and Analysis for PaleograpHic Expertise of Middle Age Manuscripts). Ilsprésentent une contribution méthodologique applicable à l'analyse automatique des écrituresanciennes pour assister les experts en paléographie dans le délicat travail d étude et dedéchiffrage des écritures.L objectif principal est de contribuer à une instrumetation du corpus des manuscritsmédiévaux détenus par l Institut de Recherche en Histoire des Textes (IRHT Paris) en aidantles paléographes spécialisés dans ce domaine dans leur travail de compréhension de l évolutiondes formes de l écriture par la mise en place de méthodes efficaces d accès au contenu desmanuscrits reposant sur une analyse fine des formes décrites sous la formes de petits fragments(les graphèmes). Dans mes travaux de doctorats, j ai choisi d étudier la dynamique del élément le plus basique de l écriture appelé le ductus2 et qui d après les paléographes apportebeaucoup d informations sur le style d écriture et l époque d élaboration du manuscrit.Mes contributions majeures se situent à deux niveaux : une première étape de prétraitementdes images fortement dégradées assurant une décomposition optimale des formes en graphèmescontenant l information du ductus. Pour cette étape de décomposition des manuscrits, nousavons procédé à la mise en place d une méthodologie complète de suivi de traits à partir del extraction d un squelette obtenu à partir de procédures de rehaussement de contraste et dediffusion de gradients. Le suivi complet du tracé a été obtenu à partir de l application des règlesfondamentales d exécution des traits d écriture, enseignées aux copistes du Moyen Age. Il s agitd information de dynamique de formation des traits portant essentiellement sur des indicationsde directions privilégiées.Dans une seconde étape, nous avons cherché à caractériser ces graphèmes par desdescripteurs de formes visuelles compréhensibles à la fois par les paléographes et lesinformaticiens et garantissant une représentation la plus complète possible de l écriture d unpoint de vue géométrique et morphologique. A partir de cette caractérisation, nous avonsproposé une approche de clustering assurant un regroupement des graphèmes en classeshomogènes par l utilisation d un algorithme de classification non-supervisé basée sur lacoloration de graphe. Le résultat du clustering des graphèmes a conduit à la formation dedictionnaires de formes caractérisant de manière individuelle et discriminante chaque manuscrittraité. Nous avons également étudié la puissance discriminatoire de ces descripteurs afin d obtenir la meilleure représentation d un manuscrit en dictionnaire de formes. Cette étude a étéfaite en exploitant les algorithmes génétiques par leur capacité à produire de bonne sélection decaractéristiques.L ensemble de ces contributions a été testé à partir d une application CBIR sur trois bases demanuscrits dont deux médiévales (manuscrits de la base d Oxford et manuscrits de l IRHT, baseprincipale du projet), et une base comprenant de manuscrits contemporains utilisée lors de lacompétition d identification de scripteurs d ICDAR 2011. L exploitation de notre méthode dedescription et de classification a été faite sur une base contemporaine afin de positionner notrecontribution par rapport aux autres travaux relevant du domaine de l identification d écritures etétudier son pouvoir de généralisation à d autres types de documents. Les résultats trèsencourageants que nous avons obtenus sur les bases médiévales et la base contemporaine, ontmontré la robustesse de notre approche aux variations de formes et de styles et son caractèrerésolument généralisable à tout type de documents écrits.My thesis work is part of the ANR GRAPHEM Project (Grapheme based Retrieval andAnalysis for Expertise paleographic Manuscripts of Middle Age). It represents a methodologicalcontribution applicable to the automatic analysis of ancient writings to assist the experts inpaleography in the delicate work of the studying and deciphering the writing.The main objective is to contribute to an instrumentation of the corpus of medievalmanuscripts held by Institut de Recherche en Histoire de Textes (IRHT-Paris), by helping thepaleographers specialized in this field in their work of understanding the evolution of forms inthe writing, with the establishment of effective methods to access the contents of manuscriptsbased on a fine analysis of the forms described in the form of small fragments (graphemes). Inmy PhD work, I chose to study the dynamic of the most basic element of the writing called theductus and which according to the paleographers, brings a lot of information on the style ofwriting and the era of the elaboration of the manuscript.My major contribution is situated at two levels: a first step of preprocessing of severelydegraded images to ensure an optimal decomposition of the forms into graphemes containingthe ductus information. For this decomposition step of manuscripts, we have proceeded to theestablishment of a complete methodology for the tracings of strokes by the extraction of theskeleton obtained from the contrast enhancement and the diffusion of the gradient procedures.The complete tracking of the strokes was obtained from the application of fundamentalexecution rules of the strokes taught to the scribes of the Middle Ages. It is related to thedynamic information of the formation of strokes focusing essentially on indications of theprivileged directions.In a second step, we have tried to characterize the graphemes by visual shape descriptorsunderstandable by both the computer scientists and the paleographers and thus unsuring themost complete possible representation of the wrting from a geometrical and morphological pointof view. From this characterization, we have have proposed a clustering approach insuring agrouping of graphemes into homogeneous classes by using a non-supervised classificationalgorithm based on the graph coloring. The result of the clustering of graphemes led to theformation of a codebook characterizing in an individual and discriminating way each processedmanuscript. We have also studied the discriminating power of the descriptors in order to obtaina better representation of a manuscript into a codebook. This study was done by exploiting thegenetic algorithms by their ability to produce a good feature selection.The set of the contributions was tested from a CBIR application on three databases ofmanuscripts including two medieval databases (manuscripts from the Oxford and IRHTdatabases), and database of containing contemporary manuscripts used in the writersidentification contest of ICDAR 2011. The exploitation of our description and classificationmethod was applied on a cotemporary database in order to position our contribution withrespect to other relevant works in the writrings identification domain and study itsgeneralization power to other types of manuscripts. The very encouraging results that weobtained on the medieval and contemporary databases, showed the robustness of our approachto the variations of the shapes and styles and its resolutely generalized character to all types ofhandwritten documents.PARIS5-Bibliotheque electronique (751069902) / SudocSudocFranceF

OpenGrey Repository

Vers un système omni-langage de recherche de mots dans des bases de documents écrits homogènes

Author: Bui Quang Anh
Publication venue: HAL CCSD
Publication date: 28/09/2015
Field of study

The objective of our thesis is to build an omni-language word retrieval system for scanned documents. We place ourselves in the context where the content of documents is homogenous and the prior knowledge about the document (the language, the writer, the writing style, etc.) is not known. Due to this system, user can freely and intuitively compose his/her query. With the query created by the user, he/she can retrieve words in homogenous documents of any language, without finding an occurrence of the word to search. The key of our proposed system is the invariants, which are writing pieces that frequently appeared in the collection of documents. The invariants can be used in query making process in which the user selects and composes appropriate invariants to make the query. They can be also used as structural descriptor to characterize word images in the retrieval process. We introduce in this thesis our method for automatically extracting invariants from document collection, our evaluation method for evaluating the quality of invariants and invariant’s applications in the query making process as well as in the retrieval process.Notre thèse a pour objectif la construction d’un système omni-langage de recherche de mots dans les documents numérisés. Nous nous plaçons dans le contexte où le contenu du document est homogène (ce qui est le cas pour les documents anciens où l’écriture est souvent bien soignée et mono-scripteur) et la connaissance préalable du document (le langage, le scripteur, le type d’écriture, le tampon, etc.) n’est pas connue. Grâce à ce système, l'utilisateur peut composer librement et intuitivement sa requête et il peut rechercher des mots dans des documents homogènes de n’importe quel langage, sans détecter préalablement une occurrence du mot à rechercher. Le point clé du système que nous proposons est les invariants, qui sont les formes les plus fréquentes dans la collection de documents. Pour le requêtage, l’utilisateur pourra créer le mot à rechercher en utilisant les invariants (la composition des requêtes), grâce à une interface visuelle. Pour la recherche des mots, les invariants peuvent servir à construire des signatures structurelles pour représenter les images de mots. Nous présentons dans cette thèse la méthode pour extraire automatiquement les invariants à partir de la collection de documents, la méthode pour évaluer la qualité des invariants ainsi que les applications des invariants à la recherche de mots et à la composition des requêtes

Thèses en Ligne

Contributions au tri automatique de documents et de courrier d'entreprises

Author: EGLIN Véronique
EMPTOZ Hubert
GACEB Djamel
Publication venue: Doc'INSA, Villeurbanne
Publication date: 01/01/2012
Field of study

Ce travail de thèse s inscrit dans le cadre du développement de systèmes de vision industrielle pour le tri automatique de documents et de courriers d entreprises. Les architectures existantes, dont nous avons balayé les spécificités dans les trois premiers chapitres de la thèse, présentent des faiblesses qui se traduisent par des erreurs de lecture et des rejets que l on impute encore trop souvent aux OCR. Or, les étapes responsables de ces rejets et de ces erreurs de lecture sont les premières à intervenir dans le processus. Nous avons ainsi choisi de porter notre contribution sur les aspects inhérents à la segmentation des images de courriers et la localisation de leurs régions d intérêt en investissant une nouvelle approche pyramidale de modélisation par coloration hiérarchique de graphes ; à ce jour, la coloration de graphes n a jamais été exploitée dans un tel contexte. Elle intervient dans notre contribution à toutes les étapes d analyse de la structure des documents ainsi que dans la prise de décision pour la reconnaissance (reconnaissance de la nature du document à traiter et reconnaissance du bloc adresse). Notre architecture a été conçue pour réaliser essentiellement les étapes d analyse de structures et de reconnaissance en garantissant une réelle coopération entres les différents modules d analyse et de décision. Elle s articule autour de trois grandes parties : une partie de segmentation bas niveau (binarisation et recherche de connexités), une partie d extraction de la structure physique par coloration hiérarchique de graphe et une partie de localisation de blocs adresse et de classification de documents. Les algorithmes impliqués dans le système ont été conçus pour leur rapidité d exécution (en adéquation avec les contraintes de temps réels), leur robustesse, et leur compatibilité. Les expérimentations réalisées dans ce contexte sont très encourageantes et offrent également de nouvelles perspectives à une plus grande diversité d images de documents.This thesis deals with the development of industrial vision systems for automatic business documents and mail sorting. These systems need very high processing time, accuracy and precision of results. The current systems are most of time made of sequential modules needing fast and efficient algorithms throughout the processing line: from low to high level stages of analysis and content recognition. The existing architectures that we have described in the three first chapters of the thesis have shown their weaknesses that are expressed by reading errors and OCR rejections. The modules that are responsible of these rejections and reading errors are mostly the first to occur in the processes of image segmentation and interest regions location. Indeed, theses two processes, involving each other, are fundamental for the system performances and the efficiency of the automatic sorting lines. In this thesis, we have chosen to focus on different sides of mail images segmentation and of relevant zones (as address block) location. We have chosen to develop a model based on a new pyramidal approach using a hierarchical graph coloring. As for now, graph coloring has never been exploited in such context. It has been introduced in our contribution at every stage of document layout analysis for the recognition and decision tasks (kind of document or address block recognition). The recognition stage is made about a training process with a unique model of graph b-coloring. Our architecture is basically designed to guarantee a good cooperation bewtween the different modules of decision and analysis for the layout analysis and the recognition stages. It is composed of three main sections: the low-level segmentation (binarisation and connected component labeling), the physical layout extraction by hierarchical graph coloring and the address block location and document sorting. The algorithms involved in the system have been designed for their execution speed (matching with real time constraints), their robustness, and their compatibility. The experimentations made in this context are very encouraging and lead to investigate a wider diversity of document images.VILLEURBANNE-DOC'INSA-Bib. elec. (692669901) / SudocSudocFranceF

OpenGrey Repository

L'apport des correcticiels pour la correction de textes d'élèves du secondaire

Author: Mireault Marie-Hélène
Publication venue
Publication date: 01/01/2009
Field of study

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Dépôt Institutionnel Numérique

Effets de l'enseignement de la progression thématique et de deux méthodes de révision sur la maîtrise de la cohérence microstructurelle par les élèves du collégial

Author: Rousseau Annie
Publication venue
Publication date: 01/05/2010
Field of study

La présente recherche a porté sur la maîtrise de la cohérence microstructurelle par les élèves de niveau collégial. Elle avait pour objectif de mesurer les effets de l'enseignement de la progression thématique comme critère de cohérence microstructurelle selon une méthode contrastive, et les effets de l'enseignement de deux méthodes différentes de la révision de cet aspect. Nous avons aussi cherché à déterminer quels défauts de cohérence se trouvent dans les textes d'élèves du collégial. Trois groupes d'élèves du collégial ont reçu des séances d'enseignement différentes de la cohérence dans l'introduction et la conclusion, l'une traditionnelle et l'autre expérimentale. Les deux groupes soumis à l'enseignement expérimental ont suivi des activités d'entraînement à la révision différentes, soit une activité de mise à distance par la tâche dans un groupe et de mise à distance par les pairs. Trois introductions rédigées par les élèves avant et après les interventions ont servi de prétest et de post-tests. Un taux de réussite de la progression thématique a été calculé pour chacune des introductions afin de comparer les performances des trois groupes. L'examen des résultats a montré que le taux de réussite de la progression thématique a augmenté de façon constante dans les groupes expérimentaux, alors qu'il a stagné dans le groupe témoin. Par contre, il n'a pas été possible de distinguer l'impact des deux méthodes d'entraînement à la révision expérimentées. L'examen des défauts de cohérence présents dans les textes d'élèves regroupés en fonction de leur habileté de départ a montré que l'amélioration observée dans les groupes expérimentaux est plus marquée chez les sous-groupes d'élèves faibles. Les résultats de cette expérimentation montrent que l'enseignement de la progression thématique selon une méthode contrastive favorise l'amélioration de la cohérence microstructurelle des introductions rédigées par les élèves. \ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : cohérence, cohérence microtructurelle, progression thématique, défauts de cohérence, méthode contrastive, cohésion, révision, mise à distance par la tâche, mise à distance par les pairs, différence forts/faibles, collégial

Archipel - Université du Québec à Montréal

Le repérage automatique des entités nommées dans la langue arabe : vers la création d'un système à base de règles

Author: Zaghouani Wajdi
Publication venue
Publication date: 01/01/2009
Field of study

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Dépôt Institutionnel Numérique

Recognition system for unconstrained handwritten numerals

Author: DE BRUCQ (D.)
FERAY (N.)
Publication venue: GRETSI, Saint Martin d'Hères, France
Publication date: 01/01/1996
Field of study

In this paper, we present a recognition system of unconstrained handwritten numerals . We describe all essential stages to it s elaboration . We approach the first phase of all recognition system : the extraction of the primitives . A structure that use th e skeleton of the numeral is used to extract rapidly 55 binary primitives . We specify a method that allows to determine the transmitted information about the primitives on the problem of the recognition of unconstrained handwritten numerals . Information transmitted by each primitive providing a criterion allowing to generate a binary decision tree . This criterion is used to select in each nod e the best primitive . The obtained classifier does not use the totality of 55 binary primitives but solely those that have been retaine d during the phase of identification of the decision tree . We present an original reject criterion that allows to increase performances of the recognition system . Finally, We describe the database of American handwritting numerals that serves to test the classifier . We demonstrate the performance of our system with this database .Nous présentons dans cet article un système de reconnaissance de chiffres manuscrits hors lignes, en décrivant toutes les étapes essentielles à son élaboration. Nous abordons d'abord la première phase de tout système de reconnaissance: l'extraction de primitives. Une représentation structurée construite à partir du squelette du chiffre est utilisée pour extraire rapidement un jeu de 55 primitives binaires. Nous précisons ensuite une méthode qui permet de déterminer l'information transmise par une primitive sur le problème de la reconnaissance des chiffres manuscrits hors lignes. L'information transmise par chaque primitive fournit un critère permettant de générer un arbre de décision binaire de manière complètement automatique. Ce critère est utilisé pour sélectionner au niveau de chaque noeud de l'arbre la primitive la plus informative sur le problème de reconnaissance associé au noeud en cours de traitement. Le classifieur obtenu n'utilise pas la totalité des 55 primitives binaires mais uniquement celles qui ont été retenues durant la phase d'identification de l'arbre de décision. Nous présentons ensuite un critère de rejet original qui permet d'augmenter les performances du système de reconnaissance de manière significative. Nous décrivons finalement la base de données de chiffres manuscrits américains qui sert à tester le classifieur. Nous donnons les résultats obtenus

I-Revues

Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 09 : ELTAL

Author: Kostov Jovan
Šmilauer Ivan
Publication venue: HAL CCSD
Publication date: 04/07/2016
Field of study

National audienceELTAL is a workshop organized within the JEP-TALN-RECITAL 2016 conference. This workshop brings together papers investigating metdods and applications in NLP applied to language teaching.ELTAL est un atelier organisé au sein de la conférence JEP-TALN-RECITAL 2016 et regroupe des contributions qui étudient les méthodes et les applications en TAL dans le domaine de l'enseignement des langues

Hal-Diderot

Les modifications lexicales apportées par les réviseurs professionnels dans leur tâche de révision : du problème à la solution

Author: Laflamme Caroline.
Publication venue
Publication date: 16/04/2018
Field of study

Depuis quelques années seulement, chercheurs et praticiens en révision professionnelle ont commencé à décrire ce métier et à expliquer les multiples tâches qu'il comporte (Bisaillon, 2005, 2007a et b; Cloutier, 2005; Leclerc, 2006; Lachance, 2006; Association canadienne des réviseurs, 2006; Bisaillon, 2007 c). Dans la foulée de ces travaux, j'ai entrepris une étude sur les modifications lexicales apportées par six réviseurs au cours d'un de leurs mandats de révision afin de préciser la nature et les raisons d'être de ce type de modifications. Je cherchais entre autres, à répondre aux questions suivantes: Qu'est-ce qui caractérise les modifications lexicales? Quels problèmes les réviseurs ont-ils détectés pour justifier ces changements et comment les ont-ils résolus? Quelles préoccupations révisionnelles traduisent ces modifications? Pour obtenir des données, une partie du travail des réviseurs a d'abord été filmé et ceux -ci devaient, par la suite, expliquer les changelnents qu'ils avaient faits dans le texte. Seulement les modifications portant sur des unités lexicales ont été retenues pour ma recherche et une classification a été élaborée pour les décrire et les analyser. Les principaux résultats montrent que les unités lexicales visées par les Inodifications sont le plus souvent remplacées et qu'elles appartiennent deux fois sur trois à une classe ouverte (nom, verbe, adjectif et adverbe). Les problèmes détectés par les réviseurs ont été classés dans une vingtaine de catégories différentes, ce qui témoigne bien de la diversité des difficultés que pose l' elnploi des mots dans un texte. Même si les erreurs de syntaxe et les erreurs d'orthographe grammaticale sont les plus nombreuses, elles ne comptent que pour environ 20 % de tous les problèmes détectés et résolus. On remarque également que quelques modifications lexicales ont été apportées sur la base de pressentiments. Par ailleurs, il s'avère qu 'une modification sur deux visant une unité lexicale est faite dans une optique nonnative. Enfin, on observe que certains éléments du contexte de travail, dont le mandat reçu, la conception de la révision et la fonnation, semblent avoir une incidence sur les types de problèmes que détectent et corrigent les réviseurs

CorpusUL