234 research outputs found

    A syntax directed method for numerical field extraction in incoming mail documents

    Get PDF
    In this article, we propose a generic method for the automatic localisation and recognition of numerical fields (phone number, ZIP code, etc.) in unconstrained handwritten incoming mail documents. The method exploits the syntax of a numerical field as an a priori knowledge to locate it in the document. A syntactical analysis based on Markov models filters the connected component sequences that respect a particular syntax known by the system. Once extracted, the fields are submitted to a numeral recognition process. Hence, we avoids an integral recognition of the document, which is a very tough and time consuming task. We show the efficiency of the method on a real incoming mail document database.Dans cet article, nous présentons une méthode générique d'extraction et de reconnaissance de champs numériques (numéro de téléphone, code postal, etc.) dans des courriers manuscrits non contraints. La méthode d'extraction exploite la syntaxe des champs comme information a priori pour les localiser. Un analyseur syntaxique à base de modÚles de Markov filtre les séquences de composantes qui respectent la syntaxe d'un type de champ connu du systÚme. Notre approche permet ainsi d'éviter la reconnaissance totale du document, opération délicate et coûteuse en temps de calcul, puisque seuls les champs localisés sont soumis à un systÚme de reconnaissance. Nous montrons l'efficacité de la méthode sur une base de courriers manuscrits réels de type courrier entrant

    La reconnaissance de l’écriture manuscrite hors ligne. ApplicabilitĂ© Ă  la transcription et l’indexation d’un fonds notarial des Archives cantonales jurassiennes

    Get PDF
    Ce travail Ă©tudie un ensemble d’options et de mĂ©thodes de transcription et d’indexation pour un fonds notarial des Archives cantonales jurassiennes (ArCJ), en portant une attention particuliĂšre Ă  la reconnaissance de l’écriture manuscrite hors ligne. Les recherches dans cette discipline ont fait de grands progrĂšs depuis leurs dĂ©buts dans les annĂ©es 60. S’inspirant des rĂ©sultats prometteurs de la reconnaissance automatique de la parole, de nombreux outils ont Ă©tĂ© dĂ©veloppĂ©s pour tenter d’égaler et de surpasser les capacitĂ©s humaines de dĂ©chiffrement. De plus en plus d’institutions numĂ©risent d’importantes quantitĂ©s de documents manuscrits, qui sont ensuite mis en ligne Ă  disposition du public. La grande majoritĂ© de ces documents attend toujours d'ĂȘtre transcrite et indexĂ©e pour offrir aux chercheurs un meilleur accĂšs Ă  leurs contenus. AprĂšs une dĂ©finition de la problĂ©matique de ce travail, une premiĂšre partie fait l’état de l’art de la reconnaissance de l’écriture manuscrite d’aprĂšs la littĂ©rature scientifique la plus rĂ©cente sur le sujet. L’historique de la discipline est retracĂ©, les principes gĂ©nĂ©raux et le fonctionnement des programmes sont expliquĂ©s. Pour dĂ©terminer quelles sont les pratiques actuellement en vigueur, une enquĂȘte auprĂšs d’autres institutions est menĂ©e. Une seconde partie rĂ©alise un inventaire et dĂ©crit le fonds concernĂ© par ce travail. Il s’agit de rĂ©pertoires de notaires, documents trĂšs importants pour avoir accĂšs aux minutes des diffĂ©rentes Ă©tudes. Les Archives cantonales jurassiennes et leur stratĂ©gie de numĂ©risation sont prĂ©sentĂ©es. Les registres sont analysĂ©s en dĂ©tail, tant sur le plan du support que sur celui du contenu. Une typologie des difficultĂ©s est Ă©galement Ă©tablie. Finalement, la compatibilitĂ© du fonds avec les mĂ©thodes automatiques, manuelles ou semi-automatiques retenues est Ă©valuĂ©e pour dĂ©terminer si elles sont en mesure d’apporter une solution aux dĂ©fis et difficultĂ©s que suscite l’indexation des rĂ©pertoires. A partir de ces observations oĂč thĂ©orie et pratique se cĂŽtoient, des recommandations sont faites aux Archives cantonales jurassiennes, afin de les aider Ă  dĂ©terminer quelle serait pour elles la maniĂšre la plus rentable de transcrire et indexer leurs registres

    Combinaison de données hétérogÚnes pour la reconnaissance d'images de documents

    Get PDF
    Ce manuscrit est une synthĂšse de mes travaux de recherche depuis 2008, au sein de l’équipe Intuidoc de l’Irisa. Ces travaux portent sur l’analyse automatique d’images de documents numĂ©risĂ©s, et plus particuliĂšrement la reconnaissance de la structure de documents. S’il existe des OCR du commerce de bonne qualitĂ©, la reconnaissance d’images de documents reste un problĂšme ouvert pour les documents anciens, abĂźmĂ©s, Ă  structure complexe, ou avec une forte interaction entre Ă©criture manuscrite et texte imprimĂ©Mes travaux se sont focalisĂ©s autour de la mĂ©thode DMOS. Il s’agit d’une mĂ©thode Ă  base de rĂšgles grammaticales, permettant une description physique, syntaxique et sĂ©mantique des documents Ă  reconnaĂźtre. En particulier, nous avons mis au point le mĂ©canisme de calque perceptif, qui permet une combinaison de donnĂ©es hĂ©tĂ©rogĂšnes, guidĂ©e par une description grammaticale des contenus.Les donnĂ©es hĂ©tĂ©rogĂšnes peuvent ĂȘtre des primitives basiques extraites de l’image (segments, composantes connexes), des objets construits (lignes de texte, alignements), des rĂ©sultats de classifieurs, des donnĂ©es issues d’interactions avec l’utilisateur, des rĂ©sultats de systĂšmes de reconnaissance d’écriture, et plus rĂ©cemment des rĂ©sultats produits par des systĂšmes Ă  base d’apprentissage profond. GrĂące Ă  l’utilisation des calques perceptifs, ces donnĂ©es sont combinĂ©es simplement en suivant des rĂšgles symboliques dĂ©crivant l’organisation physique et logique des documents. Dans ce manuscrit, nous prĂ©sentons l’intĂ©rĂȘt de la combinaison de donnĂ©es hĂ©tĂ©rogĂšnes sur de nombreuses problĂ©matiques concrĂštes. Nous abordons les tĂąches de segmentation physique des pages : la localisation de lignes de texte et la segmentation en paragraphes. Nous Ă©tudions l’analyse de documents Ă  structure complexe comme la presse ancienne, le corpus hĂ©tĂ©rogĂšne Maurdor, des diagrammes de type flowchart, ou des documents tabulaires d’histoire de la finance. Nous prĂ©sentons Ă©galement des rĂ©sultats sur des formulaires prĂ©-imprimĂ©s. Enfin, nous abordons des perspectives de recherches autour de l’apprentissage avec peu de donnĂ©es, l’utilisation de rĂ©seaux de neurones profonds, ainsi que des interactions avec le domaine du traitement automatique de la langue

    Avenir des catalogues collectifs nationaux (L\u27)

    Get PDF
    Ce rapport vise Ă  analyser le mode de fonctionnement des deux grands catalogues collectifs français, le SystĂšme universitaire de documentation (SUDOC) et le Catalogue collectif de France (CCFR), de mesurer leur audience et leurs usages et de suggĂ©rer toutes recommandations qui permettraient d’en faire, encore davantage demain qu’aujourd’hui, des outils transparents et visibles, y compris sur un plan international. Leur performance doit servir les attentes des usagers anonymes comme celles de la communautĂ© scientifique et des professionnels du livre

    La reconnaissance des entités nommées dans les bases numériques de chartes médiévales en latin : le cas du Corpus Burgundiae Medii Aevi (xe-xiiie siÚcle)

    Get PDF
    La disponibilitĂ© d’une quantitĂ© phĂ©nomĂ©nale de manuscrits mĂ©diĂ©vaux numĂ©risĂ©s nous oblige Ă  chercher des mĂ©thodes efficaces pour en rĂ©aliser une exploitation Ă  grande Ă©chelle. Mais ce travail ne peut ĂȘtre rĂ©alisĂ© que dans des bases de donnĂ©es structurĂ©es oĂč les propriĂ©tĂ©s textuelles ont Ă©tĂ© explicitĂ©es et formalisĂ©es. Une telle structuration, lorsqu’elle est effectuĂ©e Ă  la main, est coĂ»teuse en termes de temps et d’effort, ce qui a conduit Ă  chercher des maniĂšres de l’automatiser. Nous en prĂ©sentons ici un exemple : la crĂ©ation d’un modĂšle de reconnaissance des entitĂ©s nommĂ©es, qui sont un agent structurant primaire, puisque y sont identifiĂ©s tous les sujets et objets qui adoptent des noms spĂ©cifiques. Nous dĂ©taillons la crĂ©ation et la mise en Ɠuvre du modĂšle crĂ©Ă© Ă  partir des chartes de Bourgogne (Corpus Burgundiae Medii Aevi), produites entre le xe et le xiiie siĂšcle ainsi que diverses expĂ©riences de validation pour en tester la robustesse sur un large Ă©ventail de sources, tout en soumettant les rĂ©sultats Ă  une discussion qui tente d’exposer les divers avantages et dĂ©fis qu’offre un corpus de manuscrits mĂ©diĂ©vaux pour ce type de technique.The availability of a vast amount of digitized medieval manuscripts requires to import effective methods for large-scale exploitation. But this work can only be done in structured databases where the textual properties are explicit and formalized. This type of handmade structuring is highly time-consuming, which has led to the search for ways to it. We present an example of this : the creation of a named entities recognition model, which are a primary structuring agent, since it corresponds to all the subjects and objects adopting specific names. We detail the creation and implementation of the model formed from Burgundian charters (Corpus Burgundiae Medii Aevi), produced from the tenth to the thirteenth centuries ; also, we describe various validation experiments in order to test its robustness on a wide range of sources and at the same time we submit all the results to a discussion that shows the various benefits and challenges of this type of technique on a medieval manuscripts’ corpus

    Signalement et valorisation des textes (religieux) en arabe : la coopĂ©ration au service d’une meilleure (re)connaissance de ces fonds

    Get PDF
    Mémoire de fin d\u27étude du diplÎme de conservateur, promotion 28, portant sur la coopération pour la valorisation des textes religieux en arab

    Numérique : impact sur le cycle de vie du document (Le)

    Get PDF
    Actes du colloque "Le numérique : impact sur le cycle de vie du document" organisé à l\u27université de Montréal par l\u27EBSI et l\u27ENSSIB du 13 au 15 octobre 2004. Son objectif était de traiter de façon interdisciplinaire la problématique suivante : « La numérisation, la diffusion des formats numériques originaux, les nouvelles méthodes d\u27indexation et d\u27analyse du document ainsi que le fonctionnement en réseau changent les données de base de la vie du document qui devient une sorte de phénix incessamment renaissant » (programme du colloque)

    Colloque Humanistica 2021 - Recueil des résumés

    Get PDF

    Plan de gestion des données de l\u27observatoire des cultures écrites de l\u27argile à l\u27imprimé Biblissima+

    Get PDF
    Ce document dĂ©crit le plan de gestion des donnĂ©es (PGD) de l’observatoire des cultures Ă©crites anciennes Biblissima+. FĂ©dĂ©rant 17 Ă©tablissements, dont plusieurs Ă©quipes de recherche, une entreprise et le ministĂšre de la Culture, Biblissima+ crĂ©e une infrastructure modulaire mettant en interopĂ©rabilitĂ© toutes les donnĂ©es en jeu dans l\u27histoire de la transmission et l\u27Ă©tude de toutes les cultures Ă©crites, de l’argile Ă  l’imprimĂ©, sans limite de temps, de langue ou de type de documentation. Le prĂ©sent document correspond Ă  la version initiale du livrable Ă  fournir Ă  l’ANR dans les 6 mois aprĂšs le dĂ©marrage du projet. Il a Ă©tĂ© prĂ©parĂ© Ă  partir du modĂšle gĂ©nĂ©rique diffusĂ© par l’ANR en 2019 et de la grille de relecture des PGD proposĂ©e par l’INIST-CNRS1 en 2020

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    No full text
    Ce mĂ©moire d’habilitation Ă  diriger des recherches dresse une synthĂšse des travaux rĂ©alisĂ©s en sciences de l’information et de la communication et portent sur la description et la caractĂ©risation de contenus textuels, sur leur reprĂ©sentation sous la forme de connaissances organisĂ©es et mĂ©diatisĂ©es pour la recherche d’information. L’organisation des connaissances est abordĂ©e comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modĂ©liser le rĂ©el » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour apprĂ©hender cet objet. Dans la premiĂšre partie du mĂ©moire, la recherche d’information est saisie dans le seul rapport Ă  la technique : les connaissances linguistiques sont utilisĂ©es pour organiser les donnĂ©es afin d’amĂ©liorer l’indexation en texte intĂ©gral et la classification de textes. Dans la seconde partie, la recherche d’information est apprĂ©hendĂ©e comme une activitĂ© humaine et sociale : les connaissances linguistiques sont utilisĂ©es pour favoriser l’accĂšs aux documents et permettre diverses activitĂ©s informationnelles (lire, Ă©crire, annoter, partager, etc.). Ce mĂ©moire tĂ©moigne d’un parcours qui traverse les deux grandes conceptions de l’information. La premiĂšre est inspirĂ©e du courant nord-amĂ©ricain de l’information retrieval qui cherche Ă  Ă©tablir des principes gĂ©nĂ©raux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirĂ©e de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels prĂ©cis
    • 

    corecore