1 research outputs found

    Étude préliminaire de reconnaissance d'écriture sur des documents historiques

    No full text
    National audienceABSTRACT. This work cares about information retrieval in accounting registers of Italian comedy of the 18 th century. These documents contain precious information for human and social science researchers interested in the integration of the Italian actors during this century. Information retrieval in old documents which have never been studied before, is a long and difficult process. Each step asks an expertise : detection and segmentation into blocs, lines or words; extraction efficient features; and handwriting recognition. The BLSTM recurrent neural network with CTC decoding is the most popular solution which outperforms others for alignment between a transcription and an input sequence. This paper explains a preliminary investigation using this kind of recurrent neural network for the following task : identify the play's titles in multilingual historical documents using closed vocabulary that mainly contains named entities.Ce travail s'intéresse à l'extraction d'informations dans les registres comptables de la Comédie-Italienne du XVIII e siècle. Ces derniers renferment des informations précieuses pour des chercheurs en sciences humaines et sociales qui travaillent sur l'acculturation des acteurs italiens de cette époque. L'extraction d'informations, dans des documents anciens non encore étudiés, est un processus long et complexe qui demande une expertise à chaque étape : détection et segmentation en blocs, lignes ou mots, extraction de caractéristiques, reconnaissance d'écri-ture manuscrite. Les réseaux de neurones récurrents, de type BLSTM, avec un décodage CTC constituent une des méthodes les plus prometteuses en reconnaissance d'écriture, pour réaliser l'étiquetage d'une séquence donnée en entrée et produire un résultat de reconnaissance. Cet article présente une étude préliminaire de l'utilisation de ce type de réseau de neurones pour une première tâche : la reconnaissance des titres des pièces de théâtre, dans des documents historiques multilingues (français et italien) utilisant un vocabulaire fermé et essentiellement composé d'entités nommées
    corecore