1,128 research outputs found

    L'informatisation des Catalogues Régionaux des Incunables

    Get PDF
    Accessible en ligne: http://www.abes.fr/Arabesques/Arabesques-n-6

    Département des Cartes et Plans de la Bibliothèque nationale de France, ses collections et leur traitement (Le)

    Get PDF
    Intervention de Olivier Loiseaux dans le cadre de la journée d\u27hommage à Pierre-Yves Duchemin "Il y a une vie après MARC"

    Modèle de dégradation d’images de documents anciens pour la génération de données semi-synthétiques

    Get PDF
    In the last two decades, the increase in document image digitization projects results in scientific effervescence for conceiving document image processing and analysis algorithms (handwritten recognition, structure document analysis, spotting and indexing / retrieval graphical elements, etc.). A number of successful algorithms are based on learning (supervised, semi-supervised or unsupervised). In order to train such algorithms and to compare their performances, the scientific community on document image analysis needs many publicly available annotated document image databases. Their contents must be exhaustive enough to be representative of the possible variations in the documents to process / analyze. To create real document image databases, one needs an automatic or a manual annotation process. The performance of an automatic annotation process is proportional to the quality and completeness of these databases, and therefore annotation remains largely manual. Regarding the manual process, it is complicated, subjective, and tedious. To overcome such difficulties, several crowd-sourcing initiatives have been proposed, and some of them being modelled as a game to be more attractive. Such processes reduce significantly the price andsubjectivity of annotation, but difficulties still exist. For example, transcription and textline alignment have to be carried out manually. Since the 1990s, alternative document image generation approaches have been proposed including in generating semi-synthetic document images mimicking real ones. Semi-synthetic document image generation allows creating rapidly and cheaply benchmarking databases for evaluating the performances and trainingdocument processing and analysis algorithms. In the context of the project DIGIDOC (Document Image diGitisation with Interactive DescriptiOn Capability) funded by ANR (Agence Nationale de la Recherche), we focus on semi-synthetic document image generation adapted to ancient documents. First, we investigate new degradation models or adapt existing degradation models to ancient documents such as bleed-through model, distortion model, character degradation model, etc. Second, we apply such degradation models to generate semi-synthetic document image databases for performance evaluation (e.g the competition ICDAR2013, GREC2013) or for performance improvement (by re-training a handwritten recognition system, a segmentation system, and a binarisation system). This research work raises many collaboration opportunities with other researchers to share our experimental results with our scientific community. This collaborative work also helps us to validate our degradation models and to prove the efficiency of semi-synthetic document images for performance evaluation and re-training.Le nombre important de campagnes de numérisation mises en place ces deux dernières décennies a entraîné une effervescence scientifique ayant mené à la création de nombreuses méthodes pour traiter et/ou analyser ces images de documents (reconnaissance d’écriture, analyse de la structure de documents, détection/indexation et recherche d’éléments graphiques, etc.). Un bon nombre de ces approches est basé sur un apprentissage (supervisé, semi supervisé ou non supervisé). Afin de pouvoir entraîner les algorithmes correspondants et en comparer les performances, la communauté scientifique a un fort besoin de bases publiques d’images de documents avec la vérité-terrain correspondante, et suffisamment exhaustive pour contenir des exemples représentatifs du contenu des documents à traiter ou analyser. La constitution de bases d’images de documents réels nécessite d’annoter les données (constituer la vérité terrain). Les performances des approches récentes d’annotation automatique étant très liées à la qualité et à l’exhaustivité des données d’apprentissage, ce processus d’annotation reste très largement manuel. Ce processus peut s’avérer complexe, subjectif et fastidieux. Afin de tenter de pallier à ces difficultés, plusieurs initiatives de crowdsourcing ont vu le jour ces dernières années, certaines sous la forme de jeux pour les rendre plus attractives. Si ce type d’initiatives permet effectivement de réduire le coût et la subjectivité des annotations, reste un certain nombre de difficultés techniques difficiles à résoudre de manière complètement automatique, par exemple l’alignement de la transcription et des lignes de texte automatiquement extraites des images. Une alternative à la création systématique de bases d’images de documents étiquetées manuellement a été imaginée dès le début des années 90. Cette alternative consiste à générer des images semi-synthétiques imitant les images réelles. La génération d’images de documents semi-synthétiques permet de constituer rapidement un volume de données important et varié, répondant ainsi aux besoins de la communauté pour l’apprentissage et l’évaluation de performances de leurs algorithmes. Dans la cadre du projet DIGIDOC (Document Image diGitisation with Interactive DescriptiOn Capability) financé par l’ANR (Agence Nationale de la Recherche), nous avons mené des travaux de recherche relatifs à la génération d’images de documents anciens semi-synthétiques. Le premier apport majeur de nos travaux réside dans la création de plusieurs modèles de dégradation permettant de reproduire de manière synthétique des déformations couramment rencontrées dans les images de documents anciens (dégradation de l’encre, déformation du papier, apparition de la transparence, etc.). Le second apport majeur de ces travaux de recherche est la mise en place de plusieurs bases d’images semi-synthétiques utilisées dans des campagnes de test (compétition ICDAR2013, GREC2013) ou pour améliorer par ré-apprentissage les résultats de méthodes de reconnaissance de caractères, de segmentation ou de binarisation. Ces travaux ont abouti sur plusieurs collaborations nationales et internationales, qui se sont soldées en particulier par plusieurs publications communes. Notre but est de valider de manière la plus objective possible, et en collaboration avec la communauté scientifique concernée, l’intérêt des images de documents anciens semi-synthétiques générées pour l’évaluation de performances et le ré-apprentissage

    Action territoriale de la Bibliothèque nationale de France (L\u27)

    Get PDF
    La Bibliothèque nationale de France remplit, conformément à son décret statutaire, un rôle majeur et sans doute sous-estimé vis-à-vis d\u27autres institutions, au premier rang desquelles l\u27ensemble des bibliothèques territoriales, par-delà les pôles associés en voie d\u27évolution. Stratégiquement, cette action protéiforme gagnerait à être plus visible encore, en interne comme à l\u27extérieur, notamment dans le cadre de relations plus étroites avec l\u27Enseignement supérieur et la Bpi

    LA CONSTITUTION DES FONDS ÉTRANGERS DANS LES BIBLIOTHÈQUES FRANÇAISES

    Get PDF
    Cette synthèse dresse un panorama des différents modes de constitution des fonds étrangers dans les bibliothèques françaises de leurs origines à nos jours. Au travers d'exemples précis, il s'agit de comprendre, dans un premier temps, comment ces collections ont été constituées : achats, recours à des copies, dépôt légal, confiscations révolutionnaires, dons, legs, échanges internationaux de publications, vol, mécénat, conflits de l'histoire. Puis, dans un deuxième temps, est traitée la question du devenir de ces fonds avec le développement des nouvelles technologies et l'accroissement des demandes de restitutions. Pour conclure, conjugué à une politique du livre mieux adapté, à une volonté accrue de transmettre de la part des bibliothécaires, le numérique vient offrir des perspectives aux fonds étrangers des bibliothèques françaises. Des listes de sites web ressources sont jointes en annexe

    Approches historiques et apports des nouvelles technologies (informatisation et numérisation) : l’exemple des éditions incunables de l’Hortus sanitatis

    Get PDF
    Sans se limiter à l’Hortus sanitatis, mais en s’attachant précisément à son histoire, l’article fait le point sur l’évolution de la description bibliographique et de la valorisation des incunables. Les auteurs montrent d’abord comment les différents pays ont entrepris de cataloguer leurs incunables, chacun de son côté, puis comment le système de Short Titled Catalogue est devenu universel, avec une exigence de précision toujours plus grande. On voit ensuite la manière dont on est passé aux notices informatisées, d’abord par le biais du système MARC, puis, tout récemment, en recourant à un système MARC-TEI. L’informatisation des notices descriptives des incunables, qui doit s’achever en 2014, doit permettre d’établir un catalogue national. Les auteurs traitent pour finir de la numérisation et exposent la triple logique à laquelle elle doit répondre pour être exploitable : logique d’exploitation patrimoniale, de recherche scientifique et de valorisation culturelle et éditoriale.This paper, that relies on the Hortus sanitatis’ example, takes stock of early printed books’ bibliographical description and enhancement. Different countries first tried, separately, to make printed catalogues, and, little by little, they all used the STC system. Later, they began to computerize the catalogues, and they first used the MARC system, and, now, the MARC-TEI system. At the same time, libraries try to digitize incunabula, but this must be done in such a way as to allow scientific research, patrimonial uses and cultural enhancement

    Patrimoines insolites, théâtre, opéra, écrits savants et autres fers à dorer

    Get PDF
    Ce petit volume inaugure, dans la collection des éditions de l\u27enssib, une série consacrée au patrimoine des bibliothèques dans ses aspects les plus divers. On le sait, le patrimoine des bibliothèques est à la mode. Valeur sûre et consensuelle, il est l\u27objet de bien des attentions et des initiatives. Pourtant sa sauvegarde et sa mise en valeur supposent un travail de longue haleine, le plus généralement obscur et ingrat, qu\u27on a trop tendance à différer au profit d\u27événements médiatisés qui lui font bien souvent courir plus de risques qu\u27ils ne contribuent à sa perpétuation. À partir de quatre mémoires soutenus par des conservateurs stagiaires de l\u27enssib (promotion 1995-1996), nous avons choisi de réunir en un bouquet quatre approches de fonds ou de documents quelque peu particuliers afin que chacun puisse les découvrir ou les redécouvrir et y puiser des exemples ou des idées pour ses propres pratiques
    • …
    corecore