10 research outputs found

    Query by String word spotting based on character bi-gram indexing

    Full text link
    In this paper we propose a segmentation-free query by string word spotting method. Both the documents and query strings are encoded using a recently proposed word representa- tion that projects images and strings into a common atribute space based on a pyramidal histogram of characters(PHOC). These attribute models are learned using linear SVMs over the Fisher Vector representation of the images along with the PHOC labels of the corresponding strings. In order to search through the whole page, document regions are indexed per character bi- gram using a similar attribute representation. On top of that, we propose an integral image representation of the document using a simplified version of the attribute model for efficient computation. Finally we introduce a re-ranking step in order to boost retrieval performance. We show state-of-the-art results for segmentation-free query by string word spotting in single-writer and multi-writer standard datasetsComment: To be published in ICDAR201

    Fusion de résultats en recherche d'information : application aux documents manuscrits en-ligne

    Get PDF
    Ce travail présente les résultats d'une étude sur la combinaison des deux approches majeures existantes pour la recherche de documents manuscrits en-ligne. La première approche consiste à appliquer des méthodes de recherche d'information (RI) aux documents issus d'un processus de reconnaissance. La deuxième, quant à elle, ne nécessite pas de reconnaissance explicite et utilise un algorithme de word spotting. La fusion permet d'améliorer les performances de la recherche. Les résultats montrent que pour des textes ayant un taux d'erreur au niveau mot inférieur à 23 %, les performances après fusion sont comparables à celles obtenues avec la vérité terrain. De plus, pour des textes fortement dégradés, des améliorations sont également observées

    Text retrieval from early printed books

    Get PDF

    Document Image Indexing Using Edit Distance Based Hashing

    Full text link

    Integrating Visual and Textual Cues for Query-by-String Word Spotting

    Full text link

    Text retrieval from early printed books

    Get PDF

    Font adaptive word indexing of modern printed documents

    No full text

    Vers un système omni-langage de recherche de mots dans des bases de documents écrits homogènes

    Get PDF
    The objective of our thesis is to build an omni-language word retrieval system for scanned documents. We place ourselves in the context where the content of documents is homogenous and the prior knowledge about the document (the language, the writer, the writing style, etc.) is not known. Due to this system, user can freely and intuitively compose his/her query. With the query created by the user, he/she can retrieve words in homogenous documents of any language, without finding an occurrence of the word to search. The key of our proposed system is the invariants, which are writing pieces that frequently appeared in the collection of documents. The invariants can be used in query making process in which the user selects and composes appropriate invariants to make the query. They can be also used as structural descriptor to characterize word images in the retrieval process. We introduce in this thesis our method for automatically extracting invariants from document collection, our evaluation method for evaluating the quality of invariants and invariant’s applications in the query making process as well as in the retrieval process.Notre thèse a pour objectif la construction d’un système omni-langage de recherche de mots dans les documents numérisés. Nous nous plaçons dans le contexte où le contenu du document est homogène (ce qui est le cas pour les documents anciens où l’écriture est souvent bien soignée et mono-scripteur) et la connaissance préalable du document (le langage, le scripteur, le type d’écriture, le tampon, etc.) n’est pas connue. Grâce à ce système, l'utilisateur peut composer librement et intuitivement sa requête et il peut rechercher des mots dans des documents homogènes de n’importe quel langage, sans détecter préalablement une occurrence du mot à rechercher. Le point clé du système que nous proposons est les invariants, qui sont les formes les plus fréquentes dans la collection de documents. Pour le requêtage, l’utilisateur pourra créer le mot à rechercher en utilisant les invariants (la composition des requêtes), grâce à une interface visuelle. Pour la recherche des mots, les invariants peuvent servir à construire des signatures structurelles pour représenter les images de mots. Nous présentons dans cette thèse la méthode pour extraire automatiquement les invariants à partir de la collection de documents, la méthode pour évaluer la qualité des invariants ainsi que les applications des invariants à la recherche de mots et à la composition des requêtes
    corecore