8 research outputs found

    Sparse Radial Sampling LBP for Writer Identification

    Full text link
    In this paper we present the use of Sparse Radial Sampling Local Binary Patterns, a variant of Local Binary Patterns (LBP) for text-as-texture classification. By adapting and extending the standard LBP operator to the particularities of text we get a generic text-as-texture classification scheme and apply it to writer identification. In experiments on CVL and ICDAR 2013 datasets, the proposed feature-set demonstrates State-Of-the-Art (SOA) performance. Among the SOA, the proposed method is the only one that is based on dense extraction of a single local feature descriptor. This makes it fast and applicable at the earliest stages in a DIA pipeline without the need for segmentation, binarization, or extraction of multiple features.Comment: Submitted to the 13th International Conference on Document Analysis and Recognition (ICDAR 2015

    A fine-grained approach to scene text script identification

    Full text link
    This paper focuses on the problem of script identification in unconstrained scenarios. Script identification is an important prerequisite to recognition, and an indispensable condition for automatic text understanding systems designed for multi-language environments. Although widely studied for document images and handwritten documents, it remains an almost unexplored territory for scene text images. We detail a novel method for script identification in natural images that combines convolutional features and the Naive-Bayes Nearest Neighbor classifier. The proposed framework efficiently exploits the discriminative power of small stroke-parts, in a fine-grained classification framework. In addition, we propose a new public benchmark dataset for the evaluation of joint text detection and script identification in natural scenes. Experiments done in this new dataset demonstrate that the proposed method yields state of the art results, while it generalizes well to different datasets and variable number of scripts. The evidence provided shows that multi-lingual scene text recognition in the wild is a viable proposition. Source code of the proposed method is made available online

    Αναγνώριση Γλώσσας Χειρόγραφων Εγγράφων με Χρήση LBP και SIFT Χαρακτηριστικών

    Get PDF
    Η αναγνώριση γλώσσας εικόνων χειρόγραφων εγγράφων είναι ένα πρόβλημα ανάλυσης εγγράφων στο οποίο οι γλώσσες αντιστοιχούν σε ένα σύνολο γραφικών αναπαραστάσεων που χρησιμοποιούνται για να εκφράσουν ένα συγκεκριμένο σύστημα γραφής. Κάθε γλώσσα έχει τα δικά της χαρακτηριστικά όχι μόνο αναφορικά με τη φυσική της μορφή, αλλά και με το στυλ γραφής της. Η υφή μιας εικόνας είναι ένα μοναδικό χαρακτηριστικό, το οποίο μπορεί να χρησιμοποιηθεί για την αναγνώριση της γλώσσας μιας εικόνας εγγράφου και μπορεί να οριστεί ως ένα επαναλαμβανόμενο μοτίβο από εικονοστοιχεία (pixels) με δομημένο τρόπο. Προκειμένου να εξαχθούν χαρακτηριστικά βασισμένα στην υφή, χρησιμοποιούνται τα Τοπικά Δυαδικά Πρότυπα (Local Binary Patterns - LBP), που είναι απλά στην εφαρμογή τους και δεν επηρεάζονται από αλλαγές στις τιμές έντασης των εικονοστοιχείων μιας εικόνας. Τα LBP χαρακτηρίζουν τμήματα της εικόνας χρησιμοποιώντας δυαδικούς κώδικες, οι οποίοι κωδικοποιούν τη σχέση μεταξύ του κεντρικού εικονοστοιχείου και των γειτόνων του. Από την άλλη πλευρά, τα χαρακτηριστικά που είναι βασισμένα στην κλίση, όπως είναι οι περιγραφείς του Μετασχηματισμού Χαρακτηριστικών Αμετάβλητης Κλίμακας (Scale Invariant Feature Transform - SIFT), περιγράφουν οπτικά χαρακτηριστικά σε τοπικές περιοχές των χειρογράφων χωρίς να απαιτείται τμηματοποίηση. Συγκεκριμένα, ο SIFT είναι ένας αλγόριθμος ανίχνευσης σημείων κλειδιών (keypoints) που εντοπίζει τοπικές αλλαγές στην ένταση των εικονοστοιχείων των εικόνων. Παρέχει επίσης έναν επαρκή αριθμό σημείων κλειδιών για λεπτομερή χρήση. Στην παρούσα εργασία παρουσιάζουμε ένα σύστημα αυτόματης αναγνώρισης γλώσσας σε εικόνες χειρόγραφων εγγράφων χωρίς την εφαρμογή τμηματοποίησης. Η αναγνώριση της γλώσσας μπορεί να θεωρηθεί ως ένα πρόβλημα ταξινόμησης στο οποίο κάθε γλώσσα αντιπροσωπεύει μια κλάση. Κωδικοποιούμε τις δομές του κειμένου χρησιμοποιώντας περιγραφείς υφής ή περιγραφείς αμετάβλητης κλίμακας και περιστροφής, που προέρχονται από τα LBP και τα SIFT χαρακτηριστικά αντίστοιχα. Τα LBP και SIFT χαρακτηριστικά χρησιμοποιούνται ανεξάρτητα σε πειράματα, ώστε να εξαχθούν τα χαρακτηριστικά από τις εικόνες των εγγράφων. Η αναγνώριση της γλώσσας επιτυγχάνεται με τη χρήση των ταξινομητών Κ Πλησιέστερου Γείτονα (K Nearest Neighbour - KNN), Naive Bayes Nearest Neighbour (NBNN) και Local NBNN. Η ταξινόμηση των άγνωστων εγγράφων σε μια συγκεκριμένη γλώσσα βασίζεται στη σύγκριση με τα χαρακτηριστικά των εγγράφων του συνόλου αναφοράς. Τα πειράματα για την αξιολόγηση του συστήματος εκτελούνται σε εικόνες χειρόγραφων εγγράφων γραμμένες στη γαλλική, γερμανική, ελληνική και αγγλική γλώσσα οι οποίες είναι μέρος μιας δημόσιας βάσης δεδομένων που περιέχει 208 έγγραφα από 26 γραφείς και έχουν χρησιμοποιηθεί στη βιβλιογραφία σε διαγωνισμούς εντοπισμού γραφέα. Η εργασία αυτή περιλαμβάνει λεπτομερή αποτελέσματα για όλες τις παραπάνω μεθόδους τα οποία σε κάποιες περιπτώσεις ξεπερνούν το 85% (ποσοστό ορθής ταξινόμησης στη γλώσσα του χειρογράφου).Language identification for handwritten document images is a document analysis problem in which languages correspond to a set of graphical representations used to express a particular system of writing. Each language corresponds to unique features not only concerning the physical form, but also the writing style. Texture of an image is a unique feature that can be used to identify the language of a document image and can be defined as a repeating pattern of pixels in a structured way. In order to extract texture-based features, Local Binary Patterns (LBP) are used, which are simple in implementation and provide robustness to changes in the intensity values of image’s pixels. LBP characterizes image patches using binary codes which encode the relationship between the central pixel and its neighbours. On the other hand, gradient-based features, such as Scale Invariant Feature Transform (SIFT) descriptors, describe visual features on local regions of handwritings without the need for segmentation. Particularly, SIFT is a keypoints detection algorithm which detects local changes in the intensity of pixels in images. It also provides a sufficient number of keypoints for an in-depth use. In this thesis we present a system for automatic language identification in handwritten document images, without applying any segmentation step. Language identification can be viewed as a problem of classification in which each language represents a class. We encode text structures using texture, scale and rotation invariant descriptors derived from LBP and SIFT features respectively. LBP and SIFT features are used in experiments independently in order to extract the features from document images. Identification of language is accomplished by using K Nearest Neighbour (KNN), Naive Bayes Nearest-Neighbour (NBNN) and Local NBNN classifiers. Classification of test documents is based on the distance from features of training documents. The experiments for the evaluation of the system are performed on handwritten document images written in French, German, Greek and English languages and are part of a public dataset which contains 208 documents from 26 writers and has been used in several writer identification competitions. This thesis includes detailed results of all the above methods and it is demonstrated that language classification accuracy can reach a percentage of over 85%

    A theory of information processing for machine visual perception: inspiration from psychology, formal analysis and applications

    Full text link
    Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Escuela Politécnica Superior, Departamento de Ingeniería Informática. Fecha de lectura : 20-09-201
    corecore