11 research outputs found

    Handwritten Script Recognition using DCT, Gabor Filter and Wavelet Features at Line Level

    Get PDF
    In a country like India where more number of scripts are in use, automatic identification of printed and handwritten script facilitates many important applications including sorting of document images and searching online archives of document images. In this paper, a multiple feature based approach is presented to identify the script type of the collection of handwritten documents. Eight popular Indian scripts are considered here. Features are extracted using Gabor filters, Discrete Cosine Transform, and Wavelets of Daubechies family. Experiments are performed to test the recognition accuracy of the proposed system at line level for bilingual scripts and later extended to trilingual scripts. We have obtained 100% recognition accuracy for bi-scripts at line level. The classification is done using k-nearest neighbour classifier

    Identification of connection in spacecraft images and classifying them for Weather Monitoring

    Full text link

    Writer Identification for chinese handwriting

    Get PDF
    Abstract Chinese handwriting identification has become a hot research in pattern recognition and image processing. In this paper, we present overview of relevant papers from the previous related studies until to the recent publications regarding to the Chinese Handwriting Identification. The strength, weaknesses, accurateness and comparison of well known approaches are reviewed, summarized and documented. This paper provides broad spectrum of pattern recognition technology in assisting writer identification tasks, which are at the forefront of forensic and biometrics based on identification application

    Αναγνώριση Γλώσσας Χειρόγραφων Εγγράφων με Χρήση LBP και SIFT Χαρακτηριστικών

    Get PDF
    Η αναγνώριση γλώσσας εικόνων χειρόγραφων εγγράφων είναι ένα πρόβλημα ανάλυσης εγγράφων στο οποίο οι γλώσσες αντιστοιχούν σε ένα σύνολο γραφικών αναπαραστάσεων που χρησιμοποιούνται για να εκφράσουν ένα συγκεκριμένο σύστημα γραφής. Κάθε γλώσσα έχει τα δικά της χαρακτηριστικά όχι μόνο αναφορικά με τη φυσική της μορφή, αλλά και με το στυλ γραφής της. Η υφή μιας εικόνας είναι ένα μοναδικό χαρακτηριστικό, το οποίο μπορεί να χρησιμοποιηθεί για την αναγνώριση της γλώσσας μιας εικόνας εγγράφου και μπορεί να οριστεί ως ένα επαναλαμβανόμενο μοτίβο από εικονοστοιχεία (pixels) με δομημένο τρόπο. Προκειμένου να εξαχθούν χαρακτηριστικά βασισμένα στην υφή, χρησιμοποιούνται τα Τοπικά Δυαδικά Πρότυπα (Local Binary Patterns - LBP), που είναι απλά στην εφαρμογή τους και δεν επηρεάζονται από αλλαγές στις τιμές έντασης των εικονοστοιχείων μιας εικόνας. Τα LBP χαρακτηρίζουν τμήματα της εικόνας χρησιμοποιώντας δυαδικούς κώδικες, οι οποίοι κωδικοποιούν τη σχέση μεταξύ του κεντρικού εικονοστοιχείου και των γειτόνων του. Από την άλλη πλευρά, τα χαρακτηριστικά που είναι βασισμένα στην κλίση, όπως είναι οι περιγραφείς του Μετασχηματισμού Χαρακτηριστικών Αμετάβλητης Κλίμακας (Scale Invariant Feature Transform - SIFT), περιγράφουν οπτικά χαρακτηριστικά σε τοπικές περιοχές των χειρογράφων χωρίς να απαιτείται τμηματοποίηση. Συγκεκριμένα, ο SIFT είναι ένας αλγόριθμος ανίχνευσης σημείων κλειδιών (keypoints) που εντοπίζει τοπικές αλλαγές στην ένταση των εικονοστοιχείων των εικόνων. Παρέχει επίσης έναν επαρκή αριθμό σημείων κλειδιών για λεπτομερή χρήση. Στην παρούσα εργασία παρουσιάζουμε ένα σύστημα αυτόματης αναγνώρισης γλώσσας σε εικόνες χειρόγραφων εγγράφων χωρίς την εφαρμογή τμηματοποίησης. Η αναγνώριση της γλώσσας μπορεί να θεωρηθεί ως ένα πρόβλημα ταξινόμησης στο οποίο κάθε γλώσσα αντιπροσωπεύει μια κλάση. Κωδικοποιούμε τις δομές του κειμένου χρησιμοποιώντας περιγραφείς υφής ή περιγραφείς αμετάβλητης κλίμακας και περιστροφής, που προέρχονται από τα LBP και τα SIFT χαρακτηριστικά αντίστοιχα. Τα LBP και SIFT χαρακτηριστικά χρησιμοποιούνται ανεξάρτητα σε πειράματα, ώστε να εξαχθούν τα χαρακτηριστικά από τις εικόνες των εγγράφων. Η αναγνώριση της γλώσσας επιτυγχάνεται με τη χρήση των ταξινομητών Κ Πλησιέστερου Γείτονα (K Nearest Neighbour - KNN), Naive Bayes Nearest Neighbour (NBNN) και Local NBNN. Η ταξινόμηση των άγνωστων εγγράφων σε μια συγκεκριμένη γλώσσα βασίζεται στη σύγκριση με τα χαρακτηριστικά των εγγράφων του συνόλου αναφοράς. Τα πειράματα για την αξιολόγηση του συστήματος εκτελούνται σε εικόνες χειρόγραφων εγγράφων γραμμένες στη γαλλική, γερμανική, ελληνική και αγγλική γλώσσα οι οποίες είναι μέρος μιας δημόσιας βάσης δεδομένων που περιέχει 208 έγγραφα από 26 γραφείς και έχουν χρησιμοποιηθεί στη βιβλιογραφία σε διαγωνισμούς εντοπισμού γραφέα. Η εργασία αυτή περιλαμβάνει λεπτομερή αποτελέσματα για όλες τις παραπάνω μεθόδους τα οποία σε κάποιες περιπτώσεις ξεπερνούν το 85% (ποσοστό ορθής ταξινόμησης στη γλώσσα του χειρογράφου).Language identification for handwritten document images is a document analysis problem in which languages correspond to a set of graphical representations used to express a particular system of writing. Each language corresponds to unique features not only concerning the physical form, but also the writing style. Texture of an image is a unique feature that can be used to identify the language of a document image and can be defined as a repeating pattern of pixels in a structured way. In order to extract texture-based features, Local Binary Patterns (LBP) are used, which are simple in implementation and provide robustness to changes in the intensity values of image’s pixels. LBP characterizes image patches using binary codes which encode the relationship between the central pixel and its neighbours. On the other hand, gradient-based features, such as Scale Invariant Feature Transform (SIFT) descriptors, describe visual features on local regions of handwritings without the need for segmentation. Particularly, SIFT is a keypoints detection algorithm which detects local changes in the intensity of pixels in images. It also provides a sufficient number of keypoints for an in-depth use. In this thesis we present a system for automatic language identification in handwritten document images, without applying any segmentation step. Language identification can be viewed as a problem of classification in which each language represents a class. We encode text structures using texture, scale and rotation invariant descriptors derived from LBP and SIFT features respectively. LBP and SIFT features are used in experiments independently in order to extract the features from document images. Identification of language is accomplished by using K Nearest Neighbour (KNN), Naive Bayes Nearest-Neighbour (NBNN) and Local NBNN classifiers. Classification of test documents is based on the distance from features of training documents. The experiments for the evaluation of the system are performed on handwritten document images written in French, German, Greek and English languages and are part of a public dataset which contains 208 documents from 26 writers and has been used in several writer identification competitions. This thesis includes detailed results of all the above methods and it is demonstrated that language classification accuracy can reach a percentage of over 85%

    Automatic handwriter identification using advanced machine learning

    Get PDF
    Handwriter identification a challenging problem especially for forensic investigation. This topic has received significant attention from the research community and several handwriter identification systems were developed for various applications including forensic science, document analysis and investigation of the historical documents. This work is part of an investigation to develop new tools and methods for Arabic palaeography, which is is the study of handwritten material, particularly ancient manuscripts with missing writers, dates, and/or places. In particular, the main aim of this research project is to investigate and develop new techniques and algorithms for the classification and analysis of ancient handwritten documents to support palaeographic studies. Three contributions were proposed in this research. The first is concerned with the development of a text line extraction algorithm on colour and greyscale historical manuscripts. The idea uses a modified bilateral filtering approach to adaptively smooth the images while still preserving the edges through a nonlinear combination of neighboring image values. The proposed algorithm aims to compute a median and a separating seam and has been validated to deal with both greyscale and colour historical documents using different datasets. The results obtained suggest that our proposed technique yields attractive results when compared against a few similar algorithms. The second contribution proposes to deploy a combination of Oriented Basic Image features and the concept of graphemes codebook in order to improve the recognition performances. The proposed algorithm is capable to effectively extract the most distinguishing handwriter’s patterns. The idea consists of judiciously combining a multiscale feature extraction with the concept of grapheme to allow for the extraction of several discriminating features such as handwriting curvature, direction, wrinkliness and various edge-based features. The technique was validated for identifying handwriters using both Arabic and English writings captured as scanned images using the IAM dataset for English handwriting and ICFHR 2012 dataset for Arabic handwriting. The results obtained clearly demonstrate the effectiveness of the proposed method when compared against some similar techniques. The third contribution is concerned with an offline handwriter identification approach based on the convolutional neural network technology. At the first stage, the Alex-Net architecture was employed to learn image features (handwritten scripts) and the features obtained from the fully connected layers of the model. Then, a Support vector machine classifier is deployed to classify the writing styles of the various handwriters. In this way, the test scripts can be classified by the CNN training model for further classification. The proposed approach was evaluated based on Arabic Historical datasets; Islamic Heritage Project (IHP) and Qatar National Library (QNL). The obtained results demonstrated that the proposed model achieved superior performances when compared to some similar method

    Writer Identification of Arabic Handwritten Documents

    Get PDF

    Writer Identification of Arabic Handwritten Documents

    Get PDF

    Script and language identification for handwritten document images

    No full text
    corecore