5 research outputs found

    Word Image Matching Based on Hausdorff Distances

    Get PDF
    Hausdorff distance (HD) and its modifications provides one of the best approaches for matching of binary images. This paper proposes a formalism generalizing almost all of these HD based methods. Numerical experiments for searching words in binary text images are carried out with old Bulgarian typewritten text, printed Bulgarian Chrestomathy from 1884 and Slavonic manuscript from 1574

    Hausdorff distances for searching in binary text images

    Get PDF
    Hausdorff distance (HD) seems the most efficient instrument for measuring how far two compact non-empty subsets of a metric space are from each other. This paper considers the possibilities provided by HD and some of its modifications used recently by many authors for resemblance between binary text images. Summarizing part of the existing word image matching methods, relied on HD, we investigate a new similar parameterized method which contains almost all of them as particular cases. Numerical experiments for searching words in binary text images are carried out with 333 pages of old Bulgarian typewritten text, 200 printed pages of Bulgarian Chrestomathy from year 1884, and 200 handwritten pages of Slavonic manuscript from year 1574. They outline how the parameters must be set in order to use the advantages of the proposed method for the purposes of word matching in scanned document images

    Αναζήτηση Λέξεων σε Εικόνες Ιστορικών Εγγράφων

    Get PDF
    Στην παρούσα διδακτορική διατριβή αναπτύχθηκαν πρωτοποριακές μέθοδοι για τον εντοπισμό λέξεων σε ιστορικά τυπωμένα έγγραφα. Συγκεκριμένα, αναπτύχθηκαν δύο μέθοδοι οι οποίες κάνουν χρήση κατάτμησης των εγγράφων σε επίπεδο λέξεων. Η πρώτη μέθοδος χρησιμοποιεί ένα υβριδικό μοντέλο χαρακτηριστικών για τη σύγκριση μεταξύ των εικόνων των λέξεων. Οι λέξεις-κλειδιά είναι συνθετικά δεδομένα τα οποία δημιουργούνται απο εικόνες μεμονωμένων χαρακτήρων που έχουν επιλεχθεί από τα έγγραφα. Επίσης, η μέθοδος χρησιμοποιεί μια διαδικασία ανατροφοδότησης αποτελεσμάτων από το χρήστη με σκοπό να βελτιώσει τα τελικά αποτελέσματα. Η δεύτερη μέθοδος που βασίζεται σε κατάτμηση εγγράφων σε επίπεδο λέξεων έρχεται να αντιμετωπίσει το πρόβλημα της σύγκρισης συνθετικών δεδομένων με πραγματικά δεδομένα από τα έγγραφα. Λόγω του ότι οι συνθετικές λέξεις παρουσιάζουν διαφοροποίηση σε σχέση με τις κατετμημένες από τα έγγραφα λέξεις, αναπτύχθηκε μία μέθοδος που χρησιμοποιεί τον αλγόριθμο Δυναμικής Στρέβλωσης Χρόνου (Dynamic Time Warping - DTW) ώστε να απορροφήσει τις τοπικές ανωμαλίες και διαφοροποιήσεις μεταξύ των λέξεων. Τέλος, αναπτύχθηκε μία μέθοδος η οποία δε χρησιμοποιεί κανένα είδος κατάτμησης των εγγράφων. Οι λέξεις εντοπίζονται απευθείας επάνω σε ολόκληρες τις εικόνες των εγγράφων. Η μέθοδος αυτή έρχεται να ξεπεράσει το πρόβλημα που δημιουργείται σε περιπτώσεις λανθασμένης κατάτμησης όπου επηρεάζει σημαντικά το τελικό αποτέλεσμα. Επίσης, δίνει τη δυνατότητα μερικού εντοπισμού λέξεων όπως για παράδειγμα λέξεις οι οποίες περιλαμβάνονται άλλες όπως συμβαίνει στις σύνθετες λέξεις. Τα αποτελέσματα των μεθόδων είναι ικανοποιητικά και ξεπερνούν ανταγωνιστικές μεθόδους αναζήτησης λέξεων σε ιστορικά έγγραφα.In this PhD thesis innovative methods of wordspotting on historical printed documents are presented. In particular, two methods based on document segmentation on word level have been developed. The first method uses a hybrid feature scheme for word matching based on zones and projections. It also uses a process of creating query keyword images for any word using synthetic data. The synthetic words are created using images of individual characters taken from the processed documents. The method also presents a process allowing user feedback in order to improve the final results. The second method uses the Dynamic Time Warping (DTW) algorithm for comparing word images. It assist the transition between the synthetic data and real data comparison. Synthetic data and real data differ and DTW allows a better alignment between the features of the two images. Again, feedback can be applied to improve the results. Furthermore, a method that uses no segmentation on the document images has been also developed. The method overcomes the problem of incorrect segmentation that affect the final results since it detects query keyword images directly on entire document page images. It also allows for partial matching such as detecting word that are included in larger ones. The evaluation of the aforementioned methods showed satisfactory results presenting better performance against competitive methods of wordspotting

    A segmentation-free approach for keyword search in historical typewritten documents

    No full text
    In this paper, we propose a novel segmentation-free approach for keyword search in historical typewritten documents combining image preprocessing, synthetic data creation, word spotting and user's feedback technologies. Our aim is to search for keywords typed by the user in a large collection of digitized typewritten historical documents. The proposed method is based on: (i) image preprocessing for image binarization and enhancement, noisy border and frame removal, orientation and skew correction; (ii) creation of synthetic image words from keywords typed by the user; (iii) word segmentation using dynamic parameters; (iv) efficient feature extraction for each image word and (v) a retrieval procedure that is optimized by user's feedback. Experimental results prove the efficiency of the proposed approach. 1
    corecore