5 research outputs found
Word Image Matching Based on Hausdorff Distances
Hausdorff distance (HD) and its modifications provides
one of the best approaches for matching of binary images.
This paper proposes a formalism generalizing almost
all of these HD based methods. Numerical experiments
for searching words in binary text images are carried
out with old Bulgarian typewritten text, printed Bulgarian
Chrestomathy from 1884 and Slavonic manuscript
from 1574
Hausdorff distances for searching in binary text images
Hausdorff distance (HD) seems the most efficient instrument
for measuring how far two compact non-empty subsets of a metric space are from each other. This paper considers the possibilities provided by HD and some of its modifications used recently by many authors for resemblance between binary text images. Summarizing part of the existing word image matching methods, relied on HD, we investigate a new similar parameterized method which contains almost all of them as particular cases. Numerical experiments for searching words in binary text images are carried out with
333 pages of old Bulgarian typewritten text, 200 printed pages of Bulgarian Chrestomathy from year 1884, and 200 handwritten pages of Slavonic manuscript from year 1574. They outline how the parameters must be set in order
to use the advantages of the proposed method for the purposes of word matching in scanned document images
Αναζήτηση Λέξεων σε Εικόνες Ιστορικών Εγγράφων
Στην παρούσα διδακτορική διατριβή αναπτύχθηκαν πρωτοποριακές μέθοδοι για τον
εντοπισμό λέξεων σε ιστορικά τυπωμένα έγγραφα. Συγκεκριμένα, αναπτύχθηκαν δύο
μέθοδοι οι οποίες κάνουν χρήση κατάτμησης των εγγράφων σε επίπεδο λέξεων. Η
πρώτη μέθοδος χρησιμοποιεί ένα υβριδικό μοντέλο χαρακτηριστικών για τη σύγκριση
μεταξύ των εικόνων των λέξεων. Οι λέξεις-κλειδιά είναι συνθετικά δεδομένα τα
οποία δημιουργούνται απο εικόνες μεμονωμένων χαρακτήρων που έχουν επιλεχθεί από
τα έγγραφα. Επίσης, η μέθοδος χρησιμοποιεί μια διαδικασία ανατροφοδότησης
αποτελεσμάτων από το χρήστη με σκοπό να βελτιώσει τα τελικά αποτελέσματα. Η
δεύτερη μέθοδος που βασίζεται σε κατάτμηση εγγράφων σε επίπεδο λέξεων έρχεται
να αντιμετωπίσει το πρόβλημα της σύγκρισης συνθετικών δεδομένων με πραγματικά
δεδομένα από τα έγγραφα. Λόγω του ότι οι συνθετικές λέξεις παρουσιάζουν
διαφοροποίηση σε σχέση με τις κατετμημένες από τα έγγραφα λέξεις, αναπτύχθηκε
μία μέθοδος που χρησιμοποιεί τον αλγόριθμο Δυναμικής Στρέβλωσης Χρόνου (Dynamic
Time Warping - DTW) ώστε να απορροφήσει τις τοπικές ανωμαλίες και
διαφοροποιήσεις μεταξύ των λέξεων. Τέλος, αναπτύχθηκε μία μέθοδος η οποία δε
χρησιμοποιεί κανένα είδος κατάτμησης των εγγράφων. Οι λέξεις εντοπίζονται
απευθείας επάνω σε ολόκληρες τις εικόνες των εγγράφων. Η μέθοδος αυτή έρχεται
να ξεπεράσει το πρόβλημα που δημιουργείται σε περιπτώσεις λανθασμένης
κατάτμησης όπου επηρεάζει σημαντικά το τελικό αποτέλεσμα. Επίσης, δίνει τη
δυνατότητα μερικού εντοπισμού λέξεων όπως για παράδειγμα λέξεις οι οποίες
περιλαμβάνονται άλλες όπως συμβαίνει στις σύνθετες λέξεις. Τα αποτελέσματα των
μεθόδων είναι ικανοποιητικά και ξεπερνούν ανταγωνιστικές μεθόδους αναζήτησης
λέξεων σε ιστορικά έγγραφα.In this PhD thesis innovative methods of wordspotting on historical printed
documents are presented. In particular, two methods based on document
segmentation on word level have been developed. The first method uses a hybrid
feature scheme for word matching based on zones and projections. It also uses
a process of creating query keyword images for any word using synthetic data.
The synthetic words are created using images of individual characters taken
from the processed documents. The method also presents a process allowing user
feedback in order to improve the final results. The second method uses the
Dynamic Time Warping (DTW) algorithm for comparing word images. It assist the
transition between the synthetic data and real data comparison. Synthetic data
and real data differ and DTW allows a better alignment between the features of
the two images. Again, feedback can be applied to improve the results.
Furthermore, a method that uses no segmentation on the document images has been
also developed. The method overcomes the problem of incorrect segmentation that
affect the final results since it detects query keyword images directly on
entire document page images. It also allows for partial matching such as
detecting word that are included in larger ones. The evaluation of the
aforementioned methods showed satisfactory results presenting better
performance against competitive methods of wordspotting
A segmentation-free approach for keyword search in historical typewritten documents
In this paper, we propose a novel segmentation-free approach for keyword search in historical typewritten documents combining image preprocessing, synthetic data creation, word spotting and user's feedback technologies. Our aim is to search for keywords typed by the user in a large collection of digitized typewritten historical documents. The proposed method is based on: (i) image preprocessing for image binarization and enhancement, noisy border and frame removal, orientation and skew correction; (ii) creation of synthetic image words from keywords typed by the user; (iii) word segmentation using dynamic parameters; (iv) efficient feature extraction for each image word and (v) a retrieval procedure that is optimized by user's feedback. Experimental results prove the efficiency of the proposed approach. 1