7 research outputs found

    Processing and recognition of handwritten documents

    No full text
    In this thesis we studied the processing and focused on the recognition stages for handwritten optical character recognition. At the recognition stage a feature vector is extracted for all extracted characters in order to classify them to predefined classes using machine learning techniques. We studied several feature extraction techniques and developed methodologies that efficiently combine different types of features. Furthermore, a methodology that extracts features and classifies characters using a hierarchical scheme is proposed. This methodology, after being tested on well-known character databases, as well as on databases consisting of characters from historical documents and a database consisting of Greek contemporary handwritten characters, that were particularly created in this thesis, achieved recognition rates that are among the best one can find in the literature. This methodology was also applied to handwritten digits and cursive handwritten words. The recognition rates in these experiments were also very high. Moreover, an algorithm that automatically estimates the free parameters involved in character segmentation is also suggested. Character segmentation is very important because its result affects directly the recognition rates. Thus, the optimal segmentation is essential for a successful recognition. Finally, a complete Optical Character Recognition (OCR) tool that integrates all the above stages in order to assist the recognition of either contemporary or historical documents with, neither a priori knowledge of the language or the fonts nor the existence of a standard database was developed. This tool enables the user to create his own character database, thus converting document images to ASCII formatΣε αυτή τη διατριβή μελετήσαμε τα στάδια επεξεργασίας και κυρίως της αναγνώρισης χειρόγραφων κειμένων. Στο στάδιο της αναγνώρισης γίνεται η εξαγωγή χαρακτηριστικών (διάνυσμα χαρακτηριστικών) για τους χαρακτήρες που έχουν εξαχθεί και η ταξινόμησή τους σε προκαθορισμένες κλάσεις, με χρήση τεχνικών μηχανικής μάθησης. Πιο συγκεκριμένα, μελετήθηκαν αλγόριθμοι εξαγωγής χαρακτηριστικών και αναπτύχθηκαν καινούργιες μεθοδολογίες που στηρίζονται στον κατάλληλο συνδυασμό διαφόρων τύπων χαρακτηριστικών. Παράλληλα, αναπτύχθηκε και μια πρωτότυπη μεθοδολογία που βασίζεται στην ιεραρχική εξαγωγή χαρακτηριστικών και ταξινόμησης των εικόνων χαρακτήρα. Η μεθοδολογία αυτή, μετά από πειράματα με γνωστές βάσεις χαρακτήρων, αλλά και σε βάσεις χαρακτήρων που προέρχονται από ιστορικά κείμενα και σε μια βάση σύγχρονων ελληνικών χειρογράφων χαρακτήρων που δημιουργήθηκαν στα πλαίσια αυτής της διατριβής, αποδείχτηκε αρκετά αποτελεσματική και συγκαταλέγεται ανάμεσα στις καλύτερες που υπάρχουν σήμερα στη βιβλιογραφία. Η εφαρμογή της σε χειρόγραφα ψηφία, χειρόγραφες λέξεις έδωσε εξίσου υψηλά ποσοστά αναγνώρισης. Επιπλέον, αναπτύχθηκε και ένας αλγόριθμος με σκοπό την αυτόματη εκτίμηση των παραμέτρων που χρησιμοποιούνται στην κατάτμηση χαρακτήρων. Η κατάτμηση είναι αρκετά σημαντική, αφού επηρεάζει άμεσα το ποσοστό της τελικής αναγνώρισης. Όποτε, η βέλτιστη κατάτμηση είναι απαραίτητη για την επιτυχή αναγνώριση. Τέλος, δημιουργήθηκε ένα εργαλείο αναγνώρισης ιστορικών εγγράφων που ενσωματώνει τις περισσότερες από τις παραπάνω μεθοδολογίες. Το εργαλείο αυτό προσαρμόζεται εύκολα στον τύπο βιβλίου που ο χρήστης επεξεργάζεται, χωρίς εκ των προτέρων γνώση της γλώσσας ή ακόμα και του τύπου της γραμματοσειράς. Του παρέχει την δυνατότητα να δημιουργήσει, σχετικά εύκολα, τη δική του βάση, από ένα μικρό δείγμα εικόνων κειμένου, η οποία μετέπειτα χρησιμοποιείται για την αναγνώριση ολόκληρου του βιβλίο
    corecore