34 research outputs found

    Automatic Document Image Binarization using Bayesian Optimization

    Full text link
    Document image binarization is often a challenging task due to various forms of degradation. Although there exist several binarization techniques in literature, the binarized image is typically sensitive to control parameter settings of the employed technique. This paper presents an automatic document image binarization algorithm to segment the text from heavily degraded document images. The proposed technique uses a two band-pass filtering approach for background noise removal, and Bayesian optimization for automatic hyperparameter selection for optimal results. The effectiveness of the proposed binarization technique is empirically demonstrated on the Document Image Binarization Competition (DIBCO) and the Handwritten Document Image Binarization Competition (H-DIBCO) datasets

    Document image binarization

    No full text
    Document image processing concerns the analysis and recognition of the text and it consists of several stages. Principal stage of the whole procedure is the binarization or thresholding stage, according to which the pixels are classified into text and background. It is a crucial stage that can affect further stages including the final character recognition stage. This thesis is focused on document image binarization, including both binarization techniques and evaluation methodologies. Particular focus was given to historical documents because of their difficulty that originates from the various degradations. Specifically, a performance evaluation methodology was developed that makes use of the skeleton of the characters at both the semi-automatic ground truth construction stage and the evaluation stage. Afterwards, the aforementioned methodology was improved and the ground truth images were more reliable containing lower subjectivity degree, while several different evaluation measures were studied during the development of the new measures. The new measures are based on (a) weights that start from the ground truth contour and (b) the local stroke width to limit the weights close to the character areas and to properly normalize those weights. Experimental results prove the validity and effectiveness of the new measures for document images, while other measures concern the image or signal processing area in general. As far as the binarization techniques are concerned, a new technique was developed as an improvement of an existing technique. The improvements offer better results for documents with fonts of various sizes and better faint character detection. To further enhance the quality of binarization and be more robust against different types of degradations, a new binarization technique was developed that was based on background estimation and on the combination of selected global and local binarization techniques. This technique was focused on handwritten documents and the experimental results show high performance for documents with various degradations such as faint characters, bleed-through and non-uniform background. Moreover, the aforementioned technique can be modified to be used on machine-printed documents with very promising results. Additionally, a binarization technique was developed for the binarization of the text areas captured from video content. This technique is based on an existing well-known binarization technique and sets low and high values in its global parameter for the inside and outside area of the text. Initially, the definition of the text areas is based on the baselines of the text and at the final stage the text areas are better defined by the convex hulls of neighboring textual components. Furthermore, through the document image binarization contests that we organized, a publicly available benchmark was created that aids in the development of document image binarization techniques and evaluation methodologies.Η ανάλυση και οπτική αναγνώριση του κειμένου των ψηφιακών εγγράφων αποτελείται από μια πληθώρα σταδίων. Πρωταρχικό στάδιο της συνολικής αυτής διαδικασίας είναι η δυαδική μετατροπή ή κατωφλίωση, σύμφωνα με την οποία τα εικονοστοιχεία της εικόνας διαχωρίζονται σε κείμενο και υπόβαθρο. Αποτελεί σημαντικό στάδιο που δύναται να επηρεάσει τόσο τα μετέπειτα στάδια επεξεργασίας όσο και το τελικό στάδιο της αναγνώρισης των χαρακτήρων. Η παρούσα διδακτορική διατριβή πραγματεύεται τόσο τεχνικές δυαδικής μετατροπής όσο και μεθοδολογίες αξιολόγησης των τεχνικών αυτών. Κύρια βαρύτητα δόθηκε σε εικόνες που προέρχονται από ιστορικά κείμενα λόγω της αυξημένης ποσότητας θορύβου που περιέχουν. Συγκεκριμένα, αναπτύχθηκε μια μέθοδος αξιολόγησης των τεχνικών δυαδικής μετατροπής που βασίζεται στη χρήση του σκελετού των χαρακτήρων. Ο σκελετός χρησιμοποιείται για την ημιαυτόματη δημιουργία των πρότυπων εικόνων σύγκρισης και συμμετέχει στην τελική αξιολόγηση του δυαδικού αποτελέσματος. Στη συνέχεια, βελτιώθηκε η προαναφερθείσα μέθοδος επιτρέποντας τη δημιουργία πιο αξιόπιστων πρότυπων εικόνων σύγκρισης χάρη στο μειωμένο βαθμό υποκειμενικότητάς τους και στο πλαίσιο ανάπτυξης νέων μετρικών μελετήθηκαν διάφορες μετρικές αξιολόγησης. Οι νέες προτεινόμενες μετρικές χρησιμοποιούν (α) βάρη που ξεκινούν από το περίγραμμα των χαρακτήρων και (β) το τοπικό πλάτος των χαρακτήρων για την κανονικοποίηση και τον περιορισμό των βαρών γύρω από τους χαρακτήρες. Τα αποτελέσματα αναδεικνύουν τις νέες μετρικές ως πλέον κατάλληλες για την αποτίμηση της δυαδικής μετατροπής εικόνων κειμένου, σε σύγκριση με άλλες μετρικές που αφορούν την επεξεργασία εικόνας και σήματος γενικότερα. Όσον αφορά στις τεχνικές δυαδικής μετατροπής, αρχικά έγιναν βελτιώσεις σε μια υπάρχουσα τεχνική, ώστε να έχει καλύτερα αποτελέσματα σε εικόνες με αχνούς χαρακτήρες και χαρακτήρες ποικίλου μεγέθους. Κατόπιν, αναπτύχθηκε μια νέα τεχνική δυαδικοποίησης με σκοπό την αντιμετώπιση μεγαλύτερης ποικιλίας θορύβου. Τα κυριότερα στάδια αυτής της τεχνικής είναι η εκτίμηση του υποβάθρου και ο συνδυασμός επιλεγμένων τεχνικών καθολικής και τοπικής κατωφλίωσης. Η εν λόγω τεχνική αναπτύχθηκε για χειρόγραφα κείμενα και ανταπεξέρχεται με μεγάλη επιτυχία σε διάφορα είδη θορύβου, όπως είναι οι χαρακτήρες της πίσω σελίδας, το ανομοιόμορφο υπόβαθρο και οι αχνοί χαρακτήρες· μάλιστα, έπειτα από κατάλληλη τροποποίηση αποδίδει εξίσου καλά και σε εικόνες τυπωμένου κειμένου. Τέλος, αναπτύχθηκε μια τεχνική δυαδικής μετατροπής για περιοχές κειμένου όπως αυτές εντοπίζονται έπειτα από κατάλληλη επεξεργασία εικόνων από βίντεο. Η τεχνική αυτή βασίζεται στη βαθμιαία οριοθέτηση της περιοχής του κειμένου. Στο αρχικό στάδιο η οριοθέτηση βασίζεται στις γραμμές αναφοράς που αντιστοιχούν στις γραμμές του κειμένου ενώ στο τελικό στάδιο βασίζεται στα κυρτά κελύφη γειτονικών χαρακτήρων. Σε κάθε στάδιο χρησιμοποιείται η ίδια τεχνική δυαδικοποίησης με διαφορετική παραμετροποίηση για τις εντός και εκτός περιοχές κειμένου. Επίσης, μέσω της εκ μέρους μας διοργάνωσης διεθνών διαγωνισμών δυαδικοποίησης, δημιουργήσαμε μια βάση αναφοράς όπου ερευνητικές ομάδες μπορούν ελεύθερα να χρησιμοποιούν και να εξελίσσουν τις μεθόδους του

    Performance evaluation methodology for historical document image binarization

    No full text
    Document image binarization is of great importance in the document image analysis and recognition pipeline since it affects further stages of the recognition process. The evaluation of a binarization method aids in studying its algorithmic behavior, as well as verifying its effectiveness, by providing qualitative and quantitative indication of its performance. This paper addresses a pixel-based binarization evaluation methodology for historical handwritten/machine-printed document images. In the proposed evaluation scheme, the recall and precision evaluation measures are properly modified using a weighting scheme that diminishes any potential evaluation bias. Additional performance metrics of the proposed evaluation scheme consist of the percentage rates of broken and missed text, false alarms, background noise, character enlargement, and merging. Several experiments conducted in comparison with other pixel-based evaluation measures demonstrate the validity of the proposed evaluation scheme. © 1992-2012 IEEE

    Binarization of Textual Content in Video Frames

    No full text
    In this paper we present a binarization technique for textual content in video frames which can be applied in the resulting image of the text detection step aiming in an improved OCR performance. The proposed technique is based on the detection of the text baselines in order to define the main body of the text. The main body of the text is used to detect the stroke width of the characters which will address the two consecutive locally adaptive binarization steps that follow. At the first step, we use different valuation in parameters for the inside and outside area of the main body of the text. To include the thinned or broken binarized parts that may exist outside the main text body, convex hull analysis is performed so that the entire text body is considered. At the second step, binarization is performed with different valuation in parameters for the inside and outside area of the entire text body. The effectiveness of the proposed technique is demonstrated by both qualitative and OCR-based evaluation

    ICDAR 2011 Document Image Binarization Contest (DIBCO 2011)

    No full text
    DIBCO 2011 is the International Document Image Binarization Contest organized in the context of ICDAR 2011 conference. The general objective of the contest is to identify current advances in document image binarization for both machine-printed and handwritten document images using evaluation performance measures that conform to document image analysis and recognition. This paper describes the contest details including the evaluation measures used as well as the performance of the 18 submitted methods along with a short description of each method

    An Objective Evaluation Methodology for Document Image Binarization Techniques

    No full text
    Evaluation of document image binarization techniques is a tedious task that is mainly performed by a human expert or by involving an OCR engine. This paper presents an objective evaluation methodology for document image binarization techniques that aims to reduce the human involvement in the ground truth construction and consecutive testing. A skeletonized ground truth image is produced by the user following a semi-automatic procedure. The estimated ground truth image can aid in evaluating the binarization result in terms of recall and precision as well as to further analyze the result by calculating broken and missing text, deformations and false alarms. A detailed description of the methodology along with a benchmarking of the six (6) most promising state-of-the-art binarization algorithms based on the proposed methodology is presented
    corecore