11 research outputs found

    Automated Error Detection in Digitized Cultural Heritage Documents

    Get PDF
    International audienceThe work reported in this paper aims at performance optimization in the digitization of documents pertaining to the cultural heritage domain. A hybrid method is roposed, combining statistical classification algorithms and linguistic knowledge to automatize post-OCR error detection and correction. The current paper deals with the integration of linguistic modules and their impact on error detection

    Generating a training corpus for OCR post-correction using encoder-decoder model

    Get PDF
    International audienceIn this paper we present a novel approach to the automatic correction of OCR-induced orthographic errors in a given text. While current systems depend heavily on large training corpora or exter- nal information, such as domain-specific lexicons or confidence scores from the OCR process, our system only requires a small amount of relatively clean training data from a representative corpus to learn a character-based statistical language model using Bidirectional Long Short- Term Memory Networks (biLSTMs). We demonstrate the versatility and adaptability of our system on different text corpora with varying degrees of textual noise, in- cluding a real-life OCR corpus in the med- ical domain

    Hybrid model of post-processing techniques for Arabic optical character recognition

    Get PDF
    Optical character recognition (OCR) is used to extract text contained in an image. One of the stages in OCR is the post-processing and it corrects the errors of OCR output text. The OCR multiple outputs approach consists of three processes: differentiation, alignment, and voting. Existing differentiation techniques suffer from the loss of important features as it uses N-versions of input images. On the other hand, alignment techniques in the literatures are based on approximation while the voting process is not context-aware. These drawbacks lead to a high error rate in OCR. This research proposed three improved techniques of differentiation, alignment, and voting to overcome the identified drawbacks. These techniques were later combined into a hybrid model that can recognize the optical characters in the Arabic language. Each of the proposed technique was separately evaluated against three other relevant existing techniques. The performance measurements used in this study were Word Error Rate (WER), Character Error Rate (CER), and Non-word Error Rate (NWER). Experimental results showed a relative decrease in error rate on all measurements for the evaluated techniques. Similarly, the hybrid model also obtained lower WER, CER, and NWER by 30.35%, 52.42%, and 47.86% respectively when compared to the three relevant existing models. This study contributes to the OCR domain as the proposed hybrid model of post-processing techniques could facilitate the automatic recognition of Arabic text. Hence, it will lead to a better information retrieval

    OCR Post Correction for Endangered Language Texts

    Full text link
    There is little to no data available to build natural language processing models for most endangered languages. However, textual data in these languages often exists in formats that are not machine-readable, such as paper books and scanned images. In this work, we address the task of extracting text from these resources. We create a benchmark dataset of transcriptions for scanned books in three critically endangered languages and present a systematic analysis of how general-purpose OCR tools are not robust to the data-scarce setting of endangered languages. We develop an OCR post-correction method tailored to ease training in this data-scarce setting, reducing the recognition error rate by 34% on average across the three languages.Comment: Accepted to EMNLP 202

    Automated Error Detection in Digitized Cultural Heritage Documents

    Get PDF
    International audienceThe work reported in this paper aims at performance optimization in the digitization of documents pertaining to the cultural heritage domain. A hybrid method is roposed, combining statistical classification algorithms and linguistic knowledge to automatize post-OCR error detection and correction. The current paper deals with the integration of linguistic modules and their impact on error detection

    Aplicaciones de los aut贸matas transductores finitos con pesos (WFST) en la correcci贸n simb贸lica en interfaces persona-m谩quina

    Full text link
    [EN] In this thesis a real application related to the string correction process from an OCR classifier in a form digitizing task is presented. These strings come from a classifier with a given error ratio that implies that some characters in the string have been potentially misclassified, producing erroneous words. This raises the need to introduce some kind of postprocess to improve the strings. The implementation of such postprocess takes into account all the available evidence in a given moment. In the case proposed here, these evidences are the charactersrecognized by the classifier with their posterior probabilities, the confusion matrix between symbols and the language model finally accepted. Each evidence is modelled independently by means of a WFST and then combined by means of the composition operation into a single integrated automata. From this automata, the path that maximizes the probability is selected. This path is the string, that belongs to the language model, that is the nearest string to the OCR hypothesis according to the confusion matrix. The final system offers two different results: on the one hand the corrected string, on the other hand the transformation cost produced during the string correction. Additionally, it is proposed a general method of error estimation using the input string transformation cost that establishes a threshold in terms of the cost and the proposed end-user parameter: the acceptable final error. This thesis presents a method for estimating adaptive rejection threshold estimation that allows for a certain percentage of error in a lot of strings from one language (sample) that presents several advantages. On the one hand, it is independent from transformation cost postprocessing distribution of such samples. On the other hand, it allows the user to set the threshold for a familiar and advantageous manner, as is setting the desired rate of sampling error. For this, first, and for a given language, a model that estimates the probability of error associated with the acceptation of postprocessed strings with a given transformation cost is defined. Then, the procedure that performs the rejection threshold estimation adaptively in order to achieve predefined rate error for a test batch is presented. In addition, an approach to obtain the above model is proposed when there are no real and supervised OCR hypothesis in the learning stage. The chapter is accompanied by experiments whose results demonstrate the utility of the proposed method. Next, linking in somehow with the search for an increased productivity in a possible string validation task, of previously strings rejected by the system through the foregoing error estimation method, a method of multimodal and interactive human-computer interaction that composes the above information with the prefix introduced by the user, while the validation process occurs, making use, for this, of WFST and the automata composition operation. The search for the most likely string for each new interaction offered by the user, in the composed automata, presented here, shows a clear increase in productivity by requiring fewer keystrokes in obtaining the correct string. Finally, a tolerant fault multimodal and interactive interface, using also WFST, is shown by making the composition of different information sources together with an error model related with the possible confusion caused due to the arrangement of keys on a keyboard. The application shown in this case is related to the introduction of a destination into a GPS device where is considered both the information related to the next destinations to a specific place, such as the information related to the entered prefix and errors that may occur due to the arrangement of keys on the input device considered.[ES] En esta tesis se presenta inicialmente una aplicaci贸n real de correcci贸n de cadenas procedentes de un clasificador OCR en una tarea de digitalizaci贸n de formularios. Estas cadenas, proceden de un clasificador con cierta probabilidad de error, lo que implica la posibilidad de que alguno de los caracteres pertenecientes a una palabra sea err贸neo, produciendo finalmente palabras incorrectas. Esto plantea la necesidad de introducir alg煤n tipo de postproceso que mejore dichas cadenas. Para implementar dicho postproceso, se tienen en cuenta todas las evidencias disponibles en un momento dado. En el caso propuesto aqu铆 ser谩n los caracteres reconocidos por el propio clasificador con su probabilidad a posteriori, la matriz de confusi贸n entre s铆mbolos y el modelo de lenguaje finalmente aceptado. Cada una de estas evidencias se modela de manera independiente en forma de un WFST. Una vez modeladas se fusionan mediante la operaci贸n de composici贸n de aut贸matas en un 煤nico aut贸mata integrado. A partir de este aut贸mata, se selecciona el camino que maximiza la probabilidad y que corresponde con la cadena perteneciente al lenguaje m谩s cercana a la hip贸tesis OCR seg煤n la matriz de confusi贸n entre s铆mbolos. El sistema final ofrecer谩 dos resultados diferentes: por una parte la cadena corregida y por otra el coste de transformaci贸n de dicha correcci贸n. Por otra parte, se plantea un m茅todo general de estimaci贸n del error frente a un coste de transformaci贸n de las cadenas de entrada que permite establecer un umbral din谩mico en funci贸n de dicho coste y un par谩metro propuesto por el usuario final: el error final asumible. Para ello en esta tesis se presenta un m茅todo adaptativo de estimaci贸n del umbral de rechazo que permite estimarlo para obtener un determinado porcentaje de error en un lote de cadenas de un lenguaje (muestra) que presenta diversas ventajas. Por un lado, es independiente de la distribuci贸n de los costes de transformaci贸n de dichas muestras. Por otro lado, permite al usuario establecer el umbral de una manera familiar y ventajosa, como es fijando la tasa de error deseada de la muestra. Para todo ello, en primer lugar, y para un lenguaje dado, se define un modelo que estima la probabilidad de error asociada a aceptar cadenas con un coste de transformaci贸n determinado. A continuaci贸n, se expone el procedimiento que lleva a cabo la estimaci贸n del umbral de rechazo de manera adaptativa con el objetivo de alcanzar la tasa de error predefinida para un lote de test. Adem谩s, se propone una aproximaci贸n para la obtenci贸n del modelo anterior cuando no se dispone de hip贸tesis OCR reales y supervisadas en la etapa de aprendizaje. Seguidamente y enlazando en cierta forma con la b煤squeda de un incremento de productividad en una posible validaci贸n de las cadenas, previamente rechazadas por el sistema a trav茅s del m茅todo de estimaci贸n del error anteriormente expuesto, se presenta un m茅todo de interacci贸n persona-m谩quina multimodal e interactivo que fusiona la informaci贸n anterior junto al prefijo introducido, por el propio usuario, durante dicho proceso de validaci贸n, haciendo uso para ello de los WFST y la operaci贸n de composici贸n de aut贸matas. Para finalizar, se muestra otra interfaz multimodal e interactiva tolerante a fallos, mediante la fusi贸n de diferentes fuentes de informaci贸n junto a un modelo de error relacionado con las posibles confusiones producidas debido a la disposici贸n de las teclas de un teclado. Para ello, se hace uso tambi茅n de WFST para su modelado. La aplicaci贸n mostrada en este caso est谩 relacionada con la introducci贸n de un destino en un dispositivo GPS y en ella se considera, tanto la informaci贸n de los destinos pr贸ximos a un lugar concreto, como la informaci贸n relativa al prefijo introducido y los errores que pueden aparecer debido a la propia disposici贸n de las teclas en el dispositivo de entrada.[CA] En aquesta tesi es presenta inicialment una aplicaci贸 real de correcci贸 de cadenes procedents d'un classificador OCR en una tasca de digitalitzaci贸 de formularis. Aquestes cadenes, procedeixen d'un classificador amb una determinada probabilitat d'error, la qual cosa implica la possibilitat de que algun dels car脿cters que pertanyen a una paraula siga erroni, produint finalment paraules incorrectes. Aix貌 planteja la necessitat d'introduir algun tipus de postproc茅s que millore aquestes cadenes. Per implementar aquest postproc茅s, es tenen en compte totes les evid猫ncies disponibles en un moment donat. En el cas proposat ac铆, seran els car脿cters reconeguts pel propi classificador amb la seua probabilitat a posteriori, la matriu de confusi贸 entre s铆mbols i el model de llenguatge finalment acceptat. Cadascuna d'aquestes evid猫ncies es modela de manera independent en forma d'un WFST. Una vegada modelades es fusionen mitjan莽ant l'operaci贸 de composici贸 d'aut貌mats en un 煤nic aut貌mat integrat. A partir d'aquest aut貌mat, es selecciona el cam铆 que fa m脿xima la probabilitat i que es correspon amb la cadena m茅s propera a la hip貌tesi OCR que pertany al llenguatge segons la matriu de confusi贸 entre s铆mbols. El sistema final oferir脿 dos resultats diferents: d'una banda la cadena corregida, i d'una altra, el cost de transformaci贸 d'aquesta correcci贸. D'una altra banda, es planteja un m猫tode general d'estimaci贸 de l'error front al cost de transformaci贸 de les cadenes d'entrada que permet establir un llindar din脿mic en funci贸 d'aquest cost i un par脿metre proposat per l'usuari final: l'error final assumible. Per aix貌 en aquesta tesi es presenta un m猫tode adaptatiu d'estimaci贸 de rebuig, amb la finalitat d'obtindre un determinat percentatge d'error en un lot de cadenes d'un llenguatge (mostra) que presenta diversos avantatges. D'una banda 茅s independent de la distribuci贸 dels costos de transformaci贸 de les mostres esmentades. D'altra banda, permet l'usuari establir el llindar d'una manera familiar i avantatjosa, com 茅s fixant la tasa d'error desitjada per la mostra. Per tot aix貌, en primer lloc, i donat un llenguatge, es defineix un model que estima la probabilitat d'error associada a acceptar cadenes amb un cost de transformaci贸 determinat. A continuaci贸, s'exposa el procediment que du a terme l'estimaci贸 del llindar de rebuig de manera adaptativa amb l'objectiu de arribar a la tasa d'error predefinida per a un lot de test. A m茅s a m茅s, es proposa una aproximaci贸 per a obtindre el model anterior quant no es disposa d'hip貌tesi OCR reals i supervisades a l'etapa d'aprenentatge. Seguidament, i enlla莽ant amb la recerca d'un increment en la productivitat en una possible validaci贸 de cadenes pr猫viament rebutjades pel sistema a trav茅s del m猫tode d'estimaci贸 de l'error anteriorment exposat, es presenta un m猫tode d'interacci贸 persona-m脿quina multimodal i interactiu que fusiona la informaci贸 anterior, juntament amb el prefix introdu茂t pel propi usuari durant l'esmentat proc茅s de validaci贸, fent 煤s dels WFST i l'operaci贸 de composici贸 d'aut貌mats. La recerca de la cadena m茅s probable, en cada nova interacci贸 oferida per l'usuari ens mostra un clar increment de la productivitat, al requerir un nombre menor de pulsacions de teclat per obtindre la cadena correcta. Per finalitzar, es mostra una altra interf铆cie multimodal i interactiva tolerant a errades, mitjan莽ant la fusi贸 de diferents fonts d'informaci贸 juntament a un model d'error relacionat amb les possibles confusions produ茂des a causa de la disposici贸 de les lletres d'un teclat. En aquest cas es fa 煤s tamb茅 dels WFST en el seu modelat. L'aplicaci贸 mostrada en aquest cas est脿 relacionada amb la introducci贸 d'una destinaci贸 en un dispositiu GPS i en aquesta es considera tant la informaci贸 pr貌xima a un lloc concret, com la informaci贸 relativa al prefix introdu茂t, junt als errors que poden apar猫ixer a causa de la pr貌pia disposNavarro Cerd谩n, JR. (2016). Aplicaciones de los aut贸matas transductores finitos con pesos (WFST) en la correcci贸n simb贸lica en interfaces persona-m谩quina [Tesis doctoral no publicada]. Universitat Polit猫cnica de Val猫ncia. https://doi.org/10.4995/Thesis/10251/62688TESI
    corecore