unknown

Word-Based computer recognition of Printed text

Abstract

Computer recognition of printed text luis been traditionally based on characters : each character is first extracted and then recognized by one of varions methods. Word recognition follows where contextual information is brought in (reference dictionary, confusion matrices, syntactic and semantic context, etc.) . Our approach is based directly on the recognition of the word ; no emphasis is put on the character or on context, although these can be used. A word is represented by simple and stable features computed directly from the word (length, position of ascenders, descenders, holes, etc .) . A word is recognized by matching its characteristics against those of a reference set, a hierarchically organized dictionary . A simple preferential process may be instantiated in the case of multiple matches. Experimental results have demonstrated not only the feasibility of the approach but also its advantages, simplicity, robusteness, and efficiency in an omnifont context .La reconnaissance de texte par ordinateur s'est traditionnellement faite à partir des caractères : on isole chacun des caractères d'un mot et, par une méthode de reconnaissance quelconque, on établit l'identité de chaque caractère . Une fois la reconnaissance de toutes les lettres d'un mot achevée, une analyse contextuelle est faite (dictionnaire, matrice de confusion, etc .) . Des approches « top-down » suggèrent que la reconnaissance d'un mot peut s'établir à partir du contexte de ce mot dans la phrase. Ce contexte peut être de nature diverse : statistique, syntaxique ou sémantique. Notre approche s'insère entre les deux approches mentionnées : on ne s'attardera ni aux caractères individuels constituant un mot, ni aux relations qui existent entre les mots d'une phrase . On s'intéressera au mot lui-même, à sa forme générale, à sa « signature graphique » . Cette signature graphique est établie à partir de caractéristiques très simples prélevées directement sur le mot (position dans le mot des ascendantes, descendantes, boucles, etc .) . Chaque mot d'un dictionnaire donné est classifié selon sa signature graphique : une classe sera donc constituée de mots dont la signature graphique est identique . Pour reconnaître un mot, il s'agit donc d'extraire les caractéristiques sur le mot, de trouver dans le dictionnaire la classe à laquelle il appartient, en extraire le (ou les) mots et d'y appliquer un traitement simple pour finaliser la reconnaissance du mot. Les résultats expérimentaux nous ont permis de démontrer que la reconnaissance de texte à partir des mots est non seulement réalisable mais qu'elle comporte des avantages : entre autres, sa grande simplicité et son efficacité dans les environnements omnifontes ainsi que son habilité à fonctionner dans les environnements bruités

    Similar works