Computer recognition of printed text luis been traditionally based on
characters : each character is first extracted and then recognized by one of
varions methods. Word recognition follows where contextual information
is brought in (reference dictionary, confusion matrices, syntactic and
semantic context, etc.) . Our approach is based directly on the recognition
of the word ; no emphasis is put on the character or on context, although
these can be used. A word is represented by simple and stable features
computed directly from the word (length, position of ascenders, descenders,
holes, etc .) . A word is recognized by matching its characteristics against those of a reference set, a hierarchically organized dictionary . A
simple preferential process may be instantiated in the case of multiple
matches. Experimental results have demonstrated not only the feasibility of
the approach but also its advantages, simplicity, robusteness, and efficiency
in an omnifont context .La reconnaissance de texte par ordinateur s'est traditionnellement faite à
partir des caractères : on isole chacun des caractères d'un mot et, par une
méthode de reconnaissance quelconque, on établit l'identité de chaque
caractère . Une fois la reconnaissance de toutes les lettres d'un mot
achevée, une analyse contextuelle est faite (dictionnaire, matrice de
confusion, etc .) . Des approches « top-down » suggèrent que la reconnaissance
d'un mot peut s'établir à partir du contexte de ce mot dans la
phrase. Ce contexte peut être de nature diverse : statistique, syntaxique
ou sémantique.
Notre approche s'insère entre les deux approches mentionnées : on ne
s'attardera ni aux caractères individuels constituant un mot, ni aux
relations qui existent entre les mots d'une phrase . On s'intéressera au
mot lui-même, à sa forme générale, à sa « signature graphique » . Cette
signature graphique est établie à partir de caractéristiques très simples
prélevées directement sur le mot (position dans le mot des ascendantes,
descendantes, boucles, etc .) . Chaque mot d'un dictionnaire donné est classifié selon sa signature graphique : une classe sera donc constituée de
mots dont la signature graphique est identique . Pour reconnaître un mot,
il s'agit donc d'extraire les caractéristiques sur le mot, de trouver dans le
dictionnaire la classe à laquelle il appartient, en extraire le (ou les) mots
et d'y appliquer un traitement simple pour finaliser la reconnaissance du
mot.
Les résultats expérimentaux nous ont permis de démontrer que la
reconnaissance de texte à partir des mots est non seulement réalisable
mais qu'elle comporte des avantages : entre autres, sa grande simplicité
et son efficacité dans les environnements omnifontes ainsi que son
habilité à fonctionner dans les environnements bruités