Search CORE

7 research outputs found

Apprentissage et reconnaissance automatique de types de formulaires par une méthode statistique

Author: KEBAIRI Saddok
RAMDANE Said
TACONET Bruno
ZAHOUR Abderrazak
Publication venue: GRETSI, Groupe d’Etudes du Traitement du Signal et des Images
Publication date: 01/01/1999
Field of study

Cet article présente une méthode statistique de reconnaissance automatique des types de formulaires imprimés, comportant des champs manuscrits. Les blocs principaux rectangulaires qui définissent la structure physique du formulaire, sont fournis par un algorithme de segmentation automatique. La difficulté réside dans le fait que, pour plusieurs échantillons d'un même modèle, les blocs obtenus ne sont pas forcément stables (phénomène de fusionnement et/ou de fragmentation de blocs). Lors de la phase d'apprentissage, la probabilité d'occurrence de chaque bloc est comptabilisée. Dans la phase d'identification, nous tenons compte de cette probabilité. Une nouvelle distance, que nous avons appelée distance statistique pondérée, conçue spécialement pour résoudre ce problème d'instabilité, est inspirée de la distance de Mahalanobis, mais elle est enrichie par une pondération de pénalisation affectée à chaque bloc. La méthode a été appliquée à une base d'apprentissage, et de test d'une cinquantaine de classes, avec 20 échantillons par classe

I-Revues

Text Line Segmentation of Historical Documents: a Survey

Author: A. Amin
A. Bozzi
A. Downton
A. Jain
A. Kolcz
Abderrazak Zahour
Bruno Taconet
C.L. Tan
C.V. Lakshmi
E. Cohen
E. Oztop
G. Seni
I.-K. Kim
K. Wong
L. Likforman-Sulem
L. Likforman-Sulem
L. Likforman-Sulem
L. O’Gorman
L.A. Fletcher
Laurence Likforman-Sulem
R. Plamondon
R.D. Lins
U. Pal
V. Shapiro
Ventadert Gusnard de de
Y. Solihin
Y.H. Tseng
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 10/04/2007
Field of study

There is a huge amount of historical documents in libraries and in various National Archives that have not been exploited electronically. Although automatic reading of complete pages remains, in most cases, a long-term objective, tasks such as word spotting, text/image alignment, authentication and extraction of specific fields are in use today. For all these tasks, a major step is document segmentation into text lines. Because of the low quality and the complexity of these documents (background noise, artifacts due to aging, interfering lines),automatic text line segmentation remains an open research field. The objective of this paper is to present a survey of existing methods, developed during the last decade, and dedicated to documents of historical interest.Comment: 25 pages, submitted version, To appear in International Journal on Document Analysis and Recognition, On line version available at http://www.springerlink.com/content/k2813176280456k3

arXiv.org e-Print Archive

Crossref

A Methodology for the separation of Foreground/Background in Arabic Historical Manuscripts using Hybrid Methods

Author: Abderrazak Zahour
Adel Alimi
Wafa Boussellaa
Publication venue
Publication date: 01/01/2007
Field of study

This paper presents a new color document image segmentation system suitable for historical Arabic manuscripts. Our system is composed of a hybrid method which couple together background light intensity normalization algorithm and k-means clustering with maximum likelihood (ML) estimation, for foreground / background separation. Firstly, the background normalization algorithm performs separation between foreground and background. This foreground is used in later steps. Secondly, our algorithm proceeds on luminance and distort the contrast. These distortions are corrected with a gamma correction and contrast adjustment. Finally, the new enhanced foreground image is segmented to foreground/background on the basis of ML estimation. The initial parameters for the ML method are estimated by k-means clustering algorithm. The segmented image is used to produce a final restored document image. The techniques are tested on a set of Arabic historical manuscripts documents from the National Tunisian Library. The performance of the algorithm is demonstrated on by real color manuscripts distorted with show-through effects, uneven background color and localized spot

CiteSeerX

Crossref

ZENODO

ARPHA OAI-PMH Endpoint

ARPHA Preprints

Classification des k-ppv par sous-voisinages emboîtés

Author: Boussellaa Wafa
Ramdane Saïd
Taconet Bruno
Zahour Abderrazak
Publication venue: SDN06
Publication date: 18/09/2006
Field of study

La méthode des plus proches voisins est une méthode de classification géométrique très utilisée en reconnaissance de formes, en raison de sa simplicité et de sa robustesse. Les caractéristiques sont exploitées dans un espace métrique de représentation, généralement Rn muni de la distance euclidienne. La méthode de Keller repose sur une fonction de décision floue qui met en jeu les distances des protoypes au point inconnu. Nous proposons une nouvelle règle de décision floue dans laquelle la contribution d'un prototype ne se fait pas individuellement , mais collectivement, en considérant son sous-voisinage, selon la règle : un prototype est d'autant plus influent qu'il est plus proche du point inconnu, et qu'il existe des protoypes de la même classe plus proche que lui. Les essais de validation sont menés en comparaison notamment avec la méthode de Keller (avec initialisation nette) sur deux banques de données standard : la base des 150 iris de Fischer en auto-validation dans l'espace de représentaiont de dimension 4, et la base mnist de chiffres manuscrits composée d'une base d'apprentissage de 60 000 caractères et d'une base de test de 10 000 dans l'espace de représentation de dimension 28*28. Cependant, l'exemple de la base mnist montre que le gain reste faible, en comparaison des méthodes qui exploitent les invariances des prototypes par transformations géométriques ou par combinaison linéaire des voisins

HAL - Normandie Université

Méthode hybride de séparation Avant/arrière-plan pour la restauration des manuscrits arabes anciens couleur

Author: Alimi Adel
Benabdelhafid Abdellatif
Boussellaa Wafa
Taconet Bruno
Zahour Abderrazak
Publication venue: SDN06
Publication date: 18/09/2006
Field of study

International audienceCet article présente un système de segmentation hybride d'images de documents couleur de type manuscrits arabes anciens. La méthode consiste à coupler un algorithme de normalisation de l'intensité lumineuse de l'arrière-plan de l'image du document avec un algorithme de classification par K- moyennes pour la séparation Avant-plan/Arrière-plan. La méthode de normalisation permet une première séparation entre le fond et l'avant-plan ; seul ce dernier est exploité pour les traitements ultérieurs. Cette technique de séparation agit sur la luminance et altère le contraste. Ces déformations sont rectifiées par une correction gamma suivi d'un rehaussement du contraste. L'image d'avant-plan ainsi traitée est à nouveau segmentée en deux classes (avant-plan/arrière-plan) par l'algorithme de maximum de vraisemblance ayant comme extracteur de paramètres l'algorithme des kmoyennes. L'arrière-plan subit un lissage puis est combiné par superposition avec l'avant pour obtenir l'image restaurée du document. Notre méthode a été testée sur un échantillon de 100 images de documents extrait d'une base de 2000 manuscrits arabes anciens de la Bibliothèque Nationale Tunisienne. Elle a montré de bons résultats sur des images altérées par un effet de transparence (l'écriture du verso transparaît en filigrane au recto), par des tâches localisées et par un fond de couleur irrégulière

HAL - Normandie Université

Segmentation texte /graphique : Application au manuscrits Arabes Anciens

Author: Alimi Adel
Benabdelhafid Abdellatif
Boussellaa Wafa
Taconet Bruno
Zahour Abderrazak
Publication venue: SDN06
Publication date: 18/09/2006
Field of study

Cet article présente une nouvelle méthode de segmentation d'images de documents couleur de type manuscrits arabes anciens. La méthode développée opère directement sur la luminance. L'analyse multiéchelle permet une séparation entre le fond et l'avant plan. Des caractéristiques statistiques ont extraites de l'avant plan obtenue et sont utilisées par l'algorithme de classification c-moyen floue pour la segmentation texte/graphique de l'avant plan. Notre méthode a été testée sur 50 images de documents manuscrits rares, à structure complexe, extraits d'une base de 2000 manuscrits de la Bibliothèque Nationale Tunisienne. Les tests menés montrent des résultats satisfaisants pour la segmentation avant/arrière plan. La segmentation de l'avant plan en texte/graphique reste à améliorer

HAL - Normandie Université

Enhanced Text Extraction from Arabic Degraded Document Images using EM Algorithm

Author: Abderrazak Zahour
Adel Alimi
Aymen Bougacha
Haikal El Abed
Wafa Boussellaa
Publication venue
Publication date: 01/01/2009
Field of study

This paper presents a new enhanced text extraction algorithm from degraded document images on the basis of the probabilistic models. The observed document image is considered as a mixture of Gaussian densities which represents the foreground and background document image components. The EM algorithm is introduced in order to estimate and improve the parameters of the mixtures of densities recursively. The initial parameters of the EM algorithm are estimated by the k-means clustering method. After the parameter estimation, the document image is partitioned into text and background classes by the means of ML approach. The performance of the proposed approach is evaluated on a variety of degraded documents comes from the collections of the National library of Tunisia

CiteSeerX

Crossref