3 research outputs found

    Optical Character Recognition of Printed Persian/Arabic Documents

    Get PDF
    Texts are an important representation of language. Due to the volume of texts generated and the historical value of some documents, it is imperative to use computers to read generated texts, and make them editable and searchable. This task, however, is not trivial. Recreating human perception capabilities in artificial systems like documents is one of the major goals of pattern recognition research. After decades of research and improvements in computing capabilities, humans\u27 ability to read typed or handwritten text is hardly matched by machine intelligence. Although, classical applications of Optical Character Recognition (OCR) like reading machine-printed addresses in a mail sorting machine is considered solved, more complex scripts or handwritten texts push the limits of the existing technology. Moreover, many of the existing OCR systems are language dependent. Therefore, improvements in OCR technologies have been uneven across different languages. Especially, for Persian, there has been limited research. Despite the need to process many Persian historical documents or use of OCR in variety of applications, few Persian OCR systems work with good recognition rate. Consequently, the task of automatically reading Persian typed documents with close-to-human performance is still an open problem and the main focus of this dissertation. In this dissertation, after a literature survey of the existing technology, we propose new techniques in the two important preprocessing steps in any OCR system: Skew detection and Page segmentation. Then, rather than the usual practice of character segmentation, we propose segmentation of Persian documents into sub-words. The choice of sub-word segmentation is to avoid the challenges of segmenting highly cursive Persian texts to isolated characters. For feature extraction, we will propose a hybrid scheme between three commonly used methods and finally use a nonparametric classification method. A large number of papers and patents advertise recognition rates near 100%. Such claims give the impression that automation problems seem to have been solved. Although OCR is widely used, its accuracy today is still far from a child\u27s reading skills. Failure of some real applications show that performance problems still exist on composite and degraded documents and that there is still room for progress

    Metodología para la caracterización de la apitoxina desde imágenes de electroforesis bidimensional en gel usando descriptores espaciales

    Get PDF
    La electroforesis bidimensional, una de las técnicas más empleadas para el análisis proteómico, permite separar cientos o miles de proteínas en un único gel, mostrando un patrón característico. En el análisis de estas imágenes es muy importante una correcta detección de las proteínas, ya que cualquier error en esta etapa puede llevar a la detección de falsas proteínas, o a obviar proteínas importantes, pero de baja abundancia, lo cual afectaría los resultados del análisis. Técnicas de segmentación son empleadas para separar las proteínas del fondo y encontrar anomalías. Los métodos empleados para la segmentación de imágenes de electroforesis bidimensional en gel (2DGE) se pueden clasificar como: métodos basados en detección de bordes, métodos morfológicos, umbralización, multiumbralización y métodos basados en regiones. Adicional a la detección de proteínas en imágenes 2DGE, en muchos estudios proteómicos se hace necesario la fusión o registro de imágenes para la identificación y comparación de patrones de varias muestras diferentes. Para este proceso de fusión se pueden usar las imágenes originales o los resultados de la segmentación. A pesar de los avances significativos en el campo de procesamiento de imágenes de 2DGE, no se encuentran en la literatura métodos completamente automatizados. Las herramientas comerciales disponibles para el análisis y procesamiento de imágenes 2DGE requieren que el usuario seleccione adecuadamente ciertos parámetros, de los cuales dependen los resultados arrojados por el software. Este proyecto propone una metodología de procesamiento de imágenes 2DGE que incluye la fase de segmentación y fusión. Se realiza una comparación de técnicas de segmentación usando 24 imágenes 2DGE obtenidas del veneno de apitoxina. A partir de esta comparación, los mejores resultados fueron obtenidos con la técnica de multiumbralización automática en 16 y 8 ventanas. Por su parte, la fusión de imágenes se obtiene con base en el promedio de valores de pixeles relacionados en cada par de imágenes comparadas. A partir de la metodología propuesta se logró caracterizar la apitoxina para abejas de interior y exterior, con una identificación automática de 79 de las 115 proteínas conocidas en el patrón, equivalente al 68.7%.Magister en Automatización y Contro

    Accurate Segmentation of 2D-PAGE Images

    No full text
    Publication in the conference proceedings of EUSIPCO, Bucharest, Romania, 201
    corecore