20 research outputs found

    CHARACTER-LEVEL INTERACTIONS IN MULTIMODAL COMPUTER-ASSISTED TRANSCRIPTION OF TEXT IMAGES

    Full text link
    HTR systems don't achieve acceptable results in unconstrained applications. Therefore, it is convenient to use a system that allows the user to cooperate in the most confortable way with the system to generate a correct transcription. In this paper, multimodal interaction at character-level is studied.Mart铆n-Albo Sim贸n, D. (2011). CHARACTER-LEVEL INTERACTIONS IN MULTIMODAL COMPUTER-ASSISTED TRANSCRIPTION OF TEXT IMAGES. http://hdl.handle.net/10251/11313Archivo delegad

    Learning Model Structure from Data : an Application to On-Line Handwriting

    Get PDF
    We present a learning strategy for Hidden Markov Models that may be used to cluster handwriting sequences or to learn a character model by identifying its main writing styles. Our approach aims at learning both the structure and parameters of a Hidden Markov Model (HMM) from the data. A byproduct of this learning strategy is the ability to cluster signals and identify allograph. We provide experimental results on artificial data that demonstrate the possibility to learn from data HMM parameters and topology. For a given topology, our approach outperforms in some cases that we identify standard Maximum Likelihood learning scheme. We also apply our unsupervised learning scheme on on-line handwritten signals for allograph clustering as well as for learning HMM models for handwritten digit recognition

    Multimodal Interactive Transcription of Handwritten Text Images

    Full text link
    En esta tesis se presenta un nuevo marco interactivo y multimodal para la transcripci贸n de Documentos manuscritos. Esta aproximaci贸n, lejos de proporcionar la transcripci贸n completa pretende asistir al experto en la dura tarea de transcribir. Hasta la fecha, los sistemas de reconocimiento de texto manuscrito disponibles no proporcionan transcripciones aceptables por los usuarios y, generalmente, se requiere la intervenci贸n del humano para corregir las transcripciones obtenidas. Estos sistemas han demostrado ser realmente 煤tiles en aplicaciones restringidas y con vocabularios limitados (como es el caso del reconocimiento de direcciones postales o de cantidades num茅ricas en cheques bancarios), consiguiendo en este tipo de tareas resultados aceptables. Sin embargo, cuando se trabaja con documentos manuscritos sin ning煤n tipo de restricci贸n (como documentos manuscritos antiguos o texto espont谩neo), la tecnolog铆a actual solo consigue resultados inaceptables. El escenario interactivo estudiado en esta tesis permite una soluci贸n m谩s efectiva. En este escenario, el sistema de reconocimiento y el usuario cooperan para generar la transcripci贸n final de la imagen de texto. El sistema utiliza la imagen de texto y una parte de la transcripci贸n previamente validada (prefijo) para proponer una posible continuaci贸n. Despues, el usuario encuentra y corrige el siguente error producido por el sistema, generando as铆 un nuevo prefijo mas largo. Este nuevo prefijo, es utilizado por el sistema para sugerir una nueva hip贸tesis. La tecnolog铆a utilizada se basa en modelos ocultos de Markov y n-gramas. Estos modelos son utilizados aqu铆 de la misma manera que en el reconocimiento autom谩tico del habla. Algunas modificaciones en la definici贸n convencional de los n-gramas han sido necesarias para tener en cuenta la retroalimentaci贸n del usuario en este sistema.Romero G贸mez, V. (2010). Multimodal Interactive Transcription of Handwritten Text Images [Tesis doctoral no publicada]. Universitat Polit猫cnica de Val猫ncia. https://doi.org/10.4995/Thesis/10251/8541Palanci

    Reconnaissance de l'茅criture manuscrite en-ligne par approche combinant syst猫mes 脿 vastes marges et mod猫les de Markov cach茅s

    Get PDF
    Handwriting recognition is one of the leading applications of pattern recognition and machine learning. Despite having some limitations, handwriting recognition systems have been used as an input method of many electronic devices and helps in the automation of many manual tasks requiring processing of handwriting images. In general, a handwriting recognition system comprises three functional components; preprocessing, recognition and post-processing. There have been improvements made within each component in the system. However, to further open the avenues of expanding its applications, specific improvements need to be made in the recognition capability of the system. Hidden Markov Model (HMM) has been the dominant methods of recognition in handwriting recognition in offline and online systems. However, the use of Gaussian observation densities in HMM and representational model for word modeling often does not lead to good classification. Hybrid of Neural Network (NN) and HMM later improves word recognition by taking advantage of NN discriminative property and HMM representational capability. However, the use of NN does not optimize recognition capability as the use of Empirical Risk minimization (ERM) principle in its training leads to poor generalization. In this thesis, we focus on improving the recognition capability of a cursive online handwritten word recognition system by using an emerging method in machine learning, the support vector machine (SVM). We first evaluated SVM in isolated character recognition environment using IRONOFF and UNIPEN character databases. SVM, by its use of principle of structural risk minimization (SRM) have allowed simultaneous optimization of representational and discriminative capability of the character recognizer. We finally demonstrate the various practical issues in using SVM within a hybrid setting with HMM. In addition, we tested the hybrid system on the IRONOFF word database and obtained favourable results.Nos travaux concernent la reconnaissance de l'茅criture manuscrite qui est l'un des domaines de pr茅dilection pour la reconnaissance des formes et les algorithmes d'apprentissage. Dans le domaine de l'茅criture en-ligne, les applications concernent tous les dispositifs de saisie permettant 脿 un usager de communiquer de fa莽on transparente avec les syst猫mes d'information. Dans ce cadre, nos travaux apportent une contribution pour proposer une nouvelle architecture de reconnaissance de mots manuscrits sans contrainte de style. Celle-ci se situe dans la famille des approches hybrides locale/globale o霉 le paradigme de la segmentation/reconnaissance va se trouver r茅solu par la compl茅mentarit茅 d'un syst猫me de reconnaissance de type discriminant agissant au niveau caract猫re et d'un syst猫me par approche mod猫le pour superviser le niveau global. Nos choix se sont port茅s sur des S茅parateurs 脿 Vastes Marges (SVM) pour le classifieur de caract猫res et sur des algorithmes de programmation dynamique, issus d'une mod茅lisation par Mod猫les de Markov Cach茅s (HMM). Cette combinaison SVM/HMM est unique dans le domaine de la reconnaissance de l'茅criture manuscrite. Des exp茅rimentations ont 茅t茅 men茅es, d'abord dans un cadre de reconnaissance de caract猫res isol茅s puis sur la base IRONOFF de mots cursifs. Elles ont montr茅 la sup茅riorit茅 des approches SVM par rapport aux solutions 脿 bases de r茅seaux de neurones 脿 convolutions (Time Delay Neural Network) que nous avions d茅velopp茅es pr茅c茅demment, et leur bon comportement en situation de reconnaissance de mots

    Contributions to Pen & Touch Human-Computer Interaction

    Full text link
    [EN] Computers are now present everywhere, but their potential is not fully exploited due to some lack of acceptance. In this thesis, the pen computer paradigm is adopted, whose main idea is to replace all input devices by a pen and/or the fingers, given that the origin of the rejection comes from using unfriendly interaction devices that must be replaced by something easier for the user. This paradigm, that was was proposed several years ago, has been only recently fully implemented in products, such as the smartphones. But computers are actual illiterates that do not understand gestures or handwriting, thus a recognition step is required to "translate" the meaning of these interactions to computer-understandable language. And for this input modality to be actually usable, its recognition accuracy must be high enough. In order to realistically think about the broader deployment of pen computing, it is necessary to improve the accuracy of handwriting and gesture recognizers. This thesis is devoted to study different approaches to improve the recognition accuracy of those systems. First, we will investigate how to take advantage of interaction-derived information to improve the accuracy of the recognizer. In particular, we will focus on interactive transcription of text images. Here the system initially proposes an automatic transcript. If necessary, the user can make some corrections, implicitly validating a correct part of the transcript. Then the system must take into account this validated prefix to suggest a suitable new hypothesis. Given that in such application the user is constantly interacting with the system, it makes sense to adapt this interactive application to be used on a pen computer. User corrections will be provided by means of pen-strokes and therefore it is necessary to introduce a recognizer in charge of decoding this king of nondeterministic user feedback. However, this recognizer performance can be boosted by taking advantage of interaction-derived information, such as the user-validated prefix. Then, this thesis focuses on the study of human movements, in particular, hand movements, from a generation point of view by tapping into the kinematic theory of rapid human movements and the Sigma-Lognormal model. Understanding how the human body generates movements and, particularly understand the origin of the human movement variability, is important in the development of a recognition system. The contribution of this thesis to this topic is important, since a new technique (which improves the previous results) to extract the Sigma-lognormal model parameters is presented. Closely related to the previous work, this thesis study the benefits of using synthetic data as training. The easiest way to train a recognizer is to provide "infinite" data, representing all possible variations. In general, the more the training data, the smaller the error. But usually it is not possible to infinitely increase the size of a training set. Recruiting participants, data collection, labeling, etc., necessary for achieving this goal can be time-consuming and expensive. One way to overcome this problem is to create and use synthetically generated data that looks like the human. We study how to create these synthetic data and explore different approaches on how to use them, both for handwriting and gesture recognition. The different contributions of this thesis have obtained good results, producing several publications in international conferences and journals. Finally, three applications related to the work of this thesis are presented. First, we created Escritorie, a digital desk prototype based on the pen computer paradigm for transcribing handwritten text images. Second, we developed "Gestures 脿 Go Go", a web application for bootstrapping gestures. Finally, we studied another interactive application under the pen computer paradigm. In this case, we study how translation reviewing can be done more ergonomically using a pen.[ES] Hoy en d铆a, los ordenadores est谩n presentes en todas partes pero su potencial no se aprovecha debido al "miedo" que se les tiene. En esta tesis se adopta el paradigma del pen computer, cuya idea fundamental es sustituir todos los dispositivos de entrada por un l谩piz electr贸nico o, directamente, por los dedos. El origen del rechazo a los ordenadores proviene del uso de interfaces poco amigables para el humano. El origen de este paradigma data de hace m谩s de 40 a帽os, pero solo recientemente se ha comenzado a implementar en dispositivos m贸viles. La lenta y tard铆a implantaci贸n probablemente se deba a que es necesario incluir un reconocedor que "traduzca" los trazos del usuario (texto manuscrito o gestos) a algo entendible por el ordenador. Para pensar de forma realista en la implantaci贸n del pen computer, es necesario mejorar la precisi贸n del reconocimiento de texto y gestos. El objetivo de esta tesis es el estudio de diferentes estrategias para mejorar esta precisi贸n. En primer lugar, esta tesis investiga como aprovechar informaci贸n derivada de la interacci贸n para mejorar el reconocimiento, en concreto, en la transcripci贸n interactiva de im谩genes con texto manuscrito. En la transcripci贸n interactiva, el sistema y el usuario trabajan "codo con codo" para generar la transcripci贸n. El usuario valida la salida del sistema proporcionando ciertas correcciones, mediante texto manuscrito, que el sistema debe tener en cuenta para proporcionar una mejor transcripci贸n. Este texto manuscrito debe ser reconocido para ser utilizado. En esta tesis se propone aprovechar informaci贸n contextual, como por ejemplo, el prefijo validado por el usuario, para mejorar la calidad del reconocimiento de la interacci贸n. Tras esto, la tesis se centra en el estudio del movimiento humano, en particular del movimiento de las manos, utilizando la Teor铆a Cinem谩tica y su modelo Sigma-Lognormal. Entender como se mueven las manos al escribir, y en particular, entender el origen de la variabilidad de la escritura, es importante para el desarrollo de un sistema de reconocimiento, La contribuci贸n de esta tesis a este t贸pico es importante, dado que se presenta una nueva t茅cnica (que mejora los resultados previos) para extraer el modelo Sigma-Lognormal de trazos manuscritos. De forma muy relacionada con el trabajo anterior, se estudia el beneficio de utilizar datos sint茅ticos como entrenamiento. La forma m谩s f谩cil de entrenar un reconocedor es proporcionar un conjunto de datos "infinito" que representen todas las posibles variaciones. En general, cuanto m谩s datos de entrenamiento, menor ser谩 el error del reconocedor. No obstante, muchas veces no es posible proporcionar m谩s datos, o hacerlo es muy caro. Por ello, se ha estudiado como crear y usar datos sint茅ticos que se parezcan a los reales. Las diferentes contribuciones de esta tesis han obtenido buenos resultados, produciendo varias publicaciones en conferencias internacionales y revistas. Finalmente, tambi茅n se han explorado tres aplicaciones relaciones con el trabajo de esta tesis. En primer lugar, se ha creado Escritorie, un prototipo de mesa digital basada en el paradigma del pen computer para realizar transcripci贸n interactiva de documentos manuscritos. En segundo lugar, se ha desarrollado "Gestures 脿 Go Go", una aplicaci贸n web para generar datos sint茅ticos y empaquetarlos con un reconocedor de forma r谩pida y sencilla. Por 煤ltimo, se presenta un sistema interactivo real bajo el paradigma del pen computer. En este caso, se estudia como la revisi贸n de traducciones autom谩ticas se puede realizar de forma m谩s ergon贸mica.[CA] Avui en dia, els ordinadors s贸n presents a tot arreu i es comunament acceptat que la seva utilitzaci贸 proporciona beneficis. No obstant aix貌, moltes vegades el seu potencial no s'aprofita totalment. En aquesta tesi s'adopta el paradigma del pen computer, on la idea fonamental 茅s substituir tots els dispositius d'entrada per un llapis electr貌nic, o, directament, pels dits. Aquest paradigma postula que l'origen del rebuig als ordinadors prov茅 de l'煤s d'interf铆cies poc amigables per a l'hum脿, que han de ser substitu茂des per alguna cosa m茅s coneguda. Per tant, la interacci贸 amb l'ordinador sota aquest paradigma es realitza per mitj脿 de text manuscrit i/o gestos. L'origen d'aquest paradigma data de fa m茅s de 40 anys, per貌 nom茅s recentment s'ha comen莽at a implementar en dispositius m貌bils. La lenta i tardana implantaci贸 probablement es degui al fet que 茅s necessari incloure un reconeixedor que "tradueixi" els tra莽os de l'usuari (text manuscrit o gestos) a alguna cosa comprensible per l'ordinador, i el resultat d'aquest reconeixement, actualment, 茅s lluny de ser 貌ptim. Per pensar de forma realista en la implantaci贸 del pen computer, cal millorar la precisi贸 del reconeixement de text i gestos. L'objectiu d'aquesta tesi 茅s l'estudi de diferents estrat猫gies per millorar aquesta precisi贸. En primer lloc, aquesta tesi investiga com aprofitar informaci贸 derivada de la interacci贸 per millorar el reconeixement, en concret, en la transcripci贸 interactiva d'imatges amb text manuscrit. En la transcripci贸 interactiva, el sistema i l'usuari treballen "bra莽 a bra莽" per generar la transcripci贸. L'usuari valida la sortida del sistema donant certes correccions, que el sistema ha d'usar per millorar la transcripci贸. En aquesta tesi es proposa utilitzar correccions manuscrites, que el sistema ha de recon猫ixer primer. La qualitat del reconeixement d'aquesta interacci贸 茅s millorada, tenint en compte informaci贸 contextual, com per exemple, el prefix validat per l'usuari. Despr茅s d'aix貌, la tesi se centra en l'estudi del moviment hum脿 en particular del moviment de les mans, des del punt de vista generatiu, utilitzant la Teoria Cinem脿tica i el model Sigma-Lognormal. Entendre com es mouen les mans en escriure 茅s important per al desenvolupament d'un sistema de reconeixement, en particular, per entendre l'origen de la variabilitat de l'escriptura. La contribuci贸 d'aquesta tesi a aquest t貌pic 茅s important, at猫s que es presenta una nova t猫cnica (que millora els resultats previs) per extreure el model Sigma- Lognormal de tra莽os manuscrits. De forma molt relacionada amb el treball anterior, s'estudia el benefici d'utilitzar dades sint猫tiques per a l'entrenament. La forma m茅s f脿cil d'entrenar un reconeixedor 茅s proporcionar un conjunt de dades "infinit" que representin totes les possibles variacions. En general, com m茅s dades d'entrenament, menor ser脿 l'error del reconeixedor. No obstant aix貌, moltes vegades no 茅s possible proporcionar m茅s dades, o fer-ho 茅s molt car. Per aix貌, s'ha estudiat com crear i utilitzar dades sint猫tiques que s'assemblin a les reals. Les diferents contribucions d'aquesta tesi han obtingut bons resultats, produint diverses publicacions en confer猫ncies internacionals i revistes. Finalment, tamb茅 s'han explorat tres aplicacions relacionades amb el treball d'aquesta tesi. En primer lloc, s'ha creat Escritorie, un prototip de taula digital basada en el paradigma del pen computer per realitzar transcripci贸 interactiva de documents manuscrits. En segon lloc, s'ha desenvolupat "Gestures 脿 Go Go", una aplicaci贸 web per a generar dades sint猫tiques i empaquetar-les amb un reconeixedor de forma r脿pida i senzilla. Finalment, es presenta un altre sistema inter- actiu sota el paradigma del pen computer. En aquest cas, s'estudia com la revisi贸 de traduccions autom脿tiques es pot realitzar de forma m茅s ergon貌mica.Mart铆n-Albo Sim贸n, D. (2016). Contributions to Pen & Touch Human-Computer Interaction [Tesis doctoral no publicada]. Universitat Polit猫cnica de Val猫ncia. https://doi.org/10.4995/Thesis/10251/68482TESI

    A large vocabulary online handwriting recognition system for Turkish

    Get PDF
    Handwriting recognition in general and online handwriting recognition in particular has been an active research area for several decades. Most of the research have been focused on English and recently on other scripts like Arabic and Chinese. There is a lack of research on recognition in Turkish text and this work primarily fills that gap with a state-of-the-art recognizer for the first time. It contains design and implementation details of a complete recognition system for recognition of Turkish isolated words. Based on the Hidden Markov Models, the system comprises pre-processing, feature extraction, optical modeling and language modeling modules. It considers the recognition of unconstrained handwriting with a limited vocabulary size first and then evolves to a large vocabulary system. Turkish script has many similarities with other Latin scripts, like English, which makes it possible to adapt strategies that work for them. However, there are some other issues which are particular to Turkish that should be taken into consideration separately. Two of the challenging issues in recognition of Turkish text are determined as delayed strokes which introduce an extra source of variation in the sequence order of the handwritten input and high Out-of-Vocabulary (OOV) rate of Turkish when words are used as vocabulary units in the decoding process. This work examines the problems and alternative solutions at depth and proposes suitable solutions for Turkish script particularly. In delayed stroke handling, first a clear definition of the delayed strokes is developed and then using that definition some alternative handling methods are evaluated extensively on the UNIPEN and Turkish datasets. The best results are obtained by removing all delayed strokes, with up to 2.13% and 2.03% points recognition accuracy increases, over the respective baselines of English and Turkish. The overall system performances are assessed as 86.1% with a 1,000-word lexicon and 83.0% with a 3,500-word lexicon on the UNIPEN dataset and 91.7% on the Turkish dataset. Alternative decoding vocabularies are designed with grammatical sub-lexical units in order to solve the problem of high OOV rate. Additionally, statistical bi-gram and tri-gram language models are applied during the decoding process. The best performance, 67.9% is obtained by the large stem-ending vocabulary that is expanded with a bi-gram model on the Turkish dataset. This result is superior to the accuracy of the word-based vocabulary (63.8%) with the same coverage of 95% on the BOUN Web Corpus

    Advances on the Transcription of Historical Manuscripts based on Multimodality, Interactivity and Crowdsourcing

    Full text link
    Natural Language Processing (NLP) is an interdisciplinary research field of Computer Science, Linguistics, and Pattern Recognition that studies, among others, the use of human natural languages in Human-Computer Interaction (HCI). Most of NLP research tasks can be applied for solving real-world problems. This is the case of natural language recognition and natural language translation, that can be used for building automatic systems for document transcription and document translation. Regarding digitalised handwritten text documents, transcription is used to obtain an easy digital access to the contents, since simple image digitalisation only provides, in most cases, search by image and not by linguistic contents (keywords, expressions, syntactic or semantic categories). Transcription is even more important in historical manuscripts, since most of these documents are unique and the preservation of their contents is crucial for cultural and historical reasons. The transcription of historical manuscripts is usually done by paleographers, who are experts on ancient script and vocabulary. Recently, Handwritten Text Recognition (HTR) has become a common tool for assisting paleographers in their task, by providing a draft transcription that they may amend with more or less sophisticated methods. This draft transcription is useful when it presents an error rate low enough to make the amending process more comfortable than a complete transcription from scratch. Thus, obtaining a draft transcription with an acceptable low error rate is crucial to have this NLP technology incorporated into the transcription process. The work described in this thesis is focused on the improvement of the draft transcription offered by an HTR system, with the aim of reducing the effort made by paleographers for obtaining the actual transcription on digitalised historical manuscripts. This problem is faced from three different, but complementary, scenarios: 路 Multimodality: The use of HTR systems allow paleographers to speed up the manual transcription process, since they are able to correct on a draft transcription. Another alternative is to obtain the draft transcription by dictating the contents to an Automatic Speech Recognition (ASR) system. When both sources (image and speech) are available, a multimodal combination is possible and an iterative process can be used in order to refine the final hypothesis. 路 Interactivity: The use of assistive technologies in the transcription process allows one to reduce the time and human effort required for obtaining the actual transcription, given that the assistive system and the palaeographer cooperate to generate a perfect transcription. Multimodal feedback can be used to provide the assistive system with additional sources of information by using signals that represent the whole same sequence of words to transcribe (e.g. a text image, and the speech of the dictation of the contents of this text image), or that represent just a word or character to correct (e.g. an on-line handwritten word). 路 Crowdsourcing: Open distributed collaboration emerges as a powerful tool for massive transcription at a relatively low cost, since the paleographer supervision effort may be dramatically reduced. Multimodal combination allows one to use the speech dictation of handwritten text lines in a multimodal crowdsourcing platform, where collaborators may provide their speech by using their own mobile device instead of using desktop or laptop computers, which makes it possible to recruit more collaborators.El Procesamiento del Lenguaje Natural (PLN) es un campo de investigaci贸n interdisciplinar de las Ciencias de la Computaci贸n, Ling眉铆stica y Reconocimiento de Patrones que estudia, entre otros, el uso del lenguaje natural humano en la interacci贸n Hombre-M谩quina. La mayor铆a de las tareas de investigaci贸n del PLN se pueden aplicar para resolver problemas del mundo real. Este es el caso del reconocimiento y la traducci贸n del lenguaje natural, que se pueden utilizar para construir sistemas autom谩ticos para la transcripci贸n y traducci贸n de documentos. En cuanto a los documentos manuscritos digitalizados, la transcripci贸n se utiliza para facilitar el acceso digital a los contenidos, ya que la simple digitalizaci贸n de im谩genes s贸lo proporciona, en la mayor铆a de los casos, la b煤squeda por imagen y no por contenidos ling眉铆sticos. La transcripci贸n es a煤n m谩s importante en el caso de los manuscritos hist贸ricos, ya que la mayor铆a de estos documentos son 煤nicos y la preservaci贸n de su contenido es crucial por razones culturales e hist贸ricas. La transcripci贸n de manuscritos hist贸ricos suele ser realizada por pale贸grafos, que son personas expertas en escritura y vocabulario antiguos. Recientemente, los sistemas de Reconocimiento de Escritura (RES) se han convertido en una herramienta com煤n para ayudar a los pale贸grafos en su tarea, la cual proporciona un borrador de la transcripci贸n que los pale贸grafos pueden corregir con m茅todos m谩s o menos sofisticados. Este borrador de transcripci贸n es 煤til cuando presenta una tasa de error suficientemente reducida para que el proceso de correcci贸n sea m谩s c贸modo que una completa transcripci贸n desde cero. Por lo tanto, la obtenci贸n de un borrador de transcripci贸n con una baja tasa de error es crucial para que esta tecnolog铆a de PLN sea incorporada en el proceso de transcripci贸n. El trabajo descrito en esta tesis se centra en la mejora del borrador de transcripci贸n ofrecido por un sistema RES, con el objetivo de reducir el esfuerzo realizado por los pale贸grafos para obtener la transcripci贸n de manuscritos hist贸ricos digitalizados. Este problema se enfrenta a partir de tres escenarios diferentes, pero complementarios: 路 Multimodalidad: El uso de sistemas RES permite a los pale贸grafos acelerar el proceso de transcripci贸n manual, ya que son capaces de corregir en un borrador de la transcripci贸n. Otra alternativa es obtener el borrador de la transcripci贸n dictando el contenido a un sistema de Reconocimiento Autom谩tico de Habla. Cuando ambas fuentes est谩n disponibles, una combinaci贸n multimodal de las mismas es posible y se puede realizar un proceso iterativo para refinar la hip贸tesis final. 路 Interactividad: El uso de tecnolog铆as asistenciales en el proceso de transcripci贸n permite reducir el tiempo y el esfuerzo humano requeridos para obtener la transcripci贸n correcta, gracias a la cooperaci贸n entre el sistema asistencial y el pale贸grafo para obtener la transcripci贸n perfecta. La realimentaci贸n multimodal se puede utilizar en el sistema asistencial para proporcionar otras fuentes de informaci贸n adicionales con se帽ales que representen la misma secuencia de palabras a transcribir (por ejemplo, una imagen de texto, o la se帽al de habla del dictado del contenido de dicha imagen de texto), o se帽ales que representen s贸lo una palabra o car谩cter a corregir (por ejemplo, una palabra manuscrita mediante una pantalla t谩ctil). 路 Crowdsourcing: La colaboraci贸n distribuida y abierta surge como una poderosa herramienta para la transcripci贸n masiva a un costo relativamente bajo, ya que el esfuerzo de supervisi贸n de los pale贸grafos puede ser dr谩sticamente reducido. La combinaci贸n multimodal permite utilizar el dictado del contenido de l铆neas de texto manuscrito en una plataforma de crowdsourcing multimodal, donde los colaboradores pueden proporcionar las muestras de habla utilizando su propio dispositivo m贸vil en lugar de usar ordenadores,El Processament del Llenguatge Natural (PLN) 茅s un camp de recerca interdisciplinar de les Ci猫ncies de la Computaci贸, la Ling眉铆stica i el Reconeixement de Patrons que estudia, entre d'altres, l'煤s del llenguatge natural hum脿 en la interacci贸 Home-M脿quina. La majoria de les tasques de recerca del PLN es poden aplicar per resoldre problemes del m贸n real. Aquest 茅s el cas del reconeixement i la traducci贸 del llenguatge natural, que es poden utilitzar per construir sistemes autom脿tics per a la transcripci贸 i traducci贸 de documents. Quant als documents manuscrits digitalitzats, la transcripci贸 s'utilitza per facilitar l'acc茅s digital als continguts, ja que la simple digitalitzaci贸 d'imatges nom茅s proporciona, en la majoria dels casos, la cerca per imatge i no per continguts ling眉铆stics (paraules clau, expressions, categories sint脿ctiques o sem脿ntiques). La transcripci贸 茅s encara m茅s important en el cas dels manuscrits hist貌rics, ja que la majoria d'aquests documents s贸n 煤nics i la preservaci贸 del seu contingut 茅s crucial per raons culturals i hist貌riques. La transcripci贸 de manuscrits hist貌rics sol ser realitzada per pale貌grafs, els quals s贸n persones expertes en escriptura i vocabulari antics. Recentment, els sistemes de Reconeixement d'Escriptura (RES) s'han convertit en una eina comuna per ajudar els pale貌grafs en la seua tasca, la qual proporciona un esborrany de la transcripci贸 que els pale貌grafs poden esmenar amb m猫todes m茅s o menys sofisticats. Aquest esborrany de transcripci贸 茅s 煤til quan presenta una taxa d'error prou redu茂da perqu猫 el proc茅s de correcci贸 siga m茅s c貌mode que una completa transcripci贸 des de zero. Per tant, l'obtenci贸 d'un esborrany de transcripci贸 amb un baixa taxa d'error 茅s crucial perqu猫 aquesta tecnologia del PLN siga incorporada en el proc茅s de transcripci贸. El treball descrit en aquesta tesi se centra en la millora de l'esborrany de la transcripci贸 ofert per un sistema RES, amb l'objectiu de reduir l'esfor莽 realitzat pels pale貌grafs per obtenir la transcripci贸 de manuscrits hist貌rics digitalitzats. Aquest problema s'enfronta a partir de tres escenaris diferents, per貌 complementaris: 路 Multimodalitat: L'煤s de sistemes RES permet als pale貌grafs accelerar el proc茅s de transcripci贸 manual, ja que s贸n capa莽os de corregir un esborrany de la transcripci贸. Una altra alternativa 茅s obtenir l'esborrany de la transcripci贸 dictant el contingut a un sistema de Reconeixement Autom脿tic de la Parla. Quan les dues fonts (imatge i parla) estan disponibles, una combinaci贸 multimodal 茅s possible i es pot realitzar un proc茅s iteratiu per refinar la hip貌tesi final. 路 Interactivitat: L'煤s de tecnologies assistencials en el proc茅s de transcripci贸 permet reduir el temps i l'esfor莽 hum脿 requerits per obtenir la transcripci贸 real, gr脿cies a la cooperaci贸 entre el sistema assistencial i el pale貌graf per obtenir la transcripci贸 perfecta. La realimentaci贸 multimodal es pot utilitzar en el sistema assistencial per proporcionar fonts d'informaci贸 addicionals amb senyals que representen la mateixa seq眉encia de paraules a transcriure (per exemple, una imatge de text, o el senyal de parla del dictat del contingut d'aquesta imatge de text), o senyals que representen nom茅s una paraula o car脿cter a corregir (per exemple, una paraula manuscrita mitjan莽ant una pantalla t脿ctil). 路 Crowdsourcing: La col路laboraci贸 distribu茂da i oberta sorgeix com una poderosa eina per a la transcripci贸 massiva a un cost relativament baix, ja que l'esfor莽 de supervisi贸 dels pale貌grafs pot ser redu茂t dr脿sticament. La combinaci贸 multimodal permet utilitzar el dictat del contingut de l铆nies de text manuscrit en una plataforma de crowdsourcing multimodal, on els col路laboradors poden proporcionar les mostres de parla utilitzant el seu propi dispositiu m貌bil en lloc d'utilitzar ordinadors d'escriptori o port脿tils, la qual cosa permet ampliar el nombrGranell Romero, E. (2017). Advances on the Transcription of Historical Manuscripts based on Multimodality, Interactivity and Crowdsourcing [Tesis doctoral no publicada]. Universitat Polit猫cnica de Val猫ncia. https://doi.org/10.4995/Thesis/10251/86137TESI

    Incorporation of relational information in feature representation for online handwriting recognition of Arabic characters

    Get PDF
    Interest in online handwriting recognition is increasing due to market demand for both improved performance and for extended supporting scripts for digital devices. Robust handwriting recognition of complex patterns of arbitrary scale, orientation and location is elusive to date because reaching a target recognition rate is not trivial for most of the applications in this field. Cursive scripts such as Arabic and Persian with complex character shapes make the recognition task even more difficult. Challenges in the discrimination capability of handwriting recognition systems depend heavily on the effectiveness of the features used to represent the data, the types of classifiers deployed and inclusive databases used for learning and recognition which cover variations in writing styles that introduce natural deformations in character shapes. This thesis aims to improve the efficiency of online recognition systems for Persian and Arabic characters by presenting new formal feature representations, algorithms, and a comprehensive database for online Arabic characters. The thesis contains the development of the first public collection of online handwritten data for the Arabic complete-shape character set. New ideas for incorporating relational information in a feature representation for this type of data are presented. The proposed techniques are computationally efficient and provide compact, yet representative, feature vectors. For the first time, a hybrid classifier is used for recognition of online Arabic complete-shape characters based on the idea of decomposing the input data into variables representing factors of the complete-shape characters and the combined use of the Bayesian network inference and support vector machines. We advocate the usefulness and practicality of the features and recognition methods with respect to the recognition of conventional metrics, such as accuracy and timeliness, as well as unconventional metrics. In particular, we evaluate a feature representation for different character class instances by its level of separation in the feature space. Our evaluation results for the available databases and for our own database of the characters' main shapes confirm a higher efficiency than previously reported techniques with respect to all metrics analyzed. For the complete-shape characters, our techniques resulted in a unique recognition efficiency comparable with the state-of-the-art results for main shape characters
    corecore