Obtaining n best alternatives for classifying Unicode symbols

Abstract

The Unicode character set has been increased in last years until grouping more than 100000 characters. We developed a classifier which can predict the n most probable solutions to a given handwritten character in a smaller Unicode set. Even with the size reduction we still have a classification problem with a big number of classes (5488 in total) without any training sample. Before dealing with this problem we performed some experiments on the UJI PEN dataset. In these experiments we used two different data generation techniques, distortions and variational autoencoders as generative models. We tried feature extraction methods with both offline and online data. The generation along with the feature extraction was tested in several models of neural networks like convolutional networks or LSTM.El conjunto de caracteres Unicode se ha incrementado en los últimos años hasta llegar a agrupar más de 100000 caracteres. Hemos desarrollado un clasificador que puede predecir las n clases más probables de un carácter escrito a mano perteneciente a un conjunto más pequeño de caracteres Unicode. Incluso con la reducción de tamaño todavía tenemos un problema de clasificación con muchas clases (5488 en total) sin ninguna muestra de entrenamiento. Antes de tratar este problema hemos realizado algunos experimentos con el corpus UJI PEN. En estos experimentos hemos utilizado dos técnicas de generación de datos, distorsiones y el uso devariational autoencoders como modelos generativos. Hemos probado diferentes métodos de extracción de características tanto con datos offline como con datos online. La generación y la extracción de características han sido probadas en diferentes modelos de redes neuronales como las redes convolucionales o las LSTM.Vieco Pérez, J. (2017). Obtención de las n mejores alternativas para clasificación de símbolos unicode. http://hdl.handle.net/10251/86238TFG

    Similar works

    Full text

    thumbnail-image

    Available Versions