16 research outputs found

    Context-based Multi-stage Offline Handwritten Mathematical Symbol Recognition using Deep Learning

    Get PDF
    We propose a multi-stage machine learning (ML) architecture to improve the accuracy of offline handwritten mathematical symbol recognition. In the first stage, we train and assemble multiple deep convolutional neural networks to classify isolated mathematical symbols. However, certain ambiguous symbols are hard to classify without the context information of the mathematical expressions where the symbols belong. In the second stage, we train a deep convolutional neural network that further classifies the ambiguous symbols based on the context information of the symbols. To further improve the classification accuracy, in the third stage, we develop a set of rules to classify the ambiguity or otherwise the syntax of the mathematical expressions will be violated. We evaluate the proposed method by using the Competition on Recognition of Online Handwritten Mathematical Expressions (CROHME) dataset. The proposed method results the state-of-the-art accuracy of 94.04%, which is 1.62% improvement compared with the previous single-stage approach

    Observações em redes neuronais

    Get PDF
    The many advances that machine learning, and especially its workhorse, deep learning, has provided to our society are undeniable. However, there is an increasing feeling that the field has become little understood, with researchers going as far as to make the analogy that it has developed into a form of alchemy. There is the need for a deeper understanding of the tools being used since, otherwise, one is only making progress in the dark, frequently relying on trial and error. In this thesis, we experiment with feedforward neural networks, trying to deconstruct the phenomenons we observe, and finding their root cause. We start by experimenting with a synthetic dataset. Using this toy problem, we find that the weights of trained networks show correlations that can be well-understood by the structure of the data samples themselves. This insight may be useful in areas such as Explainable Artificial Intelligence, to explain why a model behaves the way it does. We also find that the mere change of the activation function used in a layer may cause the nodes of the network to assume fundamentally different roles. This understanding may help to draw firm conclusions regarding the conditions in which Transfer Learning may be applied successfully. While testing with this problem, we also found that the initial configuration of weights of a network may, in some situations, ultimately determine the quality of the minimum (i.e., loss/accuracy) to which the networks converge, more so than what could be initially suspected. This observation motivated the remainder of our experiments. We continued our tests with the real-world datasets MNIST and HASYv2. We devised an initialization strategy, which we call the Dense sliced initialization, that works by combining the merits of a sparse initialization with those of a typical random initialization. Afterward, we found that the initial configuration of weights of a network “sticks” throughout training, suggesting that training does not imply substantial updates — instead, it is, to some extent, a fine-tuning process. We saw this by training networks marked with letters, and observing that those marks last throughout hundreds of epochs. Moreover, our results suggest that the small scale of the deviations caused by the training process is a fingerprint (i.e., a necessary condition) of training — as long as the training is successful, the marks remain visible. Based on these observations and our intuition for the reasons behind them, we developed what we call the Filter initialization strategy. It showed improvements in the training of the networks tested, but at the same time, it worsened their generalization. Understanding the root cause for these observations may prove to be valuable to devise new initialization methods that generalize better.É impossível ignorar os muitos avanços que aprendizagem automática, e em particular o seu método de eleição, aprendizagem profunda, têm proporcionado à nossa sociedade. No entanto, existe um sentimento crescente de que ao longo dos anos a área se tem vindo a tornar confusa e pouco clara, com alguns investigadores inclusive afirmando que aprendizagem automática se tornou na alquimia dos nossos tempos. Existe uma necessidade crescente de (voltar a) compreender em profundidade as ferramentas usadas, já que de outra forma o progresso acontece às escuras e, frequentemente, por tentativa e erro. Nesta dissertação conduzimos testes com redes neuronais artificiais dirigidas, com o objetivo de compreender os fenómenos subjacentes e encontrar as suas causas. Começamos por testar com um conjunto de dados sintético. Usando um problema amostra, descobrimos que a configuração dos pesos de redes treinadas evolui de forma a mostrar correlações que podem ser compreendidas atendendo à estrutura das amostras do próprio conjunto de dados. Esta observação poderá revelar-se útil em áreas como Inteligência Artificial Explicável, de forma a clarificar porque é que um dado modelo funciona de certa forma. Descobrimos também que a mera alteração da função de ativação de uma camada pode causar alterações organizacionais numa rede, a nível do papel que os nós nela desempenham. Este conhecimento poderá ser usado em áreas como Aprendizagem por Transferência, de forma a desenvolver critérios precisos sobre os limites/condições de aplicabilidade destas técnicas. Enquanto experimentávamos com este problema, descobrimos também que a configuração inicial dos pesos de uma rede pode condicionar totalmente a qualidade do mínimo para que ela converge, mais do que poderia ser esperado. Esta observação motiva os nossos restantes resultados. Continuamos testes com conjuntos de dados do mundo real, em particular com o MNIST e HASYv2. Desenvolvemos uma estratégia de inicialização, à qual chamamos de inicialização densa por fatias, que funciona combinado os méritos de uma inicialização esparsa com os de uma inicialização típica (densa). Descobrimos também que a configuração inicial dos pesos de uma rede persiste ao longo do seu treino, sugerindo que o processo de treino não causa atualizações bruscas dos pesos. Ao invés, é maioritariamente um processo de afinação. Visualizamos este efeito ao marcar as camadas de uma rede com letras do abecedário e observar que as marcas se mantêm por centenas de épocas de treino. Mais do que isso, a escala reduzida das atualizações dos pesos aparenta ser uma impressão digital (isto é, uma condição necessária) de treino com sucesso — enquanto o treino é bem sucedido, as marcas permanecem. Baseados neste conhecimento propusemos uma estratégia de inicialização inspirada em filtros. A estratégia mostrou bons resultados durante o treino das redes testadas, mas simultaneamente piorou a sua generalização. Perceber as razões por detrás deste fenómeno pode permitir desenvolver novas estratégias de inicialização que generalizem melhor que as atuais.Mestrado em Engenharia de Computadores e Telemátic

    Deciphering Raw Data in Neuro-Symbolic Learning with Provable Guarantees

    Full text link
    Neuro-symbolic hybrid systems are promising for integrating machine learning and symbolic reasoning, where perception models are facilitated with information inferred from a symbolic knowledge base through logical reasoning. Despite empirical evidence showing the ability of hybrid systems to learn accurate perception models, the theoretical understanding of learnability is still lacking. Hence, it remains unclear why a hybrid system succeeds for a specific task and when it may fail given a different knowledge base. In this paper, we introduce a novel way of characterising supervision signals from a knowledge base, and establish a criterion for determining the knowledge's efficacy in facilitating successful learning. This, for the first time, allows us to address the two questions above by inspecting the knowledge base under investigation. Our analysis suggests that many knowledge bases satisfy the criterion, thus enabling effective learning, while some fail to satisfy it, indicating potential failures. Comprehensive experiments confirm the utility of our criterion on benchmark tasks

    Способи організації засобів нейромережевого розпізнавання об‘єкта на зображенні

    Get PDF
    Актуальність теми. З конжним роком зростає зацікавленість вирішення більш складних задач розпізнавання об’єктів, що обумовлена автоматизацією, необхідністю образних процесів комунікації в інтелектуальних системах. Тому удосконалення реалізації розпізнавання комютерними системами образів є актуальною. Один з перспективних напрямків вирішення даної проблеми ґрунтується на застосуванні штучних нейронних мереж і нейрокомп'ютерів, як найбільш прогресивних по відношенню проблем класифікації задач розпізнавання образів. У наш час запропоновано велику кількість архітектур нейромеж для застосування у розпізнаванні об’єктів. Аналіз запропонованих рішень показує, що й досі не існує такої моделі, яка б була кращою серед усіх результуючих показників роботи. Перспективу в удосконаленні архітектур вбачають у згорткових нейронних мережах. Переваги згорткових мереж над багатошаровими полягають у використанні спільної ваги у згорткових шарах, що означає, що для кожного пікселя шару використовується один і той же фільтр (банк ваги). Об’єктом дослідження є способи організації засобів нейромережевого розпізнавання об’єкта на зображенні з використанням графічних прискорювачів. Предметом дослідження є методи і алгоритми реалізації архітектур згорткових нейронних мереж. Мета і задачі дослідження: створити нейромережеву систему розпізнавання об’єктів на зображеннях, використовуючи згорткову нейронну мережу власної архітектури із використанням ієрархічного класифікатору. Запропонувати архітектуру, яка призначатиметься для вирішення поставленної задачі найкращим чином — матиме вищі показники продуктивності, час навчання мережі, кількість параметрів при розпізнавання обєкта та вищий показник точності розпізнавання у порівнянні з уже існуючими моделями згорткових нейронних мереж. Провести експерименти із навчання мережі використовуючи графічні прискорювачі (анлг. graphic processing unit, GPU) на семи наборах даних, а саме : CIFAR-10, CIFAR-100, GTSRB, MNIST, HASYv2, STL-10, та SVHNThe Relevance. Year by year, the interest in solving more complex tasks of object recognition is growing, due to automation needs for shaped communication processes in intelligent systems. Therefore, improving the implementation of recognition of computer image systems is relevant. One of the promising directions for solving this problem is based on the use of artificial neural networks and neurocomputers as the most progressive in relation to the problems of classification of pattern recognition tasks. In our time, a large number of neural network architectures are proposed for application in the recognition of objects. The analysis of the proposed solutions shows that there is still no such model that would be the best among all the resulting performance parametrs. Prospects for the improvement of architectures are seen in convolutional neural networks. The advantages of roller networks over multilayers are to use a common weight in the roller coasters, which means that for each pixel of the layer is used the same filter (weight). The object of the study is the methods of organizing of neural network recognition of the object in the image using graphic processing units. The subject of the study is the methods and algorithms for the implementation of architectures of convolutional neural networks. The purpose and tasks: to create a neural network object recognition system on images, using a convolutional neural network of its own architecture using the hierarchical classifier. To propose an architecture that is best suited to solve a task - it will have higher performance, network learning time, number of parameters for object recognition and higher recognition accuracy compared to existing models of convolutional neural networks. Conduct network learning experiments using graphical processing units (GPUs) on seven data sets, namely: CIFAR-10, CIFAR-100, GTSRB, MNIST, HASYv2, STL-10, and SVHN.Актуальность темы. С каждым годом растет заинтересованность решения более сложных задач распознавания объектов, обусловленная автоматизацией, необходимостью образных процессов коммуникации в интеллектуальных системах. Поэтому совершенствование реализации распознавания комютернимы системами образов является актуальной. Одно из перспективных направлений решения данной проблемы основывается на применении искусственных нейронных сетей и нейрокомпьютеров, как наиболее прогрессивных по отношению проблем классификации задач распознавания образов. В наше время предложено большое количество архитектур нейросетей для применения в распознавании объектов. Анализ существующих решений показывает, что до сих пор не существует такой модели, которая была бы лучшей среди всех результирующих показателей работы. Перспективу в совершенствовании архитектур видят в сверточных нейронных сетях. Преимущества сверточных сетей над многослойными заключаются в использовании общих весов в сверточных слоях, что означает, что для каждого пикселя сверточного слоя используется один и тот же фильтр (банк веса). Объектом исследования являются способы организации средств нейросетевого распознавания объекта на изображении с использованием графических ускорителей. Предметом исследования являются методы и алгоритмы реализации архитектур сверточных нейронных сетей. Цель и задачи исследования: создать нейросетевую систему распознавания объектов на изображениях, используя сверточную нейронную сеть собственной архитектуры с использованием иерархического классификатора. Предложить архитектуру, которая будет предназначаться для решения поставленной задачи наилучшим образом – достигнуть более высоких показателей производительности, время обучения сети, количество параметров при распознавании объекта и высокого показателя точности распознавания по сравнению с уже существующими моделями сверточных нейронных сетей. Проделать эксперименты по обучению сети используя графические ускорители (анлг. Graphic processing unit, GPU) на семи наборах данных, а именно: CIFAR- 10, CIFAR-100, GTSRB, MNIST, HASYv2, STL-10 и SVH
    corecore