16 research outputs found
Context-based Multi-stage Offline Handwritten Mathematical Symbol Recognition using Deep Learning
We propose a multi-stage machine learning (ML) architecture to improve the accuracy of offline handwritten mathematical symbol recognition. In the first stage, we train and assemble multiple deep convolutional neural networks to classify isolated mathematical symbols. However, certain ambiguous symbols are hard to classify without the context information of the mathematical expressions where the symbols belong. In the second stage, we train a deep convolutional neural network that further classifies the ambiguous symbols based on the context information of the symbols. To further improve the classification accuracy, in the third stage, we develop a set of rules to classify the ambiguity or otherwise the syntax of the mathematical expressions will be violated. We evaluate the proposed method by using the Competition on Recognition of Online Handwritten Mathematical Expressions (CROHME) dataset. The proposed method results the state-of-the-art accuracy of 94.04%, which is 1.62% improvement compared with the previous single-stage approach
Observações em redes neuronais
The many advances that machine learning, and especially its workhorse, deep learning,
has provided to our society are undeniable. However, there is an increasing
feeling that the field has become little understood, with researchers going as far
as to make the analogy that it has developed into a form of alchemy. There is
the need for a deeper understanding of the tools being used since, otherwise, one
is only making progress in the dark, frequently relying on trial and error. In this
thesis, we experiment with feedforward neural networks, trying to deconstruct the
phenomenons we observe, and finding their root cause. We start by experimenting
with a synthetic dataset. Using this toy problem, we find that the weights of
trained networks show correlations that can be well-understood by the structure
of the data samples themselves. This insight may be useful in areas such as Explainable
Artificial Intelligence, to explain why a model behaves the way it does.
We also find that the mere change of the activation function used in a layer may
cause the nodes of the network to assume fundamentally different roles. This understanding
may help to draw firm conclusions regarding the conditions in which
Transfer Learning may be applied successfully. While testing with this problem,
we also found that the initial configuration of weights of a network may, in some
situations, ultimately determine the quality of the minimum (i.e., loss/accuracy)
to which the networks converge, more so than what could be initially suspected.
This observation motivated the remainder of our experiments. We continued our
tests with the real-world datasets MNIST and HASYv2. We devised an initialization
strategy, which we call the Dense sliced initialization, that works by combining
the merits of a sparse initialization with those of a typical random initialization.
Afterward, we found that the initial configuration of weights of a network “sticks”
throughout training, suggesting that training does not imply substantial updates
— instead, it is, to some extent, a fine-tuning process. We saw this by training
networks marked with letters, and observing that those marks last throughout
hundreds of epochs. Moreover, our results suggest that the small scale of the deviations
caused by the training process is a fingerprint (i.e., a necessary condition)
of training — as long as the training is successful, the marks remain visible. Based
on these observations and our intuition for the reasons behind them, we developed
what we call the Filter initialization strategy. It showed improvements in the training
of the networks tested, but at the same time, it worsened their generalization.
Understanding the root cause for these observations may prove to be valuable to
devise new initialization methods that generalize better.É impossível ignorar os muitos avanços que aprendizagem automática, e em particular
o seu método de eleição, aprendizagem profunda, têm proporcionado à nossa
sociedade. No entanto, existe um sentimento crescente de que ao longo dos anos
a área se tem vindo a tornar confusa e pouco clara, com alguns investigadores inclusive
afirmando que aprendizagem automática se tornou na alquimia dos nossos
tempos. Existe uma necessidade crescente de (voltar a) compreender em profundidade
as ferramentas usadas, já que de outra forma o progresso acontece às escuras
e, frequentemente, por tentativa e erro. Nesta dissertação conduzimos testes com
redes neuronais artificiais dirigidas, com o objetivo de compreender os fenómenos
subjacentes e encontrar as suas causas. Começamos por testar com um conjunto
de dados sintético. Usando um problema amostra, descobrimos que a configuração
dos pesos de redes treinadas evolui de forma a mostrar correlações que podem
ser compreendidas atendendo à estrutura das amostras do próprio conjunto de dados.
Esta observação poderá revelar-se útil em áreas como Inteligência Artificial
Explicável, de forma a clarificar porque é que um dado modelo funciona de certa
forma. Descobrimos também que a mera alteração da função de ativação de uma
camada pode causar alterações organizacionais numa rede, a nível do papel que
os nós nela desempenham. Este conhecimento poderá ser usado em áreas como
Aprendizagem por Transferência, de forma a desenvolver critérios precisos sobre
os limites/condições de aplicabilidade destas técnicas. Enquanto experimentávamos
com este problema, descobrimos também que a configuração inicial dos pesos
de uma rede pode condicionar totalmente a qualidade do mínimo para que ela
converge, mais do que poderia ser esperado. Esta observação motiva os nossos
restantes resultados. Continuamos testes com conjuntos de dados do mundo real,
em particular com o MNIST e HASYv2. Desenvolvemos uma estratégia de inicialização,
à qual chamamos de inicialização densa por fatias, que funciona combinado
os méritos de uma inicialização esparsa com os de uma inicialização típica (densa).
Descobrimos também que a configuração inicial dos pesos de uma rede persiste
ao longo do seu treino, sugerindo que o processo de treino não causa atualizações
bruscas dos pesos. Ao invés, é maioritariamente um processo de afinação. Visualizamos
este efeito ao marcar as camadas de uma rede com letras do abecedário
e observar que as marcas se mantêm por centenas de épocas de treino. Mais do
que isso, a escala reduzida das atualizações dos pesos aparenta ser uma impressão
digital (isto é, uma condição necessária) de treino com sucesso — enquanto
o treino é bem sucedido, as marcas permanecem. Baseados neste conhecimento
propusemos uma estratégia de inicialização inspirada em filtros. A estratégia mostrou
bons resultados durante o treino das redes testadas, mas simultaneamente
piorou a sua generalização. Perceber as razões por detrás deste fenómeno pode
permitir desenvolver novas estratégias de inicialização que generalizem melhor que
as atuais.Mestrado em Engenharia de Computadores e Telemátic
Deciphering Raw Data in Neuro-Symbolic Learning with Provable Guarantees
Neuro-symbolic hybrid systems are promising for integrating machine learning
and symbolic reasoning, where perception models are facilitated with
information inferred from a symbolic knowledge base through logical reasoning.
Despite empirical evidence showing the ability of hybrid systems to learn
accurate perception models, the theoretical understanding of learnability is
still lacking. Hence, it remains unclear why a hybrid system succeeds for a
specific task and when it may fail given a different knowledge base. In this
paper, we introduce a novel way of characterising supervision signals from a
knowledge base, and establish a criterion for determining the knowledge's
efficacy in facilitating successful learning. This, for the first time, allows
us to address the two questions above by inspecting the knowledge base under
investigation. Our analysis suggests that many knowledge bases satisfy the
criterion, thus enabling effective learning, while some fail to satisfy it,
indicating potential failures. Comprehensive experiments confirm the utility of
our criterion on benchmark tasks
Способи організації засобів нейромережевого розпізнавання об‘єкта на зображенні
Актуальність теми. З конжним роком зростає зацікавленість
вирішення більш складних задач розпізнавання об’єктів, що обумовлена
автоматизацією, необхідністю образних процесів комунікації в
інтелектуальних системах. Тому удосконалення реалізації розпізнавання
комютерними системами образів є актуальною. Один з перспективних
напрямків вирішення даної проблеми ґрунтується на застосуванні штучних
нейронних мереж і нейрокомп'ютерів, як найбільш прогресивних по
відношенню проблем класифікації задач розпізнавання образів. У наш час
запропоновано велику кількість архітектур нейромеж для застосування у
розпізнаванні об’єктів. Аналіз запропонованих рішень показує, що й досі
не існує такої моделі, яка б була кращою серед усіх результуючих
показників роботи. Перспективу в удосконаленні архітектур вбачають у
згорткових нейронних мережах. Переваги згорткових мереж над
багатошаровими полягають у використанні спільної ваги у згорткових
шарах, що означає, що для кожного пікселя шару використовується один і
той же фільтр (банк ваги).
Об’єктом дослідження є способи організації засобів
нейромережевого розпізнавання об’єкта на зображенні з використанням
графічних прискорювачів.
Предметом дослідження є методи і алгоритми реалізації архітектур
згорткових нейронних мереж.
Мета і задачі дослідження: створити нейромережеву систему
розпізнавання об’єктів на зображеннях, використовуючи згорткову
нейронну мережу власної архітектури із використанням ієрархічного
класифікатору. Запропонувати архітектуру, яка призначатиметься для
вирішення поставленної задачі найкращим чином — матиме вищі
показники продуктивності, час навчання мережі, кількість параметрів при
розпізнавання обєкта та вищий показник точності розпізнавання у
порівнянні з уже існуючими моделями згорткових нейронних мереж.
Провести експерименти із навчання мережі використовуючи графічні
прискорювачі (анлг. graphic processing unit, GPU) на семи наборах даних, а
саме : CIFAR-10, CIFAR-100, GTSRB, MNIST, HASYv2, STL-10, та SVHNThe Relevance. Year by year, the interest in solving more complex tasks of
object recognition is growing, due to automation needs for shaped
communication processes in intelligent systems. Therefore, improving the
implementation of recognition of computer image systems is relevant. One of
the promising directions for solving this problem is based on the use of artificial
neural networks and neurocomputers as the most progressive in relation to the
problems of classification of pattern recognition tasks. In our time, a large
number of neural network architectures are proposed for application in the
recognition of objects. The analysis of the proposed solutions shows that there is
still no such model that would be the best among all the resulting performance
parametrs. Prospects for the improvement of architectures are seen in
convolutional neural networks. The advantages of roller networks over
multilayers are to use a common weight in the roller coasters, which means that
for each pixel of the layer is used the same filter (weight).
The object of the study is the methods of organizing of neural network
recognition of the object in the image using graphic processing units.
The subject of the study is the methods and algorithms for the
implementation of architectures of convolutional neural networks.
The purpose and tasks: to create a neural network object recognition
system on images, using a convolutional neural network of its own architecture
using the hierarchical classifier. To propose an architecture that is best suited to
solve a task - it will have higher performance, network learning time, number of
parameters for object recognition and higher recognition accuracy compared to
existing models of convolutional neural networks. Conduct network learning
experiments using graphical processing units (GPUs) on seven data sets,
namely: CIFAR-10, CIFAR-100, GTSRB, MNIST, HASYv2, STL-10, and
SVHN.Актуальность темы. С каждым годом растет заинтересованность
решения более сложных задач распознавания объектов, обусловленная
автоматизацией, необходимостью образных процессов коммуникации в
интеллектуальных системах. Поэтому совершенствование реализации
распознавания комютернимы системами образов является актуальной.
Одно из перспективных направлений решения данной проблемы
основывается на применении искусственных нейронных сетей и
нейрокомпьютеров, как наиболее прогрессивных по отношению проблем
классификации задач распознавания образов. В наше время предложено
большое количество архитектур нейросетей для применения в
распознавании объектов. Анализ существующих решений показывает, что
до сих пор не существует такой модели, которая была бы лучшей среди
всех результирующих показателей работы. Перспективу в
совершенствовании архитектур видят в сверточных нейронных сетях.
Преимущества сверточных сетей над многослойными заключаются в
использовании общих весов в сверточных слоях, что означает, что для
каждого пикселя сверточного слоя используется один и тот же фильтр
(банк веса).
Объектом исследования являются способы организации средств
нейросетевого распознавания объекта на изображении с использованием
графических ускорителей.
Предметом исследования являются методы и алгоритмы реализации
архитектур сверточных нейронных сетей.
Цель и задачи исследования: создать нейросетевую систему
распознавания объектов на изображениях, используя сверточную
нейронную сеть собственной архитектуры с использованием
иерархического классификатора. Предложить архитектуру, которая будет
предназначаться для решения поставленной задачи наилучшим образом –
достигнуть более высоких показателей производительности, время
обучения сети, количество параметров при распознавании объекта и
высокого показателя точности распознавания по сравнению с уже
существующими моделями сверточных нейронных сетей. Проделать
эксперименты по обучению сети используя графические ускорители (анлг.
Graphic processing unit, GPU) на семи наборах данных, а именно: CIFAR-
10, CIFAR-100, GTSRB, MNIST, HASYv2, STL-10 и SVH