37 research outputs found

    Invariance and Same-Equivariance Measures for Convolutional Neural Networks

    Get PDF
    Our main objective in this thesis is to contribute to the understanding and improvement of equivariance in neural network models. In terms of applications, we focus on handshape classification for sign language and other types of gestures using convolutional networks. Therefore, we set the following specific goals: • Analyze CNN models design specifically for equivariance • Compare specific models and data augmentation as means to obtain equivariance. Evaluate transfer learning strategies to obtain equivariant models starting with non-equivariant ones. • Develop equivariance measures for activations or inner representations in Neural Networks. Implement those measures in an open source library. Analyze the measures behavior, and compare with existing measures.Facultad de Informátic

    Invariance and Same-Equivariance Measures for Convolutional Neural Networks

    Get PDF
    Our main objective in this thesis is to contribute to the understanding and improvement of equivariance in neural network models. In terms of applications, we focus on handshape classification for sign language and other types of gestures using convolutional networks. Therefore, we set the following specific goals: • Analyze CNN models design specifically for equivariance • Compare specific models and data augmentation as means to obtain equivariance. Evaluate transfer learning strategies to obtain equivariant models starting with non-equivariant ones. • Develop equivariance measures for activations or inner representations in Neural Networks. Implement those measures in an open source library. Analyze the measures behavior, and compare with existing measures.Facultad de Informátic

    Invariance and Same-Equivariance Measures for Convolutional Neural Networks

    Get PDF
    Our main objective in this thesis is to contribute to the understanding and improvement of equivariance in neural network models. In terms of applications, we focus on handshape classification for sign language and other types of gestures using convolutional networks. Therefore, we set the following specific goals: • Analyze CNN models design specifically for equivariance • Compare specific models and data augmentation as means to obtain equivariance. Evaluate transfer learning strategies to obtain equivariant models starting with non-equivariant ones. • Develop equivariance measures for activations or inner representations in Neural Networks. Implement those measures in an open source library. Analyze the measures behavior, and compare with existing measures.Facultad de Informátic

    Medidas de invarianza y equivarianza a transformaciones en redes neuronales convolucionales : Aplicaciones al reconocimiento de formas de mano

    Get PDF
    Las Redes Neuronales son los modelos de aprendizaje automático con mejor desempeño en la actualidad en una gran variedad de problemas. Son modelos generales y aproximadores universales. Con algoritmos de optimización basados en descenso de gradiente, pueden optimizar miles o millones de parámetros en base a una función de error. Se distinguen de otros modelos en que no requieren un diseño manual de características de los datos para funcionar; las características se aprenden automáticamente mediante el proceso de optimización, también llamado entrenamiento. Su diseño se organiza en capas que determinan su arquitectura. En los últimos años, se ha conseguido entrenar Redes Neuronales con múltiples capas mediante un conjunto de técnicas que suelen denominarse Aprendizaje Profundo (Deep Learning). En particular, las Redes Convolucionales, es decir, Redes Neuronales que utilizan capas convolucionales, son el estado del arte en la mayoría de los problemas de visión por computadora, incluyendo la clasificación de imágenes. Las capas convolucionales permiten aplicar convoluciones con filtros aprendidos para un mejor desempeño y eficiencia. Muchos de los problemas para los cuales las Redes Convolucionales son el estado del arte requieren que los modelos se comporten de cierta manera ante transformaciones de su entrada. Existen dos propiedades fundamentales que capturan dicho requerimiento; la invarianza y la equivarianza. La invarianza nos dice que la salida del modelo no es afectado por las transformaciones. La equivarianza permite que la salida sea afectada, pero de una manera controlada y útil. Si bien los modelos tradicionales de Redes Convolucionales son equivariantes a la traslación por diseño, no son ni invariantes a dicha transformación ni equivariantes a otras en los escenarios usuales de entrenamiento y uso. Existen dos opciones principales para otorgar invarianza o equivarianza a un modelo de red neuronal. La tradicional ha sido modificar el modelo para dotarlo de esas propiedades. La otra opción es entrenarlo con aumentación de datos utilizando como transformaciones el mismo conjunto al que se desea la invarianza o equivarianza. Dotar con invarianza o equivarianza a los modelos tiene utilidades en varios dominios, como la clasificación de imágenes de galaxias, imágenes de microscopios o formas de mano. En particular, el reconocimiento de formas de mano en imágenes es una de las etapas más importantes de los sistemas de reconocimiento de lenguas de señas o gestos mediante imágenes o video. En muchos casos, la rotación, traslación o escalado de la mano en la imagen no afectan a su forma, y por ende se requiere dotar de invarianza a la red para mejorar el desempeño del sistema. No obstante, no está claro cómo los modelos adquieren estas propiedades, tanto al usar aumentación de datos como al modificar el modelo. Tampoco está claro como las modificaciones de modelos afectan la eficiencia y el poder de representación de los mismos. Más aún, en los modelos tradicionales tampoco es conocido cómo se adquieren dichas propiedades con aumentación de datos, así como cuál es la mejor estrategia para aumentar los datos con este fin. En el primer aporte de esta tesis, analizamos diversas estrategias para obtener invarianza o equivarianza en modelos de clasificación de imágenes con redes neuronales. Comparamos los modelos tradicionales AllConvolutional y LeNet, y los modelos especializados Group CNN y Spatial Tansformer Networks para determinar su desempeño. Realizamos experimentos con varios conjuntos de datos conocidos (MNIST y CIFAR10) utilizando aumentación de datos. Los resultados arrojan evidencia en favor de la hipótesis de que aún con ingeniosas modificaciones de las redes convolucionales, la aumentación de datos sigue siendo necesaria para obtener un desempeño similar al de los modelos no invariantes. Más aún, en varios casos la aumentación de datos por si sola puede proveer un desempeño similar al de los modelos especializados, siendo al mismo tiempo más simples de entrenar y comprender. Además, analizamos cómo re-entrenar una red previamente generada para convertirla en invariante, y encontramos que el entrenamiento de las últimas capas permite convertir un modelo no invariante en uno que si lo sea con un bajo costo computacional y leve pérdida de desempeño. Si bien estos mecanismos permiten imbuir de invarianza o equivarianza una red, la forma en que la misma codifica o representa dichas propiedades no están claros. La comprensión de la invarianza o equivarianza de una red o cualquier sistema puede ayudar a mejorar su desempeño y robustez. Estas propiedades pueden estimarse midiendo los cambios en las salidas de la red en base a las transformaciones realizadas a su entrada. Las metodologías actuales de evaluación y comprensión de la invarianza y equivarianza se enfocan solamente en las capas de salida de la red. No obstante, para poder comprender como se codifican, el análisis debe realizarse en base a toda la red, es decir, considerando las representaciones intermedias. En el segundo y principal aporte de esta tesis, por ende, desarrollamos métricas para medir la invarianza y equivarianza de las redes. Dichas métricas permiten cuantificar estas propiedades de forma empírica no solo en la salida de la red sino también en sus representaciones internas. De esta forma, podemos visualizar y cuantificar que tan invariante o equivariante es una red, ya sea en su totalidad, por capas, o por activaciones individuales. Las métricas son aplicables a cualquier red neuronal, sin importar su diseño o arquitectura, así como a cualquier conjunto de transformaciones. Realizamos una implementación de las métricas en una librería de código abierto, con soporte para la librería tensorial PyTorch. Las métricas fueron validadas para verificar su correcto funcionamiento y utilidad. Además, estudiamos sus propiedades, como la variabilidad ante los conjuntos de datos, transformaciones, inicialización de los pesos, y otras. Utilizando las métricas, también se evaluamos modelos de redes neuronales convolucionales conocidos para caracterizarlos en términos de su invarianza o equivarianza. Asimismo, caracterizamos diversos tipos de capas como las de Batch Normalization, Max Pooling, diversas funciones de activación, capas convolucionales con distintos tamaños de filtro, y otros. Los resultados otorgan una primera mirada de los modelos de redes en términos de estas propiedades, y esperamos que puedan fomentar un mejora en ese área. Por último, hacemos un tercer aporte al reconocimiento automático de lengua señas basado en video. El reconocimiento de señas es un subárea del reconocimiento de gestos o acciones. Tiene como objetivo traducir al lenguaje escrito un video en donde una persona se comunica mediante lengua de señas. Desde la aparición de tecnologías de captura de video digital existen intentos de reconocer gestos y señas con diferentes fines. Es un problema multidisciplinar complejo y no resuelto aún de forma completa. Un paso fundamental en el reconocimiento de señas es la clasificación de formas de mano, ya que estas conllevan una gran parte de la información de una seña. El motivante principal de las interrogantes planteadas sobre modelos de invarianza y equivarianza surge a partir del estudio de técnicas de clasificación de formas de mano. Si bien las redes convolucionales proveen un desempeño ejemplar en varios dominios, su desempeño para la clasificación de formas de mano no ha sido evaluado rigurosamente. Por ende evaluamos diversos modelos de redes neuronales para determinar su aplicabilidad en este dominio. Utilizando los conjuntos de datos de formas de mano LSA16 y RWTH-PHOENIX-Weather, realizamos experimentos con los modelos LeNet, VGG16D, ResNet, Inception y AllConvolutional para determinar su eficacia como clasificadores en este dominio. Los resultados indican que todos los modelos tienen un desempeño razonable en ambos conjuntos de datos, con resultados iguales o mejores que otros modelos diseñados específicamente para la tarea. No obstante, el modelo VGG16D obtuvo los mejores resultados. Incluimos también evaluaciones de transferencia de aprendizaje, con y sin re-entrenamiento de las capas; en ambos casos dichas estrategias obtuvieron un desempeño peor que los modelos entrenados sin transferencia de aprendizaje. Además, realizamos un estudio de varias estrategias de pre-procesamiento de las imágenes, encontrando que la segmentación de las manos del fondo otorga un incremento de desempeño significativo. Por último, también desarrollamos una librería de código abierto para facilitar el acceso y preprocesamiento de bases de datos de formas de manos.Facultad de Informátic

    Resumen de tesis: Medidas de invarianza y equivarianza a transformaciones en redes neuronales convolucionales. Aplicaciones al reconocimiento de formas de mano

    Get PDF
    Nuestro objetivo general en esta tesis es contribuir al entendimiento y mejora de la equivarianza de los modelos de redes neuronales, en particular aplicados a la clasificación de formas de mano para la lengua de seña y otros tipos de gestos mediante modelos de redes convolucionales.Eje: Tesis doctoral.Red de Universidades con Carreras en Informátic

    Handshape recognition for Argentinian Sign Language using ProbSom

    Full text link
    Automatic sign language recognition is an important topic within the areas of human-computer interaction and machine learning. On the one hand, it poses a complex challenge that requires the intervention of various knowledge areas, such as video processing, image processing, intelligent systems and linguistics. On the other hand, robust recognition of sign language could assist in the translation process and the integration of hearing-impaired people. This paper offers two main contributions: first, the creation of a database of handshapes for the Argentinian Sign Language (LSA), which is a topic that has barely been discussed so far. Secondly, a technique for image processing, descriptor extraction and subsequent handshape classification using a supervised adaptation of self-organizing maps that is called ProbSom. This technique is compared to others in the state of the art, such as Support Vector Machines (SVM), Random Forests, and Neural Networks. The database that was built contains 800 images with 16 LSA handshapes, and is a first step towards building a comprehensive database of Argentinian signs. The ProbSom-based neural classifier, using the proposed descriptor, achieved an accuracy rate above 90%

    Distribution of Action Movements (DAM): A Descriptor for Human Action Recognition

    Full text link
    Human action recognition from skeletal data is an important and active area of research in which the state of the art has not yet achieved near-perfect accuracy on many well-known datasets. In this paper, we introduce the Distribution of Action Movements Descriptor, a novel action descriptor based on the distribution of the directions of the motions of the joints between frames, over the set of all possible motions in the dataset. The descriptor is computed as a normalized histogram over a set of representative directions of the joints, which are in turn obtained via clustering. While the descriptor is global in the sense that it represents the overall distribution of movement directions of an action, it is able to partially retain its temporal structure by applying a windowing scheme. The descriptor, together with a standard classifier, outperforms several state-of-the-art techniques on many well-known datasets

    Aprendizaje automático : Aplicaciones en reconocimiento de gestos, acciones y señas

    Get PDF
    En los últimos años el procesamiento de texto, sonido, video y otras señales ha experimentado grandes progresos mediante el uso de una técnica de Aprendizaje Automático denominada Redes Neuronales Profundas o Aprendizaje Profundo (Deep Learning), que extiende los modelos previos de redes neuronales artificiales con arquitecturas y algoritmos de optimización que permiten entrenar redes de varias capas con grandes cantidades de datos de entrenamiento. Como aplicación, en este plan se propone estudiar métodos para entender que sucede en una escena a partir de una imagen o video de la misma. Se hará énfasis en tres subproblemas: reconocer señas, acciones y gestos realizados por personas. Cada uno de estos problemas tiene sus particularidades, pero se encuentran estrechamente interrelacionados. El reconocimiento de señas busca convertir a texto un video donde una persona realiza señas en alguna lengua de señas existente, como la Lengua de Señas Argentina (LSA), con sus reglas particulares preestablecidas. En el reconocimiento de acciones, se busca entender y categorizar una acción arbitraria que realiza una persona . Por último, en el reconocimiento de gestos usualmente se busca reconocer un conjunto de gestos previamente establecidos y de uso particular para un dominio específico. Si bien en el último tiempo han habido avances en este área, impulsados principalmente por el desarrollo de nuevas tecnologías, aún queda un largo camino por recorrer para construir aplicaciones precisas y robustas que permitan, por ejemplo, la traducción e interpretación de las señas realizadas por un intérprete.Universidad Nacional de La Plat

    Aprendizaje automático : Aplicaciones en reconocimiento de gestos, acciones y señas

    Get PDF
    En los últimos años el procesamiento de texto, sonido, video y otras señales ha experimentado grandes progresos mediante el uso de una técnica de Aprendizaje Automático denominada Redes Neuronales Profundas o Aprendizaje Profundo (Deep Learning), que extiende los modelos previos de redes neuronales artificiales con arquitecturas y algoritmos de optimización que permiten entrenar redes de varias capas con grandes cantidades de datos de entrenamiento. Como aplicación, en este plan se propone estudiar métodos para entender que sucede en una escena a partir de una imagen o video de la misma. Se hará énfasis en tres subproblemas: reconocer señas, acciones y gestos realizados por personas. Cada uno de estos problemas tiene sus particularidades, pero se encuentran estrechamente interrelacionados. El reconocimiento de señas busca convertir a texto un video donde una persona realiza señas en alguna lengua de señas existente, como la Lengua de Señas Argentina (LSA), con sus reglas particulares preestablecidas. En el reconocimiento de acciones, se busca entender y categorizar una acción arbitraria que realiza una persona . Por último, en el reconocimiento de gestos usualmente se busca reconocer un conjunto de gestos previamente establecidos y de uso particular para un dominio específico. Si bien en el último tiempo han habido avances en este área, impulsados principalmente por el desarrollo de nuevas tecnologías, aún queda un largo camino por recorrer para construir aplicaciones precisas y robustas que permitan, por ejemplo, la traducción e interpretación de las señas realizadas por un intérprete.Universidad Nacional de La Plat

    Aprendizaje automático : Aplicaciones en reconocimiento de gestos, acciones y señas

    Get PDF
    En los últimos años el procesamiento de texto, sonido, video y otras señales ha experimentado grandes progresos mediante el uso de una técnica de Aprendizaje Automático denominada Redes Neuronales Profundas o Aprendizaje Profundo (Deep Learning), que extiende los modelos previos de redes neuronales artificiales con arquitecturas y algoritmos de optimización que permiten entrenar redes de varias capas con grandes cantidades de datos de entrenamiento. Como aplicación, en este plan se propone estudiar métodos para entender que sucede en una escena a partir de una imagen o video de la misma. Se hará énfasis en tres subproblemas: reconocer señas, acciones y gestos realizados por personas. Cada uno de estos problemas tiene sus particularidades, pero se encuentran estrechamente interrelacionados. El reconocimiento de señas busca convertir a texto un video donde una persona realiza señas en alguna lengua de señas existente, como la Lengua de Señas Argentina (LSA), con sus reglas particulares preestablecidas. En el reconocimiento de acciones, se busca entender y categorizar una acción arbitraria que realiza una persona . Por último, en el reconocimiento de gestos usualmente se busca reconocer un conjunto de gestos previamente establecidos y de uso particular para un dominio específico. Si bien en el último tiempo han habido avances en este área, impulsados principalmente por el desarrollo de nuevas tecnologías, aún queda un largo camino por recorrer para construir aplicaciones precisas y robustas que permitan, por ejemplo, la traducción e interpretación de las señas realizadas por un intérprete.Universidad Nacional de La Plat
    corecore