14 research outputs found

    Resources for computer-based sign recognition from video, and the criticality of consistency of gloss labeling across multiple large ASL video corpora

    Get PDF
    The WLASL purports to be “the largest video dataset for Word-Level American Sign Language (ASL) recognition.” It brings together various publicly shared video collections that could be quite valuable for sign recognition research, and it has been used extensively for such research. However, a critical problem with the accompanying annotations has heretofore not been recognized by the authors, nor by those who have exploited these data: There is no 1-1 correspondence between sign productions and gloss labels. Here we describe a large, linguistically annotated, video corpus of citation-form ASL signs shared by the ASLLRP—with 23,452 sign tokens and an online Sign Bank—in which such correspondences are enforced. We furthermore provide annotations for 19,672 of the WLASL video examples consistent with ASLLRP glossing conventions. For those wishing to use WLASL videos, this provides a set of annotations making it possible: (1) to use those data reliably for computational research; and/or (2) to combine the WLASL and ASLLRP datasets, creating a combined resource that is larger and richer than either of those datasets individually, with consistent gloss labeling for all signs. We also offer a summary of our own sign recognition research to date that exploits these data resources.Published versio

    Modern automatic recognition technologies for visual communication tools

    Get PDF
    Общение представляет собой широкий спектр различных действий, связанных с приёмом и передачей информации. Процесс общения складывается из вербальных, паравербальных и невербальных компонентов, содержащих информационную часть передаваемого сообщения и его эмоциональную окраску соответственно. Комплексный анализ всех компонентов общения позволяет оценить не только содержательную составляющую, но и ситуативный контекст сказанного, а также выявлять дополнительные факторы, относящиеся к психическому и соматическому состоянию говорящего. Существует несколько методов передачи вербального сообщения, среди которых устная и жестовая речь. Речевые и околоречевые компоненты общения могут содержаться в различных каналах данных, таких как аудио- или видеоканалы. В данном обзоре рассматриваются системы анализа видеоданных ввиду того, что аудиоканал не способен передать ряд околоречевых компонентов общения, вносящих в передаваемое сообщение дополнительную информацию. Проводится анализ существующих баз данных статических и динамических образов и систем, разрабатываемых для распознавания вербальной составляющей в устной и жестовой речи, а также систем, оценивающих паравербальные и невербальные компоненты общения. Обозначены сложности, с которыми сталкиваются разработчики подобных баз данных и систем. Также сформулированы перспективные направления разработок, связанные в том числе с комплексным анализом всех компонентов общения с целью наиболее полной оценки передаваемого сообщения.Работа выполнена при поддержке Госпрограммы 47 ГП «Научно-технологическое развитие Российской Федерации» (2019-2030), тема 0134-2019-0006

    Clasificación de gestos utilizando Deep Learning en datasets con pocos datos etiquetados

    Get PDF
    En los últimos años el aprendizaje profundo ha demostrado ser un método suma-mente efectivo a la hora de realizar clasificación de imágenes. Esta efectividad esasociada en parte al aumento de poder de procesamiento, al desarrollo de nuevos al-goritmos y al incremento en el tamaño y cantidad de conjuntos de datos disponibles.Pero este aumento en la cantidad de conjuntos de datos disponibles no ha alcanzadotodas las problemáticas existentes, teniendo múltiples áreas donde los conjuntos dedatos disponibles son pequeños para la aplicación efectiva de modelos de aprendiza-je profundo o cuyos datos poseen información poco útil al no ser lo suficientementerepresentativa del problema o poseer ruido.Esta limitación en la cantidad de datos etiquetados es una problemática actualexistente en la clasificación de señas de la lengua de señas. En esta tesis se explorarondiversos métodos para lograr alcanzar la mejor precisión posible utilizando la menorcantidad de datos. Llegando finalmente a lograr una precisión en la clasificación deseñas estáticas del 99.26 % en el conjunto de datos LSA16 y 94 % con el conjunto dedatos RWTH-PHOENIX-Wheater.Facultad de Informátic
    corecore