Search CORE

159 research outputs found

Domain Adaptation in LiDAR Semantic Segmentation by Aligning Class Distributions

Author: Alonso Inigo
Montesano Luis
Murillo Ana C.
Riazuelo Luis
Publication venue
Publication date: 01/01/2021
Field of study

LiDAR semantic segmentation provides 3D semantic information about the environment, an essential cue for intelligent systems during their decision making processes. Deep neural networks are achieving state-of-the-art results on large public benchmarks on this task. Unfortunately, finding models that generalize well or adapt to additional domains, where data distribution is different, remains a major challenge. This work addresses the problem of unsupervised domain adaptation for LiDAR semantic segmentation models. Our approach combines novel ideas on top of the current state-of-the-art approaches and yields new state-of-the-art results. We propose simple but effective strategies to reduce the domain shift by aligning the data distribution on the input space. Besides, we propose a learning-based approach that aligns the distribution of the semantic classes of the target domain to the source domain. The presented ablation study shows how each part contributes to the final performance. Our strategy is shown to outperform previous approaches for domain adaptation with comparisons run on three different domains.Comment: 7 pages, 3 figure

arXiv.org e-Print Archive

Repositorio Universidad de Zaragoza

Performance of object recognition in wearable videos

Author: Montesano Luis
Murillo Ana C.
Sabater Alberto
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 10/09/2020
Field of study

Wearable technologies are enabling plenty of new applications of computer vision, from life logging to health assistance. Many of them are required to recognize the elements of interest in the scene captured by the camera. This work studies the problem of object detection and localization on videos captured by this type of camera. Wearable videos are a much more challenging scenario for object detection than standard images or even another type of videos, due to lower quality images (e.g. poor focus) or high clutter and occlusion common in wearable recordings. Existing work typically focuses on detecting the objects of focus or those being manipulated by the user wearing the camera. We perform a more general evaluation of the task of object detection in this type of video, because numerous applications, such as marketing studies, also need detecting objects which are not in focus by the user. This work presents a thorough study of the well known YOLO architecture, that offers an excellent trade-off between accuracy and speed, for the particular case of object detection in wearable video. We focus our study on the public ADL Dataset, but we also use additional public data for complementary evaluations. We run an exhaustive set of experiments with different variations of the original architecture and its training strategy. Our experiments drive to several conclusions about the most promising directions for our goal and point us to further research steps to improve detection in wearable videos.Comment: Emerging Technologies and Factory Automation, ETFA, 201

arXiv.org e-Print Archive

Crossref

Event Transformer+. A multi-purpose solution for efficient event data processing

Author: Montesano Luis
Murillo Ana C.
Sabater Alberto
Publication venue
Publication date: 22/11/2022
Field of study

Event cameras record sparse illumination changes with high temporal resolution and high dynamic range. Thanks to their sparse recording and low consumption, they are increasingly used in applications such as AR/VR and autonomous driving. Current top-performing methods often ignore specific event-data properties, leading to the development of generic but computationally expensive algorithms, while event-aware methods do not perform as well. We propose Event Transformer+, that improves our seminal work evtprev EvT with a refined patch-based event representation and a more robust backbone to achieve more accurate results, while still benefiting from event-data sparsity to increase its efficiency. Additionally, we show how our system can work with different data modalities and propose specific output heads, for event-stream predictions (i.e. action recognition) and per-pixel predictions (dense depth estimation). Evaluation results show better performance to the state-of-the-art while requiring minimal computation resources, both on GPU and CPU

arXiv.org e-Print Archive

Repositorio Universidad de Zaragoza

Estudio de características frecuenciales de los potenciales de error para el control en continuo mediante interfaces cerebro-máquina

Author: Montesano del Campo Luis
Omedes Llorente Jason
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2013
Field of study

El registro, análisis y procesado de las señales eléctricas generadas por el cerebro tiene aplicaciones en diversos ámbitos como la medicina, la rehabilitación o el entretenimiento. En los últimos años el campo de las interfaces cerebro-computador(BCI) ha experimentado grandes avances incluyendo el control multi-dimensional de dispositivos. En este contexto, desde la Universidad de Zaragoza se ha trabajado en la utilización de información relacionada con los errores para proporcionar información de retro-alimentación durante el uso de la BCI. En particular, se han utilizado los potenciales de error, un tipo de potencial evocado (ERP) que aparece cuando ocurre un evento no esperado. Las interfaces cerebro-computador, incluyendo aquellas basados en potenciales de error, utilizan información en el dominio del tiempo y requieren una fase de calibración previa al control de un dispositivo. Esto implica una gran dificultad para el desarrollo de esta tecnología ya que la señal cerebral depende tanto del usuario, como del día o de la tarea a realizar. Aunque se ha demostrado que los potenciales de error son estables a lo largo del tiempo, trabajos recientes señalan que existen diferencias en la respuesta cerebral en función de la tarea a realizar, en función de la dificultad al evaluar la tarea. Otra dificultad asociada a este tipo de señales es la necesidad de tener un evento muy marcado en el tiempo, o trigger, para elicitar el potencial. Esto dificulta el uso de estos potenciales en situaciones de control realistas como por ejemplo un robot móvil. En este caso, no está claro cuándo el usuario va a percibir un error y si se va a generar el potencial de error correspondiente. Los objetivos de esta tesis de Máster son analizar la posibilidad de eliminar el trigger de este tipo de señales 1) estudiando un nuevo tipo de características en el dominio de la frecuencia y analizando si estas últimas son más robustas ante variaciones en la latencia de respuesta del potencial de error; y 2) evaluando la capacidad de estas características para proporcionar información de retro-alimentación durante el control en continuo de un dispositivo. Para ello, este trabajo se divide en tres partes: 1) Estudio y comparación de la generalización de las características temporales y frecuenciales de los potenciales de error cuando se hace transferencia entre tareas en protocolos con un marcador bien definido, es decir, acciones discretas. Refiriéndose con transferencia a entrenar un clasificador con las características extraídas de una tarea y emplearlo para reconocer eventos en una tarea distinta. 2) Diseño de un protocolo (en pantalla) para el estudio de los potenciales en continuo (acciones continuas donde no existe marcador del evento, o si lo existe no se conoce dónde está). Adquisición de datos de EEG con varios sujetos. Procesamiento de datos para analizar la presencia de potenciales de error y su detección en continuo. 3) Diseño de un protocolo experimental para el control en línea de un robot móvil mediante el uso de potenciales de error y su clasificación en continuo. Experimentación preliminar con varios sujetos y análisis de los resultados obtenidos

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Repositorio Universidad de Zaragoza

The potential of error-related potentials. Analysis and decoding for control, neuro-rehabilitation and motor substitution

Author: MONTESANO DEL CAMPO LUIS
Omedes Llorente Jason
Publication venue: Universidad de Zaragoza, Prensas de la Universidad
Publication date: 01/01/2019
Field of study

Las interfaces cerebro-máquina (BMIs, por sus siglas en inglés) permiten la decodificación de patrones de activación neuronal del cerebro de los usuarios para proporcionar a personas con movilidad severamente limitada, ya sea debido a un accidente o a una enfermedad neurodegenerativa, una forma de establecer una conexión directa entre su cerebro y un dispositivo. En este sentido, las BMIs basadas en técnicas no invasivas, como el electroencefalograma (EEG) han ofrecido a estos usuarios nuevas oportunidades para recuperar el control sobre las actividades de su vida diaria que de otro modo no podrían realizar, especialmente en las áreas de comunicación y control de su entorno.En los últimos años, la tecnología está avanzando a grandes pasos y con ella la complejidad de dispositivos ha incrementado significativamente, ampliando el número de posibilidades para controlar sofisticados dispositivos robóticos, prótesis con numerosos grados de libertad o incluso para la aplicación de complejos patrones de estimulación eléctrica en las propias extremidades paralizadas de un usuario, que le permitan ejecutar movimientos precisos. Sin embargo, la cantidad de información que se puede transmitir entre el cerebro y estos dispositivos sigue siendo muy limitada, tanto por el número como por la velocidad a la que se pueden decodificar los comandos neuronales. Por lo tanto, depender únicamente de las señales neuronales no garantiza un control óptimo y preciso.Para poder sacar el máximo partido de estas tecnologías, el campo de las BMIs adoptó el conocido enfoque de “control-compartido". Esta estrategia de control pretende crear un sistema de cooperación entre el usuario y un dispositivo inteligente, liberando al usuario de las tareas más pesadas requeridas para ejecutar la tarea sin llegar a perder la sensación de estar en control. De esta manera, los usuarios solo necesitan centrar su atención en los comandos de alto nivel (por ejemplo, elegir un elemento específico que agarrar, o elegir el destino final donde moverse) mientras el agente inteligente resuelve problemas de bajo nivel (como planificación de trayectorias, esquivar obstáculos, etc.) que permitan realizar la tarea designada de la manera óptima.En particular, esta tesis gira en torno a una señal neuronal cognitiva de alto nivel originada como la falta de coincidencia entre las expectativas del usuario y las acciones reales ejecutadas por los dispositivos inteligentes. Estas señales, denominadas potenciales de error (ErrPs), se consideran una forma natural de intercomunicar nuestro cerebro con máquinas y, por lo tanto, los usuarios solo requieren monitorizar las acciones de un dispositivo y evaluar mentalmente si este último se comporta correctamente o no. Esto puede verse como una forma de supervisar el comportamiento del dispositivo, en el que la decodificación de estas evaluaciones mentales se utiliza para proporcionar a estos dispositivos retroalimentación directamente relacionada con la ejecución de una tarea determinada para que puedan aprender y adaptarse a las preferencias del usuario.Dado que la respuesta neuronal de ErrP está asociada a un evento exógeno (dispositivo que comete una acción errónea), la mayoría de los trabajos desarrollados han intentado distinguir si una acción es correcta o errónea mediante la explotación de eventos discretos en escenarios bien controlados. Esta tesis presenta el primer intento de cambiar hacia configuraciones asíncronas que se centran en tareas relacionadas con el aumento de las capacidades motoras, con el objetivo de desarrollar interfaces para usuarios con movilidad limitada. En este tipo de configuraciones, dos desafíos importantes son que los eventos correctos o erróneos no están claramente definidos y los usuarios tienen que evaluar continuamente la tarea ejecutada, mientras que la clasificación de las señales EEG debe realizarse de forma asíncrona. Como resultado, los decodificadores tienen que lidiar constantemente con la actividad EEG de fondo, que típicamente conduce a una gran cantidad de errores de detección de firmas de error. Para superar estos desafíos, esta tesis aborda dos líneas principales de trabajo.Primero, explora la neurofisiología de las señales neuronales evocadas asociadas con la percepción de errores durante el uso interactivo de un BMI en escenarios continuos y más realistas.Se realizaron dos estudios para encontrar características alternativas basadas en el dominio de la frecuencia como una forma de lidiar con la alta variabilidad de las señales del EEG. Resultados, revelaron que existe un patrón estable representado como oscilaciones "theta" que mejoran la generalización durante la clasificación. Además, se utilizaron técnicas de aprendizaje automático de última generación para aplicar el aprendizaje de transferencia para discriminar asincrónicamente los errores cuando se introdujeron de forma gradual y no se conoce presumiblemente el inicio que desencadena los ErrPs. Además, los análisis de neurofisiología arrojan algo de luz sobre los mecanismos cognitivos subyacentes que provocan ErrP durante las tareas continuas, lo que sugiere la existencia de modelos neuronales en nuestro cerebro que acumulan evidencia y solo toman una decisión al alcanzar un cierto umbral. En segundo lugar, esta tesis evalúa la implementación de estos potenciales relacionados con errores en tres aplicaciones orientadas al usuario. Estos estudios no solo exploran cómo maximizar el rendimiento de decodificación de las firmas ErrP, sino que también investigan los mecanismos neuronales subyacentes y cómo los diferentes factores afectan las señales provocadas.La primera aplicación de esta tesis presenta una nueva forma de guiar a un robot móvil que se mueve en un entorno continuo utilizando solo potenciales de error como retroalimentación que podrían usarse para el control directo de dispositivos de asistencia. Con este propósito, proponemos un algoritmo basado en el emparejamiento de políticas para el aprendizaje de refuerzo inverso para inferir el objetivo del usuario a partir de señales cerebrales.La segunda aplicación presentada en esta tesis contempla los primeros pasos hacia un BCI híbrido para ejecutar distintos tipos de agarre de objetos, con el objetivo de ayudar a las personas que han perdido la funcionalidad motora de su extremidad superior. Este BMI combina la decodificación del tipo de agarre a partir de señales de EEG obtenidas del espectro de baja frecuencia con los potenciales de error provocados como resultado de la monitorización de movimientos de agarre erróneos. Los resultados muestran que, en efecto los ErrP aparecen en combinaciones de señales motoras originadas a partir de movimientos de agarre consistentes en una única repetición. Además, la evaluación de los diferentes factores involucrados en el diseño de la interfaz híbrida (como la velocidad de los estímulos, el tipo de agarre o la tarea mental) muestra cómo dichos factores afectan la morfología del subsiguiente potencial de error evocado.La tercera aplicación investiga los correlatos neuronales y los procesos cognitivos subyacentes asociados con desajustes somatosensoriales producidos por perturbaciones inesperadas durante la estimulación eléctrica neuromuscular en el brazo de un usuario. Este estudio simula los posibles errores que ocurren durante la terapia de neuro-rehabilitación, en la que la activación simultánea de la estimulación aferente mientras los sujetos se concentran en la realización de una tarea motora es crucial para una recuperación óptima. Los resultados muestran que los errores pueden aumentar la atención del sujeto en la tarea y desencadenar mecanismos de aprendizaje que al mismo tiempo podrían promover la neuroplasticidad motora.En resumen, a lo largo de esta tesis, se han diseñado varios paradigmas experimentales para mejorar la comprensión de cómo se generan los potenciales relacionados con errores durante el uso interactivo de BMI en aplicaciones orientadas al usuario. Se han propuesto diferentes métodos para pasar de la configuración bloqueada en el tiempo a la asíncrona, tanto en términos de decodificación como de percepción de los eventos erróneos; y ha explorado tres aplicaciones relacionadas con el aumento de las capacidades motoras, en las cuales los ErrPs se pueden usar para el control de dispositivos, la sustitución de motores y la neuro-rehabilitación.Brain-machine interfaces (BMIs) allow the decoding of cortical activation patterns from the users brain to provide people with severely limited mobility, due to an accident or disease, a way to establish a direct connection between their brain and a device. In this sense, BMIs based in noninvasive recordings, such as the electroencephalogram (EEG) have o↵ered these users new opportunities to regain control over activities of their daily life that they could not perform otherwise, especially in the areas of communication and control of their environment. Over the past years and with the latest technological advancements, devices have significantly grown on complexity expanding the number of possibilities to control complex robotic devices, prosthesis with numerous degrees of freedom or even to apply compound patterns of electrical stimulation on the subjects own paralyzed extremities to execute precise movements. However, the band-with of communication between brain and devices is still very limited, both in terms of the number and the speed at which neural commands can be decoded, and thus solely relying on neural signals do not guarantee accurate control them. In order to benefit of these technologies, the field of BMIs adopted the well-known approach of shared-control. This strategy intends to create a cooperation system between the user and an intelligent device, liberating the user from the burdensome parts of the task without losing the feeling of being in control. Here, users only need to focus their attention on high-level commands (e.g. choose the final destination to reach, or a specific item to grab) while the intelligent agent resolve low-level problems (e.g. trajectory planning, obstacle avoidance, etc) to perform the designated task in the optimal way. In particular, this thesis revolves around a high-level cognitive neural signal originated as the mismatch between the expectations of the user and the actual actions executed by the intelligent devices. These signals, denoted as error-related potentials (ErrPs), are thought as a natural way to intercommunicate our brain with machines and thus users only require to monitor the actions of a device and mentally assess whether the latter is behaving correctly or not. This can be seen as a way to supervise the device’s behavior, in which the decoding of these mental assessments is used to provide these devices with feedback directly related with the performance of a given task so they can learn and adapt to the user’s preferences. Since the ErrP’s neural response is associated to an exogenous event (device committing an erroneous action), most of the developed works have attempted to distinguish whether an action is correct or erroneous by exploiting discrete events under well-controlled scenarios. This thesis presents the first attempt to shift towards asynchronous settings that focus on tasks related with the augmentation of motor capabilities, with the objective of developing interfaces for users with limited mobility. In this type of setups, two important challenges are that correct or erroneous events are not clearly defined and users have to continuously evaluate the executed task, while classification of EEG signals has to be performed asynchronously. As a result, the decoders have to constantly deal with background EEG activity, which typically leads to a large number of missdetection of error signatures. To overcome these challenges, this thesis addresses two main lines of work. First, it explores the neurophysiology of the evoked neural signatures associated with the perception of errors during the interactive use of a BMI in continuous and more realistic scenarios. Two studies were performed to find alternative features based on the frequency domain as a way of dealing with the high variability of EEG signals. Results, revealed that there exists a stable pattern represented as theta oscillations that enhance generalization during classification. Also, state-of-the-art machine learning techniques were used to apply transfer learning to asynchronously discriminate errors when they were introduced in a gradual fashion and the onset that triggers the ErrPs is not presumably known. Furthermore, neurophsysiology analyses shed some light about the underlying cognitive mechanisms that elicit ErrP during continuous tasks, suggesting the existence of neural models in our brain that accumulate evidence and only take a decision upon reaching a certain threshold. Secondly, this thesis evaluates the implementation of these error-related potentials in three user-oriented applications. These studies not only explore how to maximize the decoding performance of ErrP signatures but also investigate the underlying neural mechanisms and how di↵erent factors a↵ect the elicited signals. The first application of this thesis presents a new way to guide a mobile robot moving in a continuous environment using only error potentials as feedback which could be used for the direct control of assistive devices. With this purpose, we propose an algorithm based on policy matching for inverse reinforcement learning to infer the user goal from brain signals. The second application presented in this thesis contemplates the first steps towards a hybrid BMI for grasping oriented to assist people who have lost motor functionality of their upper-limb. This BMI combines the decoding of the type of grasp from low-frequency EEG signals with error-related potentials elicited as the result of monitoring an erroneous grasping. The results show that ErrPs are elicited in combination of motor signatures from the low-frequency spectrum originated from single repetition grasping tasks and evaluates how di↵erent design factors (such as the speed of the stimuli, type of grasp or mental task) impact the morphology of the subsequent evoked ErrP. The third application investigates the neural correlates and the underlying cognitive processes associated with somatosensory mismatches produced by unexpected disturbances during neuromsucular electrical stimulation on a user’s arm. This study simulates possible errors that occur during neurorehabilitation therapy, in which the simultaneous activation of a↵erent stimulation while the subjects are concentrated in performing a motor task is crucial for optimal recovery. The results showed that errors may increase subject’s attention on the task and trigger learning mechanisms that at the same time could promote motor neuroplasticity. In summary, throughout this thesis, several experimental paradigms have been designed to improve the understanding of how error-related potentials are generated during the interactive use of BMIs in user-oriented applications. Di↵erent methods have been proposed to shift from time-locked to asynchronous settings, both in terms of decoding and perception of the erroneous events; and it has explored three applications related with the augmentation of motor capabilities, in which ErrPs can be used for control of devices, motor substitution and neurorehabilitation.<br /

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Repositorio Universidad de Zaragoza