3 research outputs found

    Inferring Relational Potentials in Interacting Systems

    Full text link
    Systems consisting of interacting agents are prevalent in the world, ranging from dynamical systems in physics to complex biological networks. To build systems which can interact robustly in the real world, it is thus important to be able to infer the precise interactions governing such systems. Existing approaches typically discover such interactions by explicitly modeling the feed-forward dynamics of the trajectories. In this work, we propose Neural Interaction Inference with Potentials (NIIP) as an alternative approach to discover such interactions that enables greater flexibility in trajectory modeling: it discovers a set of relational potentials, represented as energy functions, which when minimized reconstruct the original trajectory. NIIP assigns low energy to the subset of trajectories which respect the relational constraints observed. We illustrate that with these representations NIIP displays unique capabilities in test-time. First, it allows trajectory manipulation, such as interchanging interaction types across separately trained models, as well as trajectory forecasting. Additionally, it allows adding external hand-crafted potentials at test-time. Finally, NIIP enables the detection of out-of-distribution samples and anomalies without explicit training. Website: https://energy-based-model.github.io/interaction-potentials.Comment: Published at ICML 2023 (Oral

    Explorant mètodes per a millorar la predicció lineal en seqüències de video

    No full text
    Video prediction has for a long time received attention within the field of computer vision, but it has gained importance during the last decade with the popularization of deep neural networks and their applications to computer vision. In this thesis, the main focus will be to linearize the dynamics of time sequences by exploiting the spatial context that video offers, with the final scope of obtaining better predictions. In the first place, we provide the theoretical base for dynamics. Following, we present several modifications for an existing deterministic predictor network called Dynamical Atoms-based Network (DYAN), which models time sequences as the output of Linear Time-Invariant (LTI) systems using system identification and dynamics foundations. The solutions present different levels of success and an in some cases they beat the State Of The Art (SOTA) for at least one dataset, in the metrics SSIM, MSE and MMF. We also present two novel convolutional autoencoder architectures (LODAEs) for low order dynamics manifold embedding, strongly based on deep neural networks, with the primary aim of giving a generalized solution for mapping video sequences into a new manifold, to adapt them to the pipeline of predictors such as DYAN, based on system identification. The results for the LODAEs are promising as they seem to achieve their goal for a very simple synthetic dataset by lowering the order of the latent space sequences and providing good reconstructions and in some cases, predictions.La predicción de video ha recibido atención en el campo de visión por computador durante un largo período de tiempo, pero ha ganado importancia durante la última década por la popularización de las redes neuronales y sus aplicaciones para visión. En este trabajo de fin de máster, el principal objetivo será linearizar la dinámica de las secuencias temporales a base de explotar el contexto espacial que ofrecen las secuencias de vídeo, con la intención de obtener mejores predicciones. En primer lugar, ofrecemos una sección de teoría de los fundamentos de dinámica. A continuación, presentamos diversas modificaciones para una red predictora determinística llamada Dynamical Atoms-Based Network (DYAN), que modela secuencias temporales como salida de un sistema lineal invariable en el tiempo (LTI), haciendo uso de herramientas de identificación de sistemas. Las soluciones presentan diferentes niveles de éxito y en alguno de los casos sobrepasan en resultados al estado del arte (SOTA) para al menos un set de datos, en las métricas SSIM, MSE y MMF. Además, presentamos dos arquitecturas en forma de autoencoder convolucional (LODAEs) para embeder datos en un espacio con dinámica de orden bajo, basadas en redes neuronales y con el principal objetivo de dar una solución generalizada para mapear secuencias de video en este nuevo espacio, y de esta forma adaptar los datos para predictores del mismo tipo que DYAN, basados en identificación de sistemas. Los resultados para los LODAEs son prometedores y parece que logran su objetivo para un set de datos sintético relativamente sencillo, reduciendo el orden de la dinámica en el espacio latente y obteniendo buenas reconstrucciones y, en algún caso, predicciones.La predicció de vídeo ha rebut atenció en el camp de visió per computador durant un llarg període de temps, però ha guanyat importància durant la última dècada per la popularització de les xarxes neuronals i les seves aplicacions per visió. En aquest treball de fi de màster, el principal objectiu serà linearitzar la dinàmica de les seqüències temporals a base de explotar el context espacial que ofereixen les seqüències de vídeo, amb la intenció d?obtenir millors prediccions. En primer lloc, oferim una secció de teoria dels fonaments de la dinàmica. A continuació presentem diferents modificacions d?una xarxa predictora determinista anomenada Dynamical Atoms-Based Network (DYAN), que modela seqüències temporals com a sortida d?un sistema lineal invariable en el temps (LTI), fent ús de eines d?identificació de sistemes. Les solucions presenten diferents nivells d?èxit i en algun dels casos sobrepassen els resultats quantitatius de l?estat de l?art (SOTA) per a, com a mínim, un set de dades, en les mètriques SSIM, MSE i MMF. A més, presentem dues arquitectures en forma de autoencoder convolucional (anomenades LODAEs) per a embedir dades en un espai amb dinàmica d?ordre baix, basades en xarxes neuronals i amb el principal objectiu de donar una solució generalitzada per a projectar seqüències de vídeo en aques nou espai, i d?aquesta manera adaptar les dades per a predictors del mateix tipus que DYAN, basats en identificació de sistemes. Els resultats per als LODAEs són prometedors i sembla que aconsegueixen els eu objectiu per a un set de dades sintètic relativament senzill, reduint l?ordre de la dinàmica en l?espai latent i obtenint bones reconstruccions, i en algun cas, prediccions
    corecore