2,106 research outputs found
New structures to solve aggregated queries for trips over public transportation networks
Representing the trajectories of mobile objects is a hot topic from the
widespread use of smartphones and other GPS devices. However, few works have
focused on representing trips over public transportation networks (buses,
subway, and trains) where a user's trips can be seen as a sequence of stages
performed within a vehicle shared with many other users. In this context,
representing vehicle journeys reduces the redundancy because all the passengers
inside a vehicle share the same arrival time for each stop. In addition, each
vehicle journey follows exactly the sequence of stops corresponding to its
line, which makes it unnecessary to represent that sequence for each journey.
To solve data management for transportation systems, we designed a conceptual
model that gave us a better insight into this data domain and allowed us the
definition of relevant terms and the detection of redundancy sources among
those data. Then, we designed two compact representations focused on users'
trips (TTCTR) and on vehicle trips (AcumM), respectively. Each approach owns
some strengths and is able to answer some queries efficiently.
We include experimental results over synthetic trips generated from accurate
schedules obtained from a real network description (from the bus transportation
system of Madrid) to show the space/time trade-off of both approaches. We
considered a wide range of different queries about the use of the
transportation network such as counting-based or aggregate queries regarding
the load of any line of the network at different times.Comment: This research has received funding from the European Union's Horizon
2020 research and innovation programme under the Marie Sk{\l}odowska-Curie
Actions H2020-MSCA-RISE-2015 BIRDS GA No. 69094
Compressed data structures for trajectory representation
Programa Oficial de Doutoramento en Computación . 5009V01[Abstract]
The proliferation of GPS devices in smartphones, vehicles and sport wearables in one
hand, and geolocation mechanisms (such as smart cards in public transportation) in
the other hand, have produced an unprecedented capacity of obtaining and storing
trajectories that people generate by the movements that originate from their daily
schedules. However, no standard data models exist to represent these trajectories,
and besides neither traditional databases nor new NoSQL databases are adequate for
the representation and exploitation of the complex data of spatio-temporal nature
which these trajectories consist of. This general outlook is even more complex once
we consider that whenever we are storing information related to a context of public
transportation passengers, customers inside a mall, or simply vehicles moving in a
city we must deal with a true Big Data scenario in which guaranteeing an efficient
response can be very challenging.
Consequently, in this thesis we address the design of compact data structures
for the representation of the followed trajectories, both in the context of vehicles
and/or people moving in urban or periurban spaces, as in the context of itineraries
of commuters in public transportation. Additionally to designing these compact
data structures that allow us to represent the Big Data scenario usually seen in
this application domain, we have designed the algorithms that allow the efficient
exploitation of said information.
These algorithms, in addition to solving classic spatio-temporal queries, such
as obtaining the position of a moving object at a time instant, reconstructing the
trajectory of an object, or even spatio-temporal window queries (which objects are
inside a spatial range either within a time window or at a time instant), are also
able to solve more specialized queries for the analysis of trajectories that travelers
make. For instance, we have designed algorithms to query the number of travelers
that start (or finish) their trip in a certain place within a determined time interval,
or the number of travelers that switch from one line from the public transportation
network to another using a particular stop, or even the number of travelers that
had started their trip in a certain place (which can be either a stop or a whole
neighborhood) to finish it in another place.
Both the designed structures as the querying algorithms, which are available at https://github.com/dgalaktionov/compact-trip-representation, have been
experimentally evaluated. With these structures we are able to represent, in a
compact space of 100 MiB, a collection of approximately a million and a half of taxi
trajectories, or alternatively ten million trajectories consisting of itineraries over
public transportation networks, given that they are more compact. In both cases, we
can solve most of the considered exploitation queries in the order of microseconds,
with algorithms that scale logarithmically with respect to the increase in the number
of stored trajectories.
Finally, considering the practical quality of this work, it was required for the
performed research to be of a clearly applied nature, which led us to developing a
web application with Geograhic Information Systems technology, which integrates
with our compressed structures and algorithms instead of relying on common spatial
databases. This application, which provides a simple and intuitive user interface
that represents the map of a transportation network, enabled an end user to run the
aforementioned algorithms over a large collection of historic trajectories. Likewise,
this interface presents the query results in a graphical and intuitive way.[Resumen]
La proliferación de por un lado de dispositivos GPS en smartphones, vehículos
o pulseras de deporte, y por otro, de otros mecanismos de geolocalización (como
las tarjetas de pago de trasporte público), han generado una capacidad inédita de
obtener y almacenar las trayectorias que generan las personas al moverse durante
sus quehaceres diarios. Sin embargo, no existen modelos de datos estándar para
representar dichas trayectorias, además de que ni las bases de datos tradicionales,
ni para las nuevas bases de datos NoSQL se adecúan bien a la representación y
explotación de esos datos complejos de naturaleza espacio-temporal que son las
trayectorias. Para hacer más complejo aún el panorama, se constata además que
cuando se quieren almacenar trayectorias de viajeros de transporte público, o de
clientes en centros comerciales, o simplemente de personas o vehículos moviéndose
por la ciudad hay que enfrentarse a un verdadero escenario Big Data en el que la
eficiencia en la respuesta a las consultas se hace muy difícil. Por todo ello, en esta
tesis se aborda el diseño de estructuras de datos compactas para la representación
de las trayectorias seguidas, por un lado, por vehículos y/o personas que se mueven
por las calles de un entorno urbano o periurbano acotado, y por otro los itinerarios
de viajeros de transporte público. Además de diseñar esas estructuras de datos
compactas, que permiten representar ese escenario Big Data habitual en estos
dominios de aplicación, se han diseñado los algoritmos que permiten la explotación
eficiente de dichos datos. Dichos algoritmos, además de resolver las consultas
espacio-temporales clásicas, tanto las de posición de un objeto en un tiempo, o
trayectoria de un objeto durante un intervalo temporal, como las consultas de rango
espacio-temporal (qué objetos están en una ventana del espacio en un instante o
intervalo temporal) resuelven también consultas más especializadas para el análisis
de trayectorias de viajeros. Por ejemplo, hemos diseñado algoritmos para consultar
el número de viajeros que inician (o terminan) su viaje en cierto lugar dentro
de un cierto intervalo temporal, o el número de viajeros que conmutan de una
línea a otra de la red de transporte público en una cierta parada, o incluso el
número de viajeros que inicia su viaje en cierto lugar (parada o barrio) y lo
termina en otra parada o barrio determinados. Tanto las estructuras de datos
diseñadas como todos los algoritmos de consulta, que están disponibles en https://github.com/dgalaktionov/compact-trip-representation, han sido evaluados
experimentalmente. Con estas estructuras es posible representar en un espacio de 100
MiB una colección de aproximadamente un millón y medio de trayectorias de taxis, o
alternativamente diez millones de trayectorias consistentes de itinerarios sobre redes
de transporte público, al ser éstas últimas más compactas. En ambos casos, podemos
resolver la mayor parte de las consultas de explotación planteadas en el orden de
microsegundos, con algoritmos que escalan de forma logarítmica con respecto al
incremento en el número de trayectorias almacenadas. Por último y dado el carácter
de tesis industrial de este trabajo, era necesario que la investigación realizada tuviese
un carácter claramente aplicado, por ello se implementó una aplicación web con
tecnología de Sistemas de Información Geográfica que en vez de trabajar sobre una
base de datos espacial convencional utiliza la estructura comprimida y los algoritmos
para su explotación diseñados en la tesis. Esa aplicación facilita, mediante una
sencilla e intuitiva interfaz de usuario que representa el mapa de la red de transporte,
el lanzamiento de los algoritmos diseñados sobre un amplio conjunto de trayectorias
de viajeros. Del mismo modo esa interfaz presenta los resultados de las consultas de
modo gráfico e intuitivo.[Resumo]
A proliferación de por un lado os dispositivos GPS en smartphones, vehículos ou
brazaletes deportivos e por outro lado os mecanismos de xeolocalización (como as
tarxetas de pago do transporte público), xeraron unha capacidade sen precedentes
para obter e almacenar as traxectorias que a xente xera ao moverse durante as súas
tarefas diarias. Non obstante, non hai modelos de datos estándar para representar
tales traxectorias, ademais de que nin as bases de datos tradicionais nin para as
novas bases de datos NoSQL son adecuadas para a representación e explotación de
datos tan complexos de natureza espazo-temporal que son as traxectorias. Para facer
o panorama aínda máis complexo, tamén se comproba que cando se quere almacenar
traxectorias de viaxeiros de transporte público, ou clientes en centros comerciais, ou
simplemente de persoas ou vehículos que se desprazan pola cidade, se ten que afrontar
un verdadeiro escenario de Big Data no que a eficiencia na resposta ás consultas faise
moi difícil. Por iso, esta tese trata do deseño de estruturas compactas de datos para
a representación dos camiños seguidos, por un lado, por vehículos e/ou persoas que
se desprazan polas rúas dun contorno urbano ou periurbano delimitado, e por outros
itinerarios de viaxeiros en transporte público. Ademais de deseñar estas estruturas
compactas de datos, que permiten representar ese escenario Big Data habitual neste
dominios de aplicación, deseñáronse algoritmos que permitan a explotación eficiente
dos devanditos datos. Estes algoritmos, ademais de resolver as clásicas consultas
espazo-temporais, tanto a posición dun obxecto á vez, como a traxectoria dun obxecto
durante un intervalo de tempo, así como as consultas de rango espazo-temporal (qué
obxectos están nun rango do espazo nun intre ou nun intervalo temporal) tamén
resolver consultas máis especializadas para a análise de traxectorias de viaxeiros.
Por exemplo, deseñamos algoritmos para comprobar o número de viaxeiros que
inician (ou terminan) a súa viaxe nun determinado lugar nun determinado intervalo
de tempo, ou o número de viaxeiros que cambian dunha liña a outra da rede
de transporte público nun certa parada, ou incluso o número de viaxeiros que
comezan a súa viaxe nun determinado lugar (parada ou barrio) e rematan noutra
parada ou barrio específico. Tanto as estruturas de datos deseñadas como todos
os algoritmos de consulta, dispoñibles en https://github.com/dgalaktionov/
compact-trip-representation, foron evaluados experimentalmente. Con estas estruturas é posible representar nun espazo de 100 MiB unha colección de
aproximadamente un millón e medio de traxectos de taxi ou, alternativamente,
dez millóns de traxectos consistentes en itinerarios en redes de transporte público,
sendo estes últimos máis compactos. Nos dous casos, podemos resolver a maioría
das consultas de explotación plantexadas na orde de microsegundos, con algoritmos
que escalan logarítmicamente con respecto ao aumento do número de traxectorias
almacenadas. Finalmente, dado o carácter de tese industrial deste traballo, foi
necesario que a investigación realizada tivese un carácter claramente aplicado, polo
que se implementou unha aplicación web con tecnoloxía de Sistemas de Información
Xeográfica que no canto de traballar nunha base de datos espacial convencional usa a
estrutura comprimida e algoritmos de explotación deseñados na tese. Esta aplicación
facilita, mediante unha interface de usuario sinxela e intuitiva que representa o mapa
da rede de transporte, o lanzamento dos algoritmos deseñados nun amplo conxunto
de rutas de pasaxeiros. Do mesmo xeito que a interface presenta os resultados das
consultas dun xeito gráfico e intuitivo.Xunta de Galicia; IN848D 2017 2350417Xunta de Galicia; IN852A 2018/14Xunta de Galicia; ED431G/01Xunta de Galicia; ED431C 2017/58Ministerio de Economía y Competitividad;
TIN2016-78011-C4-1-RMinisterio de Economía y Competitividad;
TIN2015-69951-RMinisterio de Ciencia e Innovación;
RTI-2018-098309-B-C3
Representation and Exploitation of Event Sequences
Programa Oficial de Doutoramento en Computación . 5009V01[Abstract]
The Ten Commandments, the thirty best smartphones in the market and
the five most wanted people by the FBI. Our life is ruled by sequences:
thought sequences, number sequences, event sequences. . . a history book
is nothing more than a compilation of events and our favorite film is
just a sequence of scenes. All of them have something in common, it
is possible to acquire relevant information from them. Frequently, by
accumulating some data from the elements of each sequence we may
access hidden information (e.g. the passengers transported by a bus
on a journey is the sum of the passengers who got on in the sequence
of stops made); other times, reordering the elements by any of their
characteristics facilitates the access to the elements of interest (e.g. the
publication of books in 2019 can be ordered chronologically, by author,
by literary genre or even by a combination of characteristics); but it
will always be sought to store them in the smallest space possible.
Thus, this thesis proposes technological solutions for the storage
and subsequent processing of events, focusing specifically on three
fundamental aspects that can be found in any application that needs
to manage them: compressed and dynamic storage, aggregation
or accumulation of elements of the sequence and element sequence
reordering by their different characteristics or dimensions.
The first contribution of this work is a compact structure for the
dynamic compression of event sequences. This structure allows any
sequence to be compressed in a single pass, that is, it is capable of
compressing in real time as elements arrive. This contribution is
a milestone in the world of compression since, to date, this is the
first proposal for a variable-to-variable dynamic compressor for general purpose.
Regarding aggregation, a data warehouse-like proposal is presented
capable of storing information on any characteristic of the events in a
sequence in an aggregated, compact and accessible way. Following the
philosophy of current data warehouses, we avoid repeating cumulative
operations and speed up aggregate queries by preprocessing the
information and keeping it in this separate structure.
Finally, this thesis addresses the problem of indexing event sequences
considering their different characteristics and possible reorderings. A new
approach for simultaneously keeping the elements of a sequence ordered
by different characteristics is presented through compact structures.
Thus, it is possible to consult the information and perform operations
on the elements of the sequence using any possible rearrangement in a
simple and efficient way.[Resumen]
Los diez mandamientos, los treinta mejores móviles del mercado y las
cinco personas más buscadas por el FBI. Nuestra vida está gobernada
por secuencias: secuencias de pensamientos, secuencias de números,
secuencias de eventos. . . un libro de historia no es más que una sucesión
de eventos y nuestra película favorita no es sino una secuencia de
escenas. Todas ellas tienen algo en común, de todas podemos extraer
información relevante. A veces, al acumular algún dato de los elementos
de cada secuencia accedemos a información oculta (p. ej. los viajeros
transportados por un autobús en un trayecto es la suma de los pasajeros
que se subieron en la secuencia de paradas realizadas); otras veces, la
reordenación de los elementos por alguna de sus características facilita
el acceso a los elementos de interés (p. ej. la publicación de obras
literarias en 2019 puede ordenarse cronológicamente, por autor, por
género literario o incluso por una combinación de características); pero
siempre se buscará almacenarlas en el espacio más reducido posible sin
renunciar a su contenido.
Por ello, esta tesis propone soluciones tecnológicas para el almacenamiento
y posterior procesamiento de secuencias, centrándose
concretamente en tres aspectos fundamentales que se pueden encontrar
en cualquier aplicación que precise gestionarlas: el almacenamiento
comprimido y dinámico, la agregación o acumulación de algún dato
sobre los elementos de la secuencia y la reordenación de los elementos
de la secuencia por sus diferentes características o dimensiones.
La primera contribución de este trabajo es una estructura compacta
para la compresión dinámica de secuencias. Esta estructura permite
comprimir cualquier secuencia en una sola pasada, es decir, es capaz de comprimir en tiempo real a medida que llegan los elementos de la
secuencia. Esta aportación es un hito en el mundo de la compresión ya
que, hasta la fecha, es la primera propuesta de un compresor dinámico
“variable to variable” de carácter general.
En cuanto a la agregación, se presenta una propuesta de almacén
de datos capaz de guardar la información acumulada sobre alguna
característica de los eventos de la secuencia de modo compacto y
fácilmente accesible. Siguiendo la filosofía de los actuales almacenes de
datos, el objetivo es evitar repetir operaciones de acumulación y agilizar
las consultas agregadas mediante el preprocesado de la información
manteniéndola en esta estructura.
Por último, esta tesis aborda el problema de la indexación de
secuencias de eventos considerando sus diferentes características y
posibles reordenaciones. Se presenta una nueva forma de mantener
simultáneamente ordenados los elementos de una secuencia por diferentes
características a través de estructuras compactas. Así se permite
consultar la información y realizar operaciones sobre los elementos
de la secuencia usando cualquier posible ordenación de una manera
sencilla y eficiente
Succinct Data Structures in the Realm of GIS
Presented at the 4th XoveTIC Conference, A Coruña, Spain, 7–8 October 2021.[Abstract] Geographic Information Systems (GIS) have spread all over our technological environment in the last decade. The inclusion of GPS technologies in everyday portable devices along with the creation of massive shareable geographical data banks has boosted the rise of geoinformatics. Despite the technological maturity of this field, there are still relevant research challenges concerning efficient information storage and representation. One of the most powerful techniques to tackle these issues is designing new Succinct Data Structures (SDS). These structures are defined by three main characteristics: they use a compact representation of the data, they have self-index properties and, as a consequence, they do not need decompression to process the enclosed information. Thus, SDS are not only capable of storing geographical data using as little space as possible, but they can also solve queries efficiently without any previous decompression. This work introduces how SDS can be successfully applied in the GIS context through several novel approaches and practical use cases.This work is partially funded by the CITIC research center funded by Xunta/FEDER-UE 2014-2020 Program, ED431G 2019/01. MICINN(PGE/ERDF) [EXTRA-Compact: PID2020-114635RB-I00]Xunta de Galicia; ED431G 2019/0
Integrating ULTRA and trip-based routing
We study a bi-modal journey planning scenario consisting of a public transit network and a transfer graph representing a secondary transportation mode (e.g., walking or cycling). Given a pair of source and target locations, the objective is to find a Pareto set of journeys optimizing arrival time and the number of required transfers. For public transit networks with a restricted, transitively closed transfer graph, one of the fastest known algorithms solving this bi-criteria problem is Trip-Based Routing [Witt, 2015]. However, this algorithm cannot be trivially extended to unrestricted transfer graphs. In this work, we combine Trip-Based Routing with ULTRA [Baum et al., 2019], a preprocessing technique that allows any public transit algorithm that requires transitive transfers to handle an unrestricted transfer graph. Since both ULTRA and Trip-Based Routing precompute transfer shortcuts in a preprocessing phase, a naive combination of the two leads to a three-phase algorithm that performs redundant work and produces superfluous shortcuts. We therefore propose a new, integrated preprocessing phase that combines the advantages of both and reduces the number of computed shortcuts by up to a factor of 9 compared to a naive combination. The resulting query algorithm, ULTRA-Trip-Based is the fastest known algorithm for the considered problem setting, achieving a speedup of up to 4 compared to the fastest previously known approach, ULTRA-RAPTOR
Integrating ULTRA and Trip-Based Routing
We study a bi-modal journey planning scenario consisting of a public transit network and a transfer graph representing a secondary transportation mode (e.g., walking or cycling). Given a pair of source and target locations, the objective is to find a Pareto set of journeys optimizing arrival time and the number of required transfers. For public transit networks with a restricted, transitively closed transfer graph, one of the fastest known algorithms solving this bi-criteria problem is Trip-Based Routing [Witt, 2015]. However, this algorithm cannot be trivially extended to unrestricted transfer graphs. In this work, we combine Trip-Based Routing with ULTRA [Baum et al., 2019], a preprocessing technique that allows any public transit algorithm that requires transitive transfers to handle an unrestricted transfer graph. Since both ULTRA and Trip-Based Routing precompute transfer shortcuts in a preprocessing phase, a naive combination of the two leads to a three-phase algorithm that performs redundant work and produces superfluous shortcuts. We therefore propose a new, integrated preprocessing phase that combines the advantages of both and reduces the number of computed shortcuts by up to a factor of 9 compared to a naive combination. The resulting query algorithm, ULTRA-Trip-Based is the fastest known algorithm for the considered problem setting, achieving a speedup of up to 4 compared to the fastest previously known approach, ULTRA-RAPTOR
Crowdsensing-driven route optimisation algorithms for smart urban mobility
Urban rörlighet anses ofta vara en av de främsta möjliggörarna för en hållbar statsutveckling.
Idag skulle det dock kräva ett betydande skifte mot renare och effektivare stadstransporter vilket skulle stödja ökad social och ekonomisk koncentration av resurser i städerna. En viktig prioritet för städer runt om i världen är att stödja medborgarnas rörlighet inom stadsmiljöer medan samtidigt minska trafikstockningar, olyckor och föroreningar. Att utveckla en effektivare och grönare (eller med ett ord; smartare) stadsrörlighet är en av de svåraste problemen att bemöta för stora metropoler. I denna avhandling närmar vi oss problemet från det snabba utvecklingsperspektivet av ITlandskapet i städer vilket möjliggör byggandet av rörlighetslösningar utan stora stora investeringar eller sofistikerad sensortenkik.
I synnerhet föreslår vi utnyttjandet av den mobila rörlighetsavkännings, eng. Mobile Crowdsensing (MCS), paradigmen i vilken befolkningen exploaterar sin mobilkommunikation och/eller mobilasensorer med syftet att frivilligt samla, distribuera, lokalt processera och analysera geospecifik information. Rörlighetavkänningssdata (t.ex. händelser, trafikintensitet, buller och luftföroreningar etc.) inhämtad från frivilliga i befolkningen kan ge värdefull information om aktuella rörelsesförhållanden i stad vilka, med adekvata databehandlingsalgoriter, kan användas för att planera människors
rörelseflöden inom stadsmiljön.
Såtillvida kombineras i denna avhandling två mycket lovande smarta rörlighetsmöjliggörare, eng. Smart Mobility Enablers, nämligen MCS och rese/ruttplanering.
Vi kan därmed till viss utsträckning sammanföra forskningsutmaningar från dessa två delar. Vi väljer att separera våra forskningsmål i två delar, dvs forskningssteg: (1) arkitektoniska utmaningar vid design av MCS-system och (2) algoritmiska utmaningar för tillämpningar av MCS-driven ruttplanering.
Vi ämnar att visa en logisk forskningsprogression över tiden, med avstamp i mänskligt dirigerade rörelseavkänningssystem som MCS och ett avslut i automatiserade ruttoptimeringsalgoritmer
skräddarsydda för specifika MCS-applikationer. Även om vi förlitar oss på heuristiska lösningar och algoritmer för NP-svåra ruttproblem förlitar vi oss på äkta applikationer med syftet att visa på fördelarna med algoritm- och infrastrukturförslagen.La movilidad urbana es considerada una de las principales desencadenantes de un desarrollo urbano sostenible. Sin embargo, hoy en día se requiere una transición hacia un transporte urbano más limpio y más eficiente que soporte una concentración de recursos sociales y económicos cada vez mayor en las ciudades. Una de las principales prioridades para las ciudades de todo el mundo es facilitar la movilidad de los ciudadanos dentro de los entornos urbanos, al mismo tiempo que se reduce la congestión, los accidentes y la contaminación. Sin embargo, desarrollar una movilidad urbana más eficiente y más verde (o en una palabra, más inteligente) es uno de los temas más difíciles de afrontar para las grandes áreas metropolitanas. En esta tesis, abordamos este problema desde la perspectiva de un panorama TIC en rápida evolución que nos permite construir movilidad sin la necesidad de grandes inversiones ni sofisticadas tecnologías de sensores. En particular, proponemos aprovechar el paradigma Mobile Crowdsensing (MCS) en el que los ciudadanos utilizan sus teléfonos móviles y dispositivos, para nosotros recopilar, procesar y analizar localmente información georreferenciada, distribuida voluntariamente. Los datos de movilidad recopilados de ciudadanos que voluntariamente quieren compartirlos (por ejemplo, eventos, intensidad del tráfico, ruido y contaminación del aire, etc.) pueden proporcionar información valiosa sobre las condiciones de movilidad actuales en la ciudad, que con el algoritmo de procesamiento de datos adecuado, pueden utilizarse para enrutar y gestionar el flujo de gente en entornos urbanos. Por lo tanto, en esta tesis combinamos dos prometedoras fuentes de movilidad inteligente: MCS y la planificación de viajes/rutas, uniendo en cierta medida los distintos desafíos de investigación. Hemos dividido nuestros objetivos de investigación en dos etapas: (1) Desafíos arquitectónicos en el diseño de sistemas MCS y (2) Desafíos algorítmicos en la planificación de rutas aprovechando la información del MCS. Nuestro objetivo es demostrar una progresión lógica de la investigación a lo largo del tiempo, comenzando desde los fundamentos de los sistemas de detección centrados en personas, como el MCS, hasta los algoritmos de optimización de rutas diseñados específicamente para la aplicación de estos. Si bien nos centramos en algoritmos y heurísticas para resolver problemas de enrutamiento de clase NP-hard, utilizamos ejemplos de aplicaciones en el mundo real para mostrar las ventajas de los algoritmos e infraestructuras propuestas
- …