11 research outputs found
The Right Tools for the Job: The Case for Spatial Science Tool-Building
This paper was presented as the 8th annual Transactions in GIS plenary
address at the American Association of Geographers annual meeting in
Washington, DC. The spatial sciences have recently seen growing calls for more
accessible software and tools that better embody geographic science and theory.
Urban spatial network science offers one clear opportunity: from multiple
perspectives, tools to model and analyze nonplanar urban spatial networks have
traditionally been inaccessible, atheoretical, or otherwise limiting. This
paper reflects on this state of the field. Then it discusses the motivation,
experience, and outcomes of developing OSMnx, a tool intended to help address
this. Next it reviews this tool's use in the recent multidisciplinary spatial
network science literature to highlight upstream and downstream benefits of
open-source software development. Tool-building is an essential but poorly
incentivized component of academic geography and social science more broadly.
To conduct better science, we need to build better tools. The paper concludes
with paths forward, emphasizing open-source software and reusable computational
data science beyond mere reproducibility and replicability
A Data-driven, High-performance and Intelligent CyberInfrastructure to Advance Spatial Sciences
abstract: In the field of Geographic Information Science (GIScience), we have witnessed the unprecedented data deluge brought about by the rapid advancement of high-resolution data observing technologies. For example, with the advancement of Earth Observation (EO) technologies, a massive amount of EO data including remote sensing data and other sensor observation data about earthquake, climate, ocean, hydrology, volcano, glacier, etc., are being collected on a daily basis by a wide range of organizations. In addition to the observation data, human-generated data including microblogs, photos, consumption records, evaluations, unstructured webpages and other Volunteered Geographical Information (VGI) are incessantly generated and shared on the Internet.
Meanwhile, the emerging cyberinfrastructure rapidly increases our capacity for handling such massive data with regard to data collection and management, data integration and interoperability, data transmission and visualization, high-performance computing, etc. Cyberinfrastructure (CI) consists of computing systems, data storage systems, advanced instruments and data repositories, visualization environments, and people, all linked together by software and high-performance networks to improve research productivity and enable breakthroughs that are not otherwise possible.
The Geospatial CI (GCI, or CyberGIS), as the synthesis of CI and GIScience has inherent advantages in enabling computationally intensive spatial analysis and modeling (SAM) and collaborative geospatial problem solving and decision making.
This dissertation is dedicated to addressing several critical issues and improving the performance of existing methodologies and systems in the field of CyberGIS. My dissertation will include three parts: The first part is focused on developing methodologies to help public researchers find appropriate open geo-spatial datasets from millions of records provided by thousands of organizations scattered around the world efficiently and effectively. Machine learning and semantic search methods will be utilized in this research. The second part develops an interoperable and replicable geoprocessing service by synthesizing the high-performance computing (HPC) environment, the core spatial statistic/analysis algorithms from the widely adopted open source python package – Python Spatial Analysis Library (PySAL), and rich datasets acquired from the first research. The third part is dedicated to studying optimization strategies for feature data transmission and visualization. This study is intended for solving the performance issue in large feature data transmission through the Internet and visualization on the client (browser) side.
Taken together, the three parts constitute an endeavor towards the methodological improvement and implementation practice of the data-driven, high-performance and intelligent CI to advance spatial sciences.Dissertation/ThesisDoctoral Dissertation Geography 201
Recommended from our members
Modeling Cycling Counts Using Crowd-Sourced Data
Cycling is beneficial for an individual’s physical and mental well being. Additionally, cycling is a means of sustainable transportation. A critical issue in alternative transportation studies is understanding how new data sources detailing cycling volumes can be used to augment traditional cycling data such as surveys and manual counts. This research addresses the question: “How can cycling flows in specific city corridors be understood and modeled through the fusion of crowdsourced data and traditional data sources?” The results of this work synthesize crowd-sourced and traditional data sources and create a modeling framework to predict the volume of cyclists at a city corridor level. The proposed modeling framework uses a Long Short Term Memory Model, a type Artificial Neural Network, that is able to handle large volumes of spatial data, and account for spatial and temporal autocorrelation.</p
Evaluación de los efectos de la gentrificación y la turistificación sobre áreas urbanas centrales. Los casos de Sevilla y Cádiz
Los impactos socio-espaciales del turismo intensivo, sobre centros históricos de grandes ciudades históricamente turÃsticas, han ganado notable visibilidad pública e interés polÃtico y académico. AquÃ, los debates sobre la gentrificación de ciertas áreas centrales urbanas se han solapado con los estudios sobre lo que ha venido a denominarse como turistificación. En ciudades donde la economÃa se basa principalmente en el turismo con escasas alternativas económicas, los problemas sociales y polÃticos asociados a la misma conviven con la necesidad de mantener estas actividades como fuente de trabajo e inversiones.
Este trabajo analiza la relación entre los recientes procesos sociodemográficos urbanos y el alquiler turÃstico, tomando como caso de estudio los centros históricos de dos ciudades andaluzas de marcado carácter turÃstico: Sevilla y Cádiz. El análisis se fundamenta en los datos sociodemográficos suministrados por el Censo de población y vivienda y el Padrón de habitantes, junto a información de alquileres suministrados por distintas fuentes y entrevistas realizadas a informantes claves. Como resultado, el trabajo demuestra estadÃsticamente la relación de la distribución de los alquileres turÃsticos con varios procesos sociodemográficos, entre ellos la evolución del envejecimiento poblacional, el peso demográfico de residentes o de extranjeros y su influencia en la pérdida de población.
A este respecto se concluye y valora la necesidad de adoptar medidas polÃticas para controlar los efectos de este tipo de procesos socio-espaciales
Digital traces and urban research : Barcelona through social media data
Most of the world’s population now resides in urban areas, and it is expected that almost all of the planet’s growth will be concentrated in them for the next 30 years, making the improvement of the quality of life in the cities one of the big challenges of this century. To that end, it is crucial to have information on how people use the spaces in the city, and allows urban planning to successfully respond to their needs.
This dissertation proposes using data shared voluntarily by the millions of users that make up social network’s communities as a valuable tool for the study of the complexity of the city, because of its capacity of providing an unprecedented volume of urban information, with geographic, temporal, semantic and multimedia components.
However, the volume and variety of data raises important challenges regarding its retrieval, manipulation, analysis and representation, requiring the adoption of the best practices in data science, using a multi-faceted approach in the field of urban studies with a strong emphasis in the reproducibility of the developed methodologies.
This research focuses in the case of study of the city of Barcelona, using the public data collected from Panoramio, Flickr, Twitter and Instagram. After a literature review, the methods to access the different services are discussed, along with their available data and limitations. Next, the retrieved data is analyzed at different spatial and temporal scales.
The first approximation to data focuses on the origins of users who took geotagged pictures of Barcelona, geocoding the hometowns that appear in their Flickr public profiles, allowing the identification of the regions, countries and cities with the largest influx of visitors, and relating the results with multiple indicators at a global scale.
The next scale of analysis discusses the city as a whole, developing methodologies for the representation of the spatial distribution of the collected locations, avoiding the artifacts produced by overplotting. To this end, locations are aggregated in regular tessellations, whose size is determined empirically from their spatial distribution. Two spatial statistics techniques (Moran’s I and Getis-Ord’s G*) are used to visualize the local spatial autocorrelation of the areas with exceptionally high or low densities, under a statistical significance framework. Finally, the kernel density estimation is introduced as a non-parametric alternative.
The third level of detail follows the official administrative division of Barcelona in 73 neighborhoods and 12 districts, which obeys to historical, morphological and functional criteria. Micromaps are introduced as a representation technique capable of providing a geographical context to commonly used statistical graphics, along with a methodology to produce these micromaps automatically. This technique is compared to annotated scatterplots to relate picture intensity with different urban indicators at a neighborhood scale.
The hypothesis of spatial homogeneity is abandoned at the most detailed scale, focusing the analysis on the street network. Two techniques to assign events to road segments in the street graph are presented (direct by shortest distance or by proxy through the postal addresses), as well as the generalization of the kernel density estimation from the Euclidean space to a network topology.
Beyond the spatial domain, the interactions of three temporal cycles are further analyzed using the timestamps available in the picture metadata: daytime/nighttime (daily cycle), work/leisure (weekly cycle) and seasonal (yearly cycle).La major part de la població mundial resideix actualment en à rees urbanes, i es preveu que prà cticament tot el creixement del planeta es concentri en elles en els propers 30 anys, convertint la millora de la qualitat de vida a les ciutats en un dels grans reptes del present segle. És per tant imprescindible disposar d'informació sobre les activitats que les persones desenvolupen en elles, que permetin al planejament donar resposta a les seves necessitats. Aquesta tesi proposa l'ús de dades compartides de manera voluntà ria pels milions d'usuaris que conformen les comunitats de les xarxes socials com una valuosa eina per a l'estudi de la complexitat de la ciutat, per la seva capacitat de proporcionar un volum d'informació urbana sense precedents, reunint components tant geogrà fics, temporals, semà ntics i multimèdia. No obstant això, aquest volum i varietat de les dades planteja grans reptes pel que fa a la seva obtenció, tractament, anà lisi i representació, requerint adoptar les millors prà ctiques de la ciència de dades, aplicades des de múltiples punts de vista al camp dels estudis urbans, posant sempre l'èmfasi en la reproductibilitat de les metodologies desenvolupades. Aquesta investigació se centra en el cas d'estudi de la ciutat de Barcelona, a partir de les dades públiques obtingudes de Panoramio, Flickr, Twitter i Instagram. Després d'una revisió de l'estat de l'art, es desenvolupa l'operativa d'accés als diferents serveis, revisant les dades disponibles i les seves limitacions. A continuació, s'analitzen les dades obtingudes en diferents escales espacials i temporals. La primera aproximació a les dades es desenvolupa a partir de l'origen dels usuaris que han pres fotografies geolocalitzades de Barcelona, a través de la geocodificació de les ubicacions que apareixen en els seus perfils públics de Flickr, permetent identificar les regions, països i ciutats amb major afluència de visitants i relacionar els resultats amb diferents indicadors a escala global. La següent escala d'anà lisi es centra en la ciutat en el seu conjunt, desenvolupant metodologies per a la representació de la distribució espacial de les localitzacions obtingudes, evitant els artefactes produïts per la superposició de mostres. Per a això s'agreguen les localitzacions en tesselacions regulars, la mida de les quals es determina empÃricament a partir de la seva distribució espacial. S'utilitzen dues tècniques d'estadÃstica espacial (I de Moran i G* de Getis-Ord) per a visualitzar l'autocorrelació espacial local dels à mbits amb densitats excepcionalment altes o baixes, seguint un criteri de significança estadÃstica. Finalment s'introdueix com a alternativa no paramètrica l'estimació de la densitat. El tercer nivell de detall coincideix amb la delimitació administrativa oficial de Barcelona en 73 barris i 12 districtes, realitzada a partir de criteris històrics, morfològics i funcionals. S'introdueixen els micromapes com a tècnica de representació capaç d'aportar un context geogrà fic a grà fics estadÃstics d'ús comú, juntament amb una metodologia per produir aquests micromapes de manera automà tica. Es compara aquesta tècnica amb diagrames de dispersió anotats per a relacionar la intensitat de fotografies amb diferents indicadors urbans a escala de barri. En l'escala més detallada s'abandona la hipòtesi d'homogeneïtat espacial i es trasllada l'anà lisi al sistema viari. Es presenten dues tècniques d'atribució de localitzacions a trams de carrer del graf vial (directa per distà ncia o indirecta a través de les adreces postals), aixà com la generalització de l'estimació de la densitat d'un espai euclidià a una topologia de xarxa. Fora del context espacial, s'analitzen les interaccions de tres cicles temporals a partir de les metadades del moment en què van ser preses les fotografies: diürn/nocturn (cicle diari), treball/oci (cicle setmanal) i estacional (cicle anual).Postprint (published version
Digital traces and urban research : Barcelona through social media data
Most of the world’s population now resides in urban areas, and it is expected that almost all of the planet’s growth will be concentrated in them for the next 30 years, making the improvement of the quality of life in the cities one of the big challenges of this century. To that end, it is crucial to have information on how people use the spaces in the city, and allows urban planning to successfully respond to their needs.
This dissertation proposes using data shared voluntarily by the millions of users that make up social network’s communities as a valuable tool for the study of the complexity of the city, because of its capacity of providing an unprecedented volume of urban information, with geographic, temporal, semantic and multimedia components.
However, the volume and variety of data raises important challenges regarding its retrieval, manipulation, analysis and representation, requiring the adoption of the best practices in data science, using a multi-faceted approach in the field of urban studies with a strong emphasis in the reproducibility of the developed methodologies.
This research focuses in the case of study of the city of Barcelona, using the public data collected from Panoramio, Flickr, Twitter and Instagram. After a literature review, the methods to access the different services are discussed, along with their available data and limitations. Next, the retrieved data is analyzed at different spatial and temporal scales.
The first approximation to data focuses on the origins of users who took geotagged pictures of Barcelona, geocoding the hometowns that appear in their Flickr public profiles, allowing the identification of the regions, countries and cities with the largest influx of visitors, and relating the results with multiple indicators at a global scale.
The next scale of analysis discusses the city as a whole, developing methodologies for the representation of the spatial distribution of the collected locations, avoiding the artifacts produced by overplotting. To this end, locations are aggregated in regular tessellations, whose size is determined empirically from their spatial distribution. Two spatial statistics techniques (Moran’s I and Getis-Ord’s G*) are used to visualize the local spatial autocorrelation of the areas with exceptionally high or low densities, under a statistical significance framework. Finally, the kernel density estimation is introduced as a non-parametric alternative.
The third level of detail follows the official administrative division of Barcelona in 73 neighborhoods and 12 districts, which obeys to historical, morphological and functional criteria. Micromaps are introduced as a representation technique capable of providing a geographical context to commonly used statistical graphics, along with a methodology to produce these micromaps automatically. This technique is compared to annotated scatterplots to relate picture intensity with different urban indicators at a neighborhood scale.
The hypothesis of spatial homogeneity is abandoned at the most detailed scale, focusing the analysis on the street network. Two techniques to assign events to road segments in the street graph are presented (direct by shortest distance or by proxy through the postal addresses), as well as the generalization of the kernel density estimation from the Euclidean space to a network topology.
Beyond the spatial domain, the interactions of three temporal cycles are further analyzed using the timestamps available in the picture metadata: daytime/nighttime (daily cycle), work/leisure (weekly cycle) and seasonal (yearly cycle).La major part de la població mundial resideix actualment en à rees urbanes, i es preveu que prà cticament tot el creixement del planeta es concentri en elles en els propers 30 anys, convertint la millora de la qualitat de vida a les ciutats en un dels grans reptes del present segle. És per tant imprescindible disposar d'informació sobre les activitats que les persones desenvolupen en elles, que permetin al planejament donar resposta a les seves necessitats. Aquesta tesi proposa l'ús de dades compartides de manera voluntà ria pels milions d'usuaris que conformen les comunitats de les xarxes socials com una valuosa eina per a l'estudi de la complexitat de la ciutat, per la seva capacitat de proporcionar un volum d'informació urbana sense precedents, reunint components tant geogrà fics, temporals, semà ntics i multimèdia. No obstant això, aquest volum i varietat de les dades planteja grans reptes pel que fa a la seva obtenció, tractament, anà lisi i representació, requerint adoptar les millors prà ctiques de la ciència de dades, aplicades des de múltiples punts de vista al camp dels estudis urbans, posant sempre l'èmfasi en la reproductibilitat de les metodologies desenvolupades. Aquesta investigació se centra en el cas d'estudi de la ciutat de Barcelona, a partir de les dades públiques obtingudes de Panoramio, Flickr, Twitter i Instagram. Després d'una revisió de l'estat de l'art, es desenvolupa l'operativa d'accés als diferents serveis, revisant les dades disponibles i les seves limitacions. A continuació, s'analitzen les dades obtingudes en diferents escales espacials i temporals. La primera aproximació a les dades es desenvolupa a partir de l'origen dels usuaris que han pres fotografies geolocalitzades de Barcelona, a través de la geocodificació de les ubicacions que apareixen en els seus perfils públics de Flickr, permetent identificar les regions, països i ciutats amb major afluència de visitants i relacionar els resultats amb diferents indicadors a escala global. La següent escala d'anà lisi es centra en la ciutat en el seu conjunt, desenvolupant metodologies per a la representació de la distribució espacial de les localitzacions obtingudes, evitant els artefactes produïts per la superposició de mostres. Per a això s'agreguen les localitzacions en tesselacions regulars, la mida de les quals es determina empÃricament a partir de la seva distribució espacial. S'utilitzen dues tècniques d'estadÃstica espacial (I de Moran i G* de Getis-Ord) per a visualitzar l'autocorrelació espacial local dels à mbits amb densitats excepcionalment altes o baixes, seguint un criteri de significança estadÃstica. Finalment s'introdueix com a alternativa no paramètrica l'estimació de la densitat. El tercer nivell de detall coincideix amb la delimitació administrativa oficial de Barcelona en 73 barris i 12 districtes, realitzada a partir de criteris històrics, morfològics i funcionals. S'introdueixen els micromapes com a tècnica de representació capaç d'aportar un context geogrà fic a grà fics estadÃstics d'ús comú, juntament amb una metodologia per produir aquests micromapes de manera automà tica. Es compara aquesta tècnica amb diagrames de dispersió anotats per a relacionar la intensitat de fotografies amb diferents indicadors urbans a escala de barri. En l'escala més detallada s'abandona la hipòtesi d'homogeneïtat espacial i es trasllada l'anà lisi al sistema viari. Es presenten dues tècniques d'atribució de localitzacions a trams de carrer del graf vial (directa per distà ncia o indirecta a través de les adreces postals), aixà com la generalització de l'estimació de la densitat d'un espai euclidià a una topologia de xarxa. Fora del context espacial, s'analitzen les interaccions de tres cicles temporals a partir de les metadades del moment en què van ser preses les fotografies: diürn/nocturn (cicle diari), treball/oci (cicle setmanal) i estacional (cicle anual)
Open Geospatial Analytics with PySAL
This article reviews the range of delivery platforms that have been developed for the PySAL open source Python library for spatial analysis. This includes traditional desktop software (with a graphical user interface, command line or embedded in a computational notebook), open spatial analytics middleware, and web, cloud and distributed open geospatial analytics for decision support. A common thread throughout the discussion is the emphasis on openness, interoperability, and provenance management in a scientific workflow. The code base of the PySAL library provides the common computing framework underlying all delivery mechanisms