92 research outputs found

    A survey of location inference techniques on Twitter

    Get PDF
    The increasing popularity of the social networking service, Twitter, has made it more involved in day-to-day communications, strengthening social relationships and information dissemination. Conversations on Twitter are now being explored as indicators within early warning systems to alert of imminent natural disasters such as earthquakes and aid prompt emergency responses to crime. Producers are privileged to have limitless access to market perception from consumer comments on social media and microblogs. Targeted advertising can be made more effective based on user profile information such as demography, interests and location. While these applications have proven beneficial, the ability to effectively infer the location of Twitter users has even more immense value. However, accurately identifying where a message originated from or an author’s location remains a challenge, thus essentially driving research in that regard. In this paper, we survey a range of techniques applied to infer the location of Twitter users from inception to state of the art. We find significant improvements over time in the granularity levels and better accuracy with results driven by refinements to algorithms and inclusion of more spatial features

    Mining Twitter for crisis management: realtime floods detection in the Arabian Peninsula

    Get PDF
    A thesis submitted to the University of Bedfordshire, in partial fulfilment of the requirements for the degree of doctor of Philosophy.In recent years, large amounts of data have been made available on microblog platforms such as Twitter, however, it is difficult to filter and extract information and knowledge from such data because of the high volume, including noisy data. On Twitter, the general public are able to report real-world events such as floods in real time, and act as social sensors. Consequently, it is beneficial to have a method that can detect flood events automatically in real time to help governmental authorities, such as crisis management authorities, to detect the event and make decisions during the early stages of the event. This thesis proposes a real time flood detection system by mining Arabic Tweets using machine learning and data mining techniques. The proposed system comprises five main components: data collection, pre-processing, flooding event extract, location inferring, location named entity link, and flooding event visualisation. An effective method of flood detection from Arabic tweets is presented and evaluated by using supervised learning techniques. Furthermore, this work presents a location named entity inferring method based on the Learning to Search method, the results show that the proposed method outperformed the existing systems with significantly higher accuracy in tasks of inferring flood locations from tweets which are written in colloquial Arabic. For the location named entity link, a method has been designed by utilising Google API services as a knowledge base to extract accurate geocode coordinates that are associated with location named entities mentioned in tweets. The results show that the proposed location link method locate 56.8% of tweets with a distance range of 0 – 10 km from the actual location. Further analysis has shown that the accuracy in locating tweets in an actual city and region are 78.9% and 84.2% respectively

    Web Data Extraction, Applications and Techniques: A Survey

    Full text link
    Web Data Extraction is an important problem that has been studied by means of different scientific tools and in a broad range of applications. Many approaches to extracting data from the Web have been designed to solve specific problems and operate in ad-hoc domains. Other approaches, instead, heavily reuse techniques and algorithms developed in the field of Information Extraction. This survey aims at providing a structured and comprehensive overview of the literature in the field of Web Data Extraction. We provided a simple classification framework in which existing Web Data Extraction applications are grouped into two main classes, namely applications at the Enterprise level and at the Social Web level. At the Enterprise level, Web Data Extraction techniques emerge as a key tool to perform data analysis in Business and Competitive Intelligence systems as well as for business process re-engineering. At the Social Web level, Web Data Extraction techniques allow to gather a large amount of structured data continuously generated and disseminated by Web 2.0, Social Media and Online Social Network users and this offers unprecedented opportunities to analyze human behavior at a very large scale. We discuss also the potential of cross-fertilization, i.e., on the possibility of re-using Web Data Extraction techniques originally designed to work in a given domain, in other domains.Comment: Knowledge-based System

    Assessing the perceived environment through crowdsourced spatial photo content for application to the fields of landscape and urban planning

    Get PDF
    Assessing information on aspects of identification, perception, emotion, and social interaction with respect to the environment is of particular importance to the fields of natural resource management. Our ability to visualize this type of information has rapidly improved with the proliferation of social media sites throughout the Internet in recent years. While many methods to extract information on human behavior from crowdsourced geodata already exist, this work focuses on visualizing landscape perception for application to the fields of landscape and urban planning. Visualization of people’s perceptual responses to landscape is demonstrated with crowdsourced photo geodata from Flickr, a popular photo sharing community. A basic, general method to map, visualize and evaluate perception and perceptual values is proposed. The approach utilizes common tools for spatial knowledge discovery and builds on existing research, but is specifically designed for implementation within the context of landscape perception analysis and particularly suited as a base for further evaluation in multiple scenarios. To demonstrate the process in application, three novel types of visualizations are presented: the mapping of lines of sight in Yosemite Valley, the assessment of landscape change in the area surrounding the High Line in Manhattan, and individual location analysis for Coit Tower in San Francisco. The results suggest that analyzing crowdsourced data may contribute to a more balanced assessment of the perceived landscape, which provides a basis for a better integration of public values into planning processes.:Contents 3 1 Introduction 7 1.1 Motivation 7 1.2 Literature review and conceptual scope 9 1.3 Terminology 11 1.4 Related research 12 1.5 Objectives 14 1.6 Methodology 16 1.7 Formal conventions 21 I. Part I: Conceptual framework 23 1.1 Visual perception 23 1.2 Theory and practice in landscape perception assessment 27 1.2.1 Expert valuation versus participation 27 1.2.2 Photography-based landscape perception assessment 32 1.2.2.1. Photo-based surveys 32 1.2.2.2. Photo-based Internet surveys 35 1.2.2.3. Photo-interviewing and participant photography 37 1.2.3 Conclusions 40 1.3 Conceptual approach 42 1.3.1 A framing theory: Distributed cognition 42 1.3.2 Description of the approach 46 1.3.3 Choosing the right data source 48 1.3.3.1. Availability of crowdsourced and georeferenced photo data 48 1.3.3.2. Suitability for analyzing human behavior and perception 51 1.3.4 Relations between data and the phenomenon under observation 55 1.3.4.1. Photo taking and landscape perception 55 1.3.4.2. User motivation in the context of photo sharing in communities 61 1.3.4.3. Describing and tagging photos: Forms of attributing meaning 66 1.3.5 Considerations for measuring and weighting data 70 1.3.6 Conclusions 77 II. Part II: Application example – Flickr photo analysis and evaluation of results 80 2.1 Software architecture 80 2.2 Materials and methods 86 2.2.1 Data retrieval, initial data structure and overall quantification 86 2.2.2 Global data bias 89 2.2.3 Basic techniques for filtering and classifying data 94 2.2.3.1. Where: photo locations 94 2.2.3.2. Who: user origin 96 2.2.3.3. When: time of photo taking 102 2.2.3.4. What: tag frequency 108   2.2.4 Methods for aggregating data 113 2.2.4.1. Clustering of photo locations 113 2.2.4.2. Clustering of tag locations 115 2.3 Application to planning: techniques for visualizing data 118 2.3.1 Introduction 118 2.3.2 Tag maps 121 2.3.2.1. Description of technique 121 2.3.2.2. Results: San Francisco and Berkeley waterfront 126 2.3.2.3. Results: Berkeley downtown and university campus 129 2.3.2.4. Results: Dresden and the Elbe Valley 132 2.3.2.5. Results: Greater Toronto Area and City of Toronto 136 2.3.2.6. Results: Baden-Württemberg 143 2.3.2.7. Summary 156 2.3.3 Temporal comparison for assessing landscape change 158 2.3.3.1. Description of technique 158 2.3.3.2. Results: The High Line, NY 159 2.3.3.3. Summary 160 2.3.4 Determining lines of sight and important visual connections 161 2.3.4.1. Description of technique 161 2.3.4.2. Results: Yosemite Valley 162 2.3.4.3. Results: Golden Gate and Bay Bridge 167 2.3.4.4. Results: CN Tower, Toronto 168 2.3.4.5. Summary 170 2.3.5 Individual location analysis 171 2.3.5.1. Description of technique 171 2.3.5.2. Results: Coit Tower, San Francisco 171 2.3.5.3. Results: CN Tower, Toronto 172 2.3.5.4. Summary 173 2.4 Quality and accuracy of results 175 2.4.1 Methodology 175 2.4.2 Accuracy of data 175 2.4.3 Validity and reliability of visualizations 178 2.4.3.1. Reliability 178 2.4.3.2. Validity 180 2.5 Implementation example: the London View Framework 181 2.5.1 Description 181 2.5.2 Evaluation methodology 183 2.5.3 Analysis 184 2.5.3.1. Landmarks 184 2.5.3.2. Views 192 2.5.4 Summary 199 III. Discussion 203 3.1 Application of the framework from a wider perspective 203 3.2 Significance of results 204 3.3 Further research 205   3.4 Discussion of workshop results and further feedback 206 3.4.1 Workshops at University of Waterloo and University of Toronto, Canada 206 3.4.2 Workshop at University of Technology Dresden, Germany 209 3.4.3 Feedback from presentations, discussions, exhibitions: second thoughts 210 IV. Conclusions 212 V. References 213 5.1 Literature 213 5.2 List of web references 228 5.3 List of figures 230 5.4 List of tables 234 5.5 List of maps 235 5.6 List of appendices 236 VI. Appendices 237  Als Wahrnehmung wird der Bewusstseinsprozess des subjektiven Verstehens der Umwelt bezeichnet. Grundlage für diesen Prozess ist die Gewinnung von Informationen über die Sinne, also aus visuellen, olfaktorischen, akustischen und anderen Reizen. Die Wahrnehmung ist aber auch wesentlich durch interne Prozesse beeinflusst. Das menschliche Gehirn ist fortlaufend damit beschäftigt, sowohl bewusst als auch unbewusst Sinneswahrnehmungen mit Erinnerungen abzugleichen, zu vereinfachen, zu assoziieren, vorherzusagen oder zu vergleichen. Aus diesem Grund ist es schwierig, die Wahrnehmung von Orten und Landschaften in Planungsprozessen zu berücksichtigen. Jedoch wird genau dies von der Europäischen Landschaftskonvention gefordert, die Landschaft als einen bestimmten Bereich definiert, so wie er von Besuchern und Einwohnern wahrgenommen wird (“as a zone or area as perceived by local people or visitors”, ELC Art. 1, Abs. 38). Während viele Fortschritte und Erkenntnisse, zum Beispiel aus den Kognitionswissenschaften, heute helfen, die Wahrnehmung einzelner Menschen zu verstehen, konnte die Stadt- und Landschaftsplanung kaum profitieren. Es fehlt an Kenntnissen über das Zusammenwirken der Wahrnehmung vieler Menschen. Schon Stadtplaner Kevin Lynch beschäftigte dieses gemeinsame, kollektive ‚Bild‘ der menschlichen Umwelt ("generalized mental picture", Lynch, 1960, p. 4). Seitdem wurden kaum nennenswerte Fortschritte bei der Erfassung der allgemeinen, öffentlichen Wahrnehmung von Stadt- und Landschaft erzielt. Dies war Anlass und Motivation für die vorliegende Arbeit. Eine bisher in der Planung ungenutzte Informationsquelle für die Erfassung der Wahrnehmung vieler Menschen bietet sich in Form von crowdsourced Daten (auch ‚Big Data‘), also großen Mengen an Daten die von vielen Menschen im Internet zusammengetragen werden. Im Vergleich zu konventionellen Daten, zum Beispiel solchen die durch Experten erhoben werden und durch öffentliche Träger zur Verfügung stehen, eröffnet sich durch crowdsourced Daten eine bisher nicht verfügbare Quelle für Informationen, um die komplexen Zusammenhänge zwischen Raum, Identität und subjektiver Wahrnehmung zu verstehen. Dabei enthalten crowdsourced Daten lediglich Spuren menschlicher Entscheidungen. Aufgrund der Menge ist es aber möglich, wesentliche Informationen über die Wahrnehmung derer, die diese Daten zusammengetragen haben, zu gewinnen. Dies ermöglicht es Planern zu verstehen, wie Menschen ihre unmittelbare Umgebung wahrnehmen und mit ihr interagieren. Darüber hinaus wird es immer wichtiger, die Ansichten Vieler in Planungsprozessen zu berücksichtigen (Lynam, De Jong, Sheil, Kusumanto, & Evans, 2007; Brody, 2004). Der Wunsch nach öffentlicher Beteiligung sowie die Anzahl an beteiligten Stakeholdern nehmen dabei konstant zu. Durch das Nutzen dieser neuen Informationsquelle bietet sich eine Alternative zu herkömmlichen Ansätzen wie Umfragen, die genutzt werden um beispielsweise Meinungen, Positionen, Werte, Normen oder Vorlieben von bestimmten sozialen Gruppen zu messen. Indem es crowdsourced Daten erleichtern, solch soziokulturelle Werte zu bestimmen, können die Ergebnisse vor allem bei der schwierigen Gewichtung gegensätzlicher Interessen und Ansichten helfen. Es wird die Ansicht geteilt, dass die Nutzung von crowdsourced Daten, indem Einschätzungen von Experten ergänzt werden, letztendlich zu einer faireren, ausgeglichenen Berücksichtigung der Allgemeinheit in Entscheidungsprozessen führen kann (Erickson, 2011, p.1). Eine große Anzahl an Methoden ist bereits verfügbar, um aus dieser Datenquelle wichtige landschaftsbezogene Informationen auszulesen. Beispiele sind die Bewertung der Attraktivität von Landschaften, die Bestimmung der Bedeutung von Sehenswürdigkeiten oder Wahrzeichen, oder die Einschätzung von Reisevorlieben von Nutzergruppen. Viele der bisherigen Methoden wurden jedoch als ungenügend empfunden, um die speziellen Bedürfnisse und das breite Spektrum an Fragestellungen zur Landschaftswahrnehmung in Stadt- und Landschaftsplanung zu berücksichtigen. Das Ziel der vorliegenden Arbeit ist es, praxisrelevantes Wissen zu vermitteln, welches es Planern erlaubt, selbstständig Daten zu erforschen, zu visualisieren und zu interpretieren. Der Schlüssel für eine erfolgreiche Umsetzung wird dabei in der Synthese von Wissen aus drei Kategorien gesehen, theoretische Grundlagen (1), technisches Wissen zur Datenverarbeitung (2) sowie Kenntnisse zur grafischen Visualisierungen (3). Die theoretischen Grundlagen werden im ersten Teil der Arbeit (Part I) präsentiert. In diesem Teil werden zunächst Schwachpunkte aktueller Verfahren diskutiert, um anschließend einen neuen, konzeptionell-technischen Ansatz vorzuschlagen der gezielt auf die Ergänzung bereits vorhandener Methoden zielt. Im zweiten Teil der Arbeit (Part II) wird anhand eines Datenbeispiels die Anwendung des Ansatzes exemplarisch demonstriert. Fragestellungen die angesprochen werden reichen von der Datenabfrage, Verarbeitung, Analyse, Visualisierung, bis zur Interpretation von Grafiken in Planungsprozessen. Als Basis dient dabei ein Datenset mit 147 Millionen georeferenzierte Foto-Daten und 882 Millionen Tags der Fotoaustauschplatform Flickr, welches in den Jahren 2007 bis 2015 von 1,3 Millionen Nutzern zusammengetragen wurde. Anhand dieser Daten wird die Entwicklung neuer Visualisierungstechniken exemplarisch vorgestellt. Beispiele umfassen Spatio-temporal Tag Clouds, eine experimentelle Technik zur Generierung von wahrnehmungsgewichteten Karten, die Visualisierung von wahrgenommenem Landschaftswandel, das Abbilden von wahrnehmungsgewichteten Sichtlinien, sowie die Auswertung von individueller Wahrnehmung von und an bestimmten Orten. Die Anwendung dieser Techniken wird anhand verschiedener Testregionen in den USA, Kanada und Deutschland für alle Maßstabsebenen geprüft und diskutiert. Dies umfasst beispielsweise die Erfassung und Bewertung von Sichtlinien und visuellen Bezügen in Yosemite Valley, das Monitoring von wahrgenommenen Veränderungen im Bereich der High Line in New York, die Auswertung von individueller Wahrnehmung für Coit Tower in San Francisco, oder die Beurteilung von regional wahrgenommenen identitätsstiftenden Landschaftswerten für Baden-Württemberg und die Greater Toronto Area (GTA). Anschließend werden Ansätze vorgestellt, um die Qualität und Validität von Visualisierungen einzuschätzen. Abschließend wird anhand eines konkreten Planungsbeispiels, des London View Management Frameworks (LVMF), eine spezifische Implementation des Ansatzes und der Visualisierungen kurz aufgezeigt und diskutiert. Mit der Arbeit wird vor allem das breite Potential betont, welches die Nutzung von crowdsourced Daten für die Bewertung von Landschaftswahrnehmung in Stadt- und Landschaftsplanung bereithält. Insbesondere crowdsourced Fotodaten werden als wichtige zusätzliche Informationsquelle gesehen, da sie eine bisher nicht verfügbare Perspektive auf die allgemeine, öffentliche Wahrnehmung der Umwelt ermöglichen. Während der breiteren Anwendung noch einige Grenzen gesetzt sind, können die vorgestellten experimentellen Methoden und Techniken schon wichtige Aufschlüsse über eine ganze Reihe von wahrgenommenen Landschaftswerten geben. Auf konzeptioneller Ebene stellt die Arbeit eine erste Grundlage für weitere Forschung dar. Bevor jedoch eine breite Anwendung in der Praxis möglich ist, müssen entscheidende Fragen gelöst werden, beispielsweise zum Copyright, zur Definition von ethischen Standards innerhalb der Profession, sowie zum Schutz der Privatsphäre Beteiligter. Längerfristig wird nicht nur die Nutzung der Daten als wichtig angesehen, sondern auch die Erschließung der essentiellen Möglichkeiten dieser Entwicklung zur besseren Kommunikation mit Auftraggebern, Beteiligten und der Öffentlichkeit in Planungs- und Entscheidungsprozessen.:Contents 3 1 Introduction 7 1.1 Motivation 7 1.2 Literature review and conceptual scope 9 1.3 Terminology 11 1.4 Related research 12 1.5 Objectives 14 1.6 Methodology 16 1.7 Formal conventions 21 I. Part I: Conceptual framework 23 1.1 Visual perception 23 1.2 Theory and practice in landscape perception assessment 27 1.2.1 Expert valuation versus participation 27 1.2.2 Photography-based landscape perception assessment 32 1.2.2.1. Photo-based surveys 32 1.2.2.2. Photo-based Internet surveys 35 1.2.2.3. Photo-interviewing and participant photography 37 1.2.3 Conclusions 40 1.3 Conceptual approach 42 1.3.1 A framing theory: Distributed cognition 42 1.3.2 Description of the approach 46 1.3.3 Choosing the right data source 48 1.3.3.1. Availability of crowdsourced and georeferenced photo data 48 1.3.3.2. Suitability for analyzing human behavior and perception 51 1.3.4 Relations between data and the phenomenon under observation 55 1.3.4.1. Photo taking and landscape perception 55 1.3.4.2. User motivation in the context of photo sharing in communities 61 1.3.4.3. Describing and tagging photos: Forms of attributing meaning 66 1.3.5 Considerations for measuring and weighting data 70 1.3.6 Conclusions 77 II. Part II: Application example – Flickr photo analysis and evaluation of results 80 2.1 Software architecture 80 2.2 Materials and methods 86 2.2.1 Data retrieval, initial data structure and overall quantification 86 2.2.2 Global data bias 89 2.2.3 Basic techniques for filtering and classifying data 94 2.2.3.1. Where: photo locations 94 2.2.3.2. Who: user origin 96 2.2.3.3. When: time of photo taking 102 2.2.3.4. What: tag frequency 108   2.2.4 Methods for aggregating data 113 2.2.4.1. Clustering of photo locations 113 2.2.4.2. Clustering of tag locations 115 2.3 Application to planning: techniques for visualizing data 118 2.3.1 Introduction 118 2.3.2 Tag maps 121 2.3.2.1. Description of technique 121 2.3.2.2. Results: San Francisco and Berkeley waterfront 126 2.3.2.3. Results: Berkeley downtown and university campus 129 2.3.2.4. Results: Dresden and the Elbe Valley 132 2.3.2.5. Results: Greater Toronto Area and City of Toronto 136 2.3.2.6. Results: Baden-Württemberg 143 2.3.2.7. Summary 156 2.3.3 Temporal comparison for assessing landscape change 158 2.3.3.1. Description of technique 158 2.3.3.2. Results: The High Line, NY 159 2.3.3.3. Summary 160 2.3.4 Determining lines of sight and important visual connections 161 2.3.4.1. Description of technique 161 2.3.4.2. Results: Yosemite Valley 162 2.3.4.3. Results: Golden Gate and Bay Bridge 167 2.3.4.4. Results: CN Tower, Toronto 168 2.3.4.5. Summary 170 2.3.5 Individual location analysis 171 2.3.5.1. Description of technique 171 2.3.5.2. Results: Coit Tower, San Francisco 171 2.3.5.3. Results: CN Tower, Toronto 172 2.3.5.4. Summary 173 2.4 Quality and accuracy of results 175 2.4.1 Methodology 175 2.4.2 Accuracy of data 175 2.4.3 Validity and reliability of visualizations 178 2.4.3.1. Reliability 178 2.4.3.2. Validity 180 2.5 Implementation example: the London View Framework 181 2.5.1 Description 181 2.5.2 Evaluation methodology 183 2.5.3 Analysis 184 2.5.3.1. Landmarks 184 2.5.3.2. Views 192 2.5.4 Summary 199 III. Discussion 203 3.1 Application of the framework from a wider perspective 203 3.2 Significance of results 204 3.3 Further research 205   3.4 Discussion of workshop results and further feedback 206 3.4.1 Workshops at University of Waterloo and University of Toronto, Canada 206 3.4.2 Workshop at University of Technology Dresden, Germany 209 3.4.3 Feedback from presentations, discussions, exhibitions: second thoughts 210 IV. Conclusions 212 V. References 213 5.1 Literature 213 5.2 List of web references 228 5.3 List of figures 230 5.4 List of tables 234 5.5 List of maps 235 5.6 List of appendices 236 VI. Appendices 237

    Searching and mining in enriched geo-spatial data

    Get PDF
    The emergence of new data collection mechanisms in geo-spatial applications paired with a heightened tendency of users to volunteer information provides an ever-increasing flow of data of high volume, complex nature, and often associated with inherent uncertainty. Such mechanisms include crowdsourcing, automated knowledge inference, tracking, and social media data repositories. Such data bearing additional information from multiple sources like probability distributions, text or numerical attributes, social context, or multimedia content can be called multi-enriched. Searching and mining this abundance of information holds many challenges, if all of the data's potential is to be released. This thesis addresses several major issues arising in that field, namely path queries using multi-enriched data, trend mining in social media data, and handling uncertainty in geo-spatial data. In all cases, the developed methods have made significant contributions and have appeared in or were accepted into various renowned international peer-reviewed venues. A common use of geo-spatial data is path queries in road networks where traditional methods optimise results based on absolute and ofttimes singular metrics, i.e., finding the shortest paths based on distance or the best trade-off between distance and travel time. Integrating additional aspects like qualitative or social data by enriching the data model with knowledge derived from sources as mentioned above allows for queries that can be issued to fit a broader scope of needs or preferences. This thesis presents two implementations of incorporating multi-enriched data into road networks. In one case, a range of qualitative data sources is evaluated to gain knowledge about user preferences which is subsequently matched with locations represented in a road network and integrated into its components. Several methods are presented for highly customisable path queries that incorporate a wide spectrum of data. In a second case, a framework is described for resource distribution with reappearance in road networks to serve one or more clients, resulting in paths that provide maximum gain based on a probabilistic evaluation of available resources. Applications for this include finding parking spots. Social media trends are an emerging research area giving insight in user sentiment and important topics. Such trends consist of bursts of messages concerning a certain topic within a time frame, significantly deviating from the average appearance frequency of the same topic. By investigating the dissemination of such trends in space and time, this thesis presents methods to classify trend archetypes to predict future dissemination of a trend. Processing and querying uncertain data is particularly demanding given the additional knowledge required to yield results with probabilistic guarantees. Since such knowledge is not always available and queries are not easily scaled to larger datasets due to the #P-complete nature of the problem, many existing approaches reduce the data to a deterministic representation of its underlying model to eliminate uncertainty. However, data uncertainty can also provide valuable insight into the nature of the data that cannot be represented in a deterministic manner. This thesis presents techniques for clustering uncertain data as well as query processing, that take the additional information from uncertainty models into account while preserving scalability using a sampling-based approach, while previous approaches could only provide one of the two. The given solutions enable the application of various existing clustering techniques or query types to a framework that manages the uncertainty.Das Erscheinen neuer Methoden zur Datenerhebung in räumlichen Applikationen gepaart mit einer erhöhten Bereitschaft der Nutzer, Daten über sich preiszugeben, generiert einen stetig steigenden Fluss von Daten in großer Menge, komplexer Natur, und oft gepaart mit inhärenter Unsicherheit. Beispiele für solche Mechanismen sind Crowdsourcing, automatisierte Wissensinferenz, Tracking, und Daten aus sozialen Medien. Derartige Daten, angereichert mit mit zusätzlichen Informationen aus verschiedenen Quellen wie Wahrscheinlichkeitsverteilungen, Text- oder numerische Attribute, sozialem Kontext, oder Multimediainhalten, werden als multi-enriched bezeichnet. Suche und Datamining in dieser weiten Datenmenge hält viele Herausforderungen bereit, wenn das gesamte Potenzial der Daten genutzt werden soll. Diese Arbeit geht auf mehrere große Fragestellungen in diesem Feld ein, insbesondere Pfadanfragen in multi-enriched Daten, Trend-mining in Daten aus sozialen Netzwerken, und die Beherrschung von Unsicherheit in räumlichen Daten. In all diesen Fällen haben die entwickelten Methoden signifikante Forschungsbeiträge geleistet und wurden veröffentlicht oder angenommen zu diversen renommierten internationalen, von Experten begutachteten Konferenzen und Journals. Ein gängiges Anwendungsgebiet räumlicher Daten sind Pfadanfragen in Straßennetzwerken, wo traditionelle Methoden die Resultate anhand absoluter und oft auch singulärer Maße optimieren, d.h., der kürzeste Pfad in Bezug auf die Distanz oder der beste Kompromiss zwischen Distanz und Reisezeit. Durch die Integration zusätzlicher Aspekte wie qualitativer Daten oder Daten aus sozialen Netzwerken als Anreicherung des Datenmodells mit aus diesen Quellen abgeleitetem Wissen werden Anfragen möglich, die ein breiteres Spektrum an Anforderungen oder Präferenzen erfüllen. Diese Arbeit präsentiert zwei Ansätze, solche multi-enriched Daten in Straßennetze einzufügen. Zum einen wird eine Reihe qualitativer Datenquellen ausgewertet, um Wissen über Nutzerpräferenzen zu generieren, welches darauf mit Örtlichkeiten im Straßennetz abgeglichen und in das Netz integriert wird. Diverse Methoden werden präsentiert, die stark personalisierbare Pfadanfragen ermöglichen, die ein weites Spektrum an Daten mit einbeziehen. Im zweiten Fall wird ein Framework präsentiert, das eine Ressourcenverteilung im Straßennetzwerk modelliert, bei der einmal verbrauchte Ressourcen erneut auftauchen können. Resultierende Pfade ergeben einen maximalen Ertrag basieren auf einer probabilistischen Evaluation der verfügbaren Ressourcen. Eine Anwendung ist die Suche nach Parkplätzen. Trends in sozialen Medien sind ein entstehendes Forscchungsgebiet, das Einblicke in Benutzerverhalten und wichtige Themen zulässt. Solche Trends bestehen aus großen Mengen an Nachrichten zu einem bestimmten Thema innerhalb eines Zeitfensters, so dass die Auftrittsfrequenz signifikant über den durchschnittlichen Level liegt. Durch die Untersuchung der Fortpflanzung solcher Trends in Raum und Zeit präsentiert diese Arbeit Methoden, um Trends nach Archetypen zu klassifizieren und ihren zukünftigen Weg vorherzusagen. Die Anfragebearbeitung und Datamining in unsicheren Daten ist besonders herausfordernd, insbesondere im Hinblick auf das notwendige Zusatzwissen, um Resultate mit probabilistischen Garantien zu erzielen. Solches Wissen ist nicht immer verfügbar und Anfragen lassen sich aufgrund der \P-Vollständigkeit des Problems nicht ohne Weiteres auf größere Datensätze skalieren. Dennoch kann Datenunsicherheit wertvollen Einblick in die Struktur der Daten liefern, der mit deterministischen Methoden nicht erreichbar wäre. Diese Arbeit präsentiert Techniken zum Clustering unsicherer Daten sowie zur Anfragebearbeitung, die die Zusatzinformation aus dem Unsicherheitsmodell in Betracht ziehen, jedoch gleichzeitig die Skalierbarkeit des Ansatzes auf große Datenmengen sicherstellen

    Digital traces and urban research : Barcelona through social media data

    No full text
    Most of the world’s population now resides in urban areas, and it is expected that almost all of the planet’s growth will be concentrated in them for the next 30 years, making the improvement of the quality of life in the cities one of the big challenges of this century. To that end, it is crucial to have information on how people use the spaces in the city, and allows urban planning to successfully respond to their needs. This dissertation proposes using data shared voluntarily by the millions of users that make up social network’s communities as a valuable tool for the study of the complexity of the city, because of its capacity of providing an unprecedented volume of urban information, with geographic, temporal, semantic and multimedia components. However, the volume and variety of data raises important challenges regarding its retrieval, manipulation, analysis and representation, requiring the adoption of the best practices in data science, using a multi-faceted approach in the field of urban studies with a strong emphasis in the reproducibility of the developed methodologies. This research focuses in the case of study of the city of Barcelona, using the public data collected from Panoramio, Flickr, Twitter and Instagram. After a literature review, the methods to access the different services are discussed, along with their available data and limitations. Next, the retrieved data is analyzed at different spatial and temporal scales. The first approximation to data focuses on the origins of users who took geotagged pictures of Barcelona, geocoding the hometowns that appear in their Flickr public profiles, allowing the identification of the regions, countries and cities with the largest influx of visitors, and relating the results with multiple indicators at a global scale. The next scale of analysis discusses the city as a whole, developing methodologies for the representation of the spatial distribution of the collected locations, avoiding the artifacts produced by overplotting. To this end, locations are aggregated in regular tessellations, whose size is determined empirically from their spatial distribution. Two spatial statistics techniques (Moran’s I and Getis-Ord’s G*) are used to visualize the local spatial autocorrelation of the areas with exceptionally high or low densities, under a statistical significance framework. Finally, the kernel density estimation is introduced as a non-parametric alternative. The third level of detail follows the official administrative division of Barcelona in 73 neighborhoods and 12 districts, which obeys to historical, morphological and functional criteria. Micromaps are introduced as a representation technique capable of providing a geographical context to commonly used statistical graphics, along with a methodology to produce these micromaps automatically. This technique is compared to annotated scatterplots to relate picture intensity with different urban indicators at a neighborhood scale. The hypothesis of spatial homogeneity is abandoned at the most detailed scale, focusing the analysis on the street network. Two techniques to assign events to road segments in the street graph are presented (direct by shortest distance or by proxy through the postal addresses), as well as the generalization of the kernel density estimation from the Euclidean space to a network topology. Beyond the spatial domain, the interactions of three temporal cycles are further analyzed using the timestamps available in the picture metadata: daytime/nighttime (daily cycle), work/leisure (weekly cycle) and seasonal (yearly cycle).La major part de la població mundial resideix actualment en àrees urbanes, i es preveu que pràcticament tot el creixement del planeta es concentri en elles en els propers 30 anys, convertint la millora de la qualitat de vida a les ciutats en un dels grans reptes del present segle. És per tant imprescindible disposar d'informació sobre les activitats que les persones desenvolupen en elles, que permetin al planejament donar resposta a les seves necessitats. Aquesta tesi proposa l'ús de dades compartides de manera voluntària pels milions d'usuaris que conformen les comunitats de les xarxes socials com una valuosa eina per a l'estudi de la complexitat de la ciutat, per la seva capacitat de proporcionar un volum d'informació urbana sense precedents, reunint components tant geogràfics, temporals, semàntics i multimèdia. No obstant això, aquest volum i varietat de les dades planteja grans reptes pel que fa a la seva obtenció, tractament, anàlisi i representació, requerint adoptar les millors pràctiques de la ciència de dades, aplicades des de múltiples punts de vista al camp dels estudis urbans, posant sempre l'èmfasi en la reproductibilitat de les metodologies desenvolupades. Aquesta investigació se centra en el cas d'estudi de la ciutat de Barcelona, a partir de les dades públiques obtingudes de Panoramio, Flickr, Twitter i Instagram. Després d'una revisió de l'estat de l'art, es desenvolupa l'operativa d'accés als diferents serveis, revisant les dades disponibles i les seves limitacions. A continuació, s'analitzen les dades obtingudes en diferents escales espacials i temporals. La primera aproximació a les dades es desenvolupa a partir de l'origen dels usuaris que han pres fotografies geolocalitzades de Barcelona, a través de la geocodificació de les ubicacions que apareixen en els seus perfils públics de Flickr, permetent identificar les regions, països i ciutats amb major afluència de visitants i relacionar els resultats amb diferents indicadors a escala global. La següent escala d'anàlisi es centra en la ciutat en el seu conjunt, desenvolupant metodologies per a la representació de la distribució espacial de les localitzacions obtingudes, evitant els artefactes produïts per la superposició de mostres. Per a això s'agreguen les localitzacions en tesselacions regulars, la mida de les quals es determina empíricament a partir de la seva distribució espacial. S'utilitzen dues tècniques d'estadística espacial (I de Moran i G* de Getis-Ord) per a visualitzar l'autocorrelació espacial local dels àmbits amb densitats excepcionalment altes o baixes, seguint un criteri de significança estadística. Finalment s'introdueix com a alternativa no paramètrica l'estimació de la densitat. El tercer nivell de detall coincideix amb la delimitació administrativa oficial de Barcelona en 73 barris i 12 districtes, realitzada a partir de criteris històrics, morfològics i funcionals. S'introdueixen els micromapes com a tècnica de representació capaç d'aportar un context geogràfic a gràfics estadístics d'ús comú, juntament amb una metodologia per produir aquests micromapes de manera automàtica. Es compara aquesta tècnica amb diagrames de dispersió anotats per a relacionar la intensitat de fotografies amb diferents indicadors urbans a escala de barri. En l'escala més detallada s'abandona la hipòtesi d'homogeneïtat espacial i es trasllada l'anàlisi al sistema viari. Es presenten dues tècniques d'atribució de localitzacions a trams de carrer del graf vial (directa per distància o indirecta a través de les adreces postals), així com la generalització de l'estimació de la densitat d'un espai euclidià a una topologia de xarxa. Fora del context espacial, s'analitzen les interaccions de tres cicles temporals a partir de les metadades del moment en què van ser preses les fotografies: diürn/nocturn (cicle diari), treball/oci (cicle setmanal) i estacional (cicle anual).Postprint (published version

    Digital traces and urban research : Barcelona through social media data

    Get PDF
    Most of the world’s population now resides in urban areas, and it is expected that almost all of the planet’s growth will be concentrated in them for the next 30 years, making the improvement of the quality of life in the cities one of the big challenges of this century. To that end, it is crucial to have information on how people use the spaces in the city, and allows urban planning to successfully respond to their needs. This dissertation proposes using data shared voluntarily by the millions of users that make up social network’s communities as a valuable tool for the study of the complexity of the city, because of its capacity of providing an unprecedented volume of urban information, with geographic, temporal, semantic and multimedia components. However, the volume and variety of data raises important challenges regarding its retrieval, manipulation, analysis and representation, requiring the adoption of the best practices in data science, using a multi-faceted approach in the field of urban studies with a strong emphasis in the reproducibility of the developed methodologies. This research focuses in the case of study of the city of Barcelona, using the public data collected from Panoramio, Flickr, Twitter and Instagram. After a literature review, the methods to access the different services are discussed, along with their available data and limitations. Next, the retrieved data is analyzed at different spatial and temporal scales. The first approximation to data focuses on the origins of users who took geotagged pictures of Barcelona, geocoding the hometowns that appear in their Flickr public profiles, allowing the identification of the regions, countries and cities with the largest influx of visitors, and relating the results with multiple indicators at a global scale. The next scale of analysis discusses the city as a whole, developing methodologies for the representation of the spatial distribution of the collected locations, avoiding the artifacts produced by overplotting. To this end, locations are aggregated in regular tessellations, whose size is determined empirically from their spatial distribution. Two spatial statistics techniques (Moran’s I and Getis-Ord’s G*) are used to visualize the local spatial autocorrelation of the areas with exceptionally high or low densities, under a statistical significance framework. Finally, the kernel density estimation is introduced as a non-parametric alternative. The third level of detail follows the official administrative division of Barcelona in 73 neighborhoods and 12 districts, which obeys to historical, morphological and functional criteria. Micromaps are introduced as a representation technique capable of providing a geographical context to commonly used statistical graphics, along with a methodology to produce these micromaps automatically. This technique is compared to annotated scatterplots to relate picture intensity with different urban indicators at a neighborhood scale. The hypothesis of spatial homogeneity is abandoned at the most detailed scale, focusing the analysis on the street network. Two techniques to assign events to road segments in the street graph are presented (direct by shortest distance or by proxy through the postal addresses), as well as the generalization of the kernel density estimation from the Euclidean space to a network topology. Beyond the spatial domain, the interactions of three temporal cycles are further analyzed using the timestamps available in the picture metadata: daytime/nighttime (daily cycle), work/leisure (weekly cycle) and seasonal (yearly cycle).La major part de la població mundial resideix actualment en àrees urbanes, i es preveu que pràcticament tot el creixement del planeta es concentri en elles en els propers 30 anys, convertint la millora de la qualitat de vida a les ciutats en un dels grans reptes del present segle. És per tant imprescindible disposar d'informació sobre les activitats que les persones desenvolupen en elles, que permetin al planejament donar resposta a les seves necessitats. Aquesta tesi proposa l'ús de dades compartides de manera voluntària pels milions d'usuaris que conformen les comunitats de les xarxes socials com una valuosa eina per a l'estudi de la complexitat de la ciutat, per la seva capacitat de proporcionar un volum d'informació urbana sense precedents, reunint components tant geogràfics, temporals, semàntics i multimèdia. No obstant això, aquest volum i varietat de les dades planteja grans reptes pel que fa a la seva obtenció, tractament, anàlisi i representació, requerint adoptar les millors pràctiques de la ciència de dades, aplicades des de múltiples punts de vista al camp dels estudis urbans, posant sempre l'èmfasi en la reproductibilitat de les metodologies desenvolupades. Aquesta investigació se centra en el cas d'estudi de la ciutat de Barcelona, a partir de les dades públiques obtingudes de Panoramio, Flickr, Twitter i Instagram. Després d'una revisió de l'estat de l'art, es desenvolupa l'operativa d'accés als diferents serveis, revisant les dades disponibles i les seves limitacions. A continuació, s'analitzen les dades obtingudes en diferents escales espacials i temporals. La primera aproximació a les dades es desenvolupa a partir de l'origen dels usuaris que han pres fotografies geolocalitzades de Barcelona, a través de la geocodificació de les ubicacions que apareixen en els seus perfils públics de Flickr, permetent identificar les regions, països i ciutats amb major afluència de visitants i relacionar els resultats amb diferents indicadors a escala global. La següent escala d'anàlisi es centra en la ciutat en el seu conjunt, desenvolupant metodologies per a la representació de la distribució espacial de les localitzacions obtingudes, evitant els artefactes produïts per la superposició de mostres. Per a això s'agreguen les localitzacions en tesselacions regulars, la mida de les quals es determina empíricament a partir de la seva distribució espacial. S'utilitzen dues tècniques d'estadística espacial (I de Moran i G* de Getis-Ord) per a visualitzar l'autocorrelació espacial local dels àmbits amb densitats excepcionalment altes o baixes, seguint un criteri de significança estadística. Finalment s'introdueix com a alternativa no paramètrica l'estimació de la densitat. El tercer nivell de detall coincideix amb la delimitació administrativa oficial de Barcelona en 73 barris i 12 districtes, realitzada a partir de criteris històrics, morfològics i funcionals. S'introdueixen els micromapes com a tècnica de representació capaç d'aportar un context geogràfic a gràfics estadístics d'ús comú, juntament amb una metodologia per produir aquests micromapes de manera automàtica. Es compara aquesta tècnica amb diagrames de dispersió anotats per a relacionar la intensitat de fotografies amb diferents indicadors urbans a escala de barri. En l'escala més detallada s'abandona la hipòtesi d'homogeneïtat espacial i es trasllada l'anàlisi al sistema viari. Es presenten dues tècniques d'atribució de localitzacions a trams de carrer del graf vial (directa per distància o indirecta a través de les adreces postals), així com la generalització de l'estimació de la densitat d'un espai euclidià a una topologia de xarxa. Fora del context espacial, s'analitzen les interaccions de tres cicles temporals a partir de les metadades del moment en què van ser preses les fotografies: diürn/nocturn (cicle diari), treball/oci (cicle setmanal) i estacional (cicle anual)
    corecore