8 research outputs found

    Inferring Degree Of Localization Of Twitter Persons And Topics Through Time, Language, And Location Features

    Get PDF
    Identifying authoritative influencers related to a geographic area (geo-influencers) can aid content recommendation systems and local expert finding. This thesis addresses this important problem using Twitter data. A geo-influencer is identified via the locations of its followers. On Twitter, due to privacy reasons, the location reported by followers is limited to profile via a textual string or messages with coordinates. However, this textual string is often not possible to geocode and less than 1\% of message traffic provides coordinates. First, the error rates associated with Google\u27s geocoder are studied and a classifier is built that gives a warning for self-reported locations that are likely incorrect. Second, it is shown that city-level geo-influencers can be identified without geocoding by leveraging the power of Google search and follower-followee network structure. Third, we illustrate that the global vs. local influencer, at the timezone level, can be identified using a classifier using the temporal features of the followers. For global influencers, spatiotemporal analysis helps understand the evolution of their popularity over time. When applied over message traffic, the approach can differentiate top trending topics and persons in different geographical regions. Fourth, we constrain a timezone to a set of possible countries and use language features for training a high-level geocoder to further localize an influencer\u27s geographic area. Finally, we provide a repository of geo-influencers for applications related to content recommendation. The repository can be used for filtering influencers based on their audience\u27s demographics related to location, time, language, gender, and ethnicity

    Advanced Data Mining and Machine Learning Algorithms for Integrated Computer-Based Analyses of Big Environmental Databases

    Get PDF
    Einsicht in die räumliche Verteilung geotechnischer und hydrologischer Untergrundeigenschaften sowie von Reservoir- und Umweltparametern sind grundlegend für geowissenschaftliche Forschungen. Entwicklungen in den Bereichen geophysikalische Erkundung sowie Fernerkundung resultieren in der Verfügbarkeit verschiedenster Verfahren für die nichtinvasive, räumlich kontinuierliche Datenerfassung im Rahmen hochauflösender Messverfahren. In dieser Arbeit habe ich verschiedene Verfahren für die Analyse erdwissenschaftlicher Datenbasen entwickelt auf der Basis von Wissenserschließungsverfahren. Eine wichtige Datenbasis stellt geophysikalische Tomographie dar, die als einziges geowissenschaftliches Erkundungsverfahren 2D und 3D Abbilder des Untergrunds liefern kann. Mittels unterschiedlicher Verfahren aus den Bereichen intelligente Datenanalyse und maschinelles Lernen (z.B. Merkmalsextraktion, künstliche neuronale Netzwerke, etc.) habe ich ein Verfahren zur Datenanalyse mittels künstlicher neuronaler Netzwerke entwickelt, das die räumlich kontinuierliche 2D oder 3D Vorhersage von lediglich an wenigen Punkten gemessenen Untergrundeigenschaften im Rahmen von Wahrscheinlichkeitsaussagen ermöglicht. Das Vorhersageverfahren basiert auf geophysikalischer Tomographie und berücksichtigt die Mehrdeutigkeit der tomographischen Bildgebung. Außerdem wird auch die Messunsicherheit bei der Erfassung der Untergrundeigenschaften an wenigen Punkten in der Vorhersage berücksichtigt. Des Weiteren habe ich untersucht, ob aus den Trainingsergebnissen künstlicher neuronaler Netzwerke bei der Vorhersage auch Aussagen über die Realitätsnähe mathematisch gleichwertiger Lösungen der geophysikalischen tomographischen Bildgebung abgeleitet werden können. Vorhersageverfahren wie das von mir vorgeschlagene, können maßgeblich zur verbesserten Lösung hydrologischer und geotechnischer Fragestellungen beitragen. Ein weiteres wichtiges Problem ist die Kartierung der Erdoberfläche, die von grundlegender Bedeutung für die Bearbeitung verschiedener ökonomischer und ökologischer Fragestellungen ist, wie z.B., die Identifizierung von Lagerstätten, den Schutz von Böden, oder Ökosystemmanagement. Kartierungsdaten resultieren entweder aus technischen (objektiven) Messungen oder visuellen (subjektiven) Untersuchungen durch erfahrene Experten. Im Rahmen dieser Arbeit zeige ich erste Entwicklungen hin zu einer automatisierten und schnellen Integration technischer und visueller (subjektiver) Daten auf der Basis unterschiedlicher intelligenter Datenanalyseverfahren (z.B., Graphenanalyse, automatische Konturerfassung, Clusteranalyse, etc.). Mit solchem Verfahren sollen hart oder weich klassifizierte Karten erstellt werden, die das Untersuchungsgebiet optimal segmentieren um höchstmögliche Konformität mit allen verfügbaren Daten zu erzielen

    2016 International Land Model Benchmarking (ILAMB) Workshop Report

    Get PDF
    As earth system models (ESMs) become increasingly complex, there is a growing need for comprehensive and multi-faceted evaluation of model projections. To advance understanding of terrestrial biogeochemical processes and their interactions with hydrology and climate under conditions of increasing atmospheric carbon dioxide, new analysis methods are required that use observations to constrain model predictions, inform model development, and identify needed measurements and field experiments. Better representations of biogeochemistryclimate feedbacks and ecosystem processes in these models are essential for reducing the acknowledged substantial uncertainties in 21st century climate change projections

    Data mining in earth system science (DMESS 2011)

    No full text
    From field-scale measurements to global climate simulations and remote sensing, the growing body of very large and long time series Earth science data are increasingly difficult to analyze, visualize, and interpret. Data mining, information theoretic, and machine learning techniques-such as cluster analysis, singular value decomposition, block entropy, Fourier and wavelet analysis, phase-space reconstruction, and artificial neural networks-are being applied to problems of segmentation, feature extraction, change detection, model-data comparison, and model validation. The size and complexity of Earth science data exceed the limits of most analysis tools and the capacities of desktop computers. New scalable analysis and visualization tools, running on parallel cluster computers and supercomputers, are required to analyze data of this magnitude. This workshop will demonstrate how data mining techniques are applied in the Earth sciences and describe innovative computer science methods that support analysis and discovery in the Earth sciences
    corecore