109 research outputs found
Verteiltes DĂŒnngitter Clustering mit groĂen DatensĂ€tzen
Clustering ist ein Verfahren, das in vielen unterschiedlichen Disziplinen eingesetzt wird, um Muster in Daten zu erkennen. Wachsende Datenvolumen erfordern hierzu effiziente Algorithmen, welche auch groĂe Datenmengen in akzeptabler Zeit clustern können. In dieser Arbeit wird zu diesem Zweck ein Clustering Verfahren genutzt, das auf einer DichteschĂ€tzung mit dĂŒnnen Gittern und einem k-nearest-neighbors Verfahren basiert. Dieser Algorithmus ist gut geeignet um groĂe, höherdimensionale DatensĂ€tze zu clustern und in verrauschten DatensĂ€tzen Cluster beliebiger Form zu suchen. Um die heutigen Parallelrechner ausnutzen zu können, wird zur Implementierung OpenCL verwendet. Zur weiteren Aufteilung des Problemes wird das Message Passing Interface genutzt, um das Clustering auf mehrere Rechner verteilen zu können. Mit dieser Implementierung wurde auf einem Rechencluster mit 64 Xeon Phi Coprozessoren ein zehndimensionaler, stark verrauschter Datensatz mit einer Million Datenpunkte in 1434 Sekunden geclustert, wobei sĂ€mtliche Cluster erkannt und 88.99% der Datenpunkte dem richtigen Cluster zugeordnet wurden
Multivariate GRBF-Netzwerke und Systeme lokaler Experten
Solange der Mensch seit Beginn der modernen Wissenschaft versucht, seine kognitiven
FĂ€higkeiten durch anatomische, physiologische und psychologische Untersuchungen zu
verstehen, werden diese Forschungen auch von der Entwicklung mathematischer Modelle
begleitet. Dies geschieht in der Hoffnung, zu einem tieferen VerstÀndnis der Gehirnfunktionen
zu gelangen und in jĂŒngster Zeit mit dem Ziel, neuartige mathematische Verfahren,
z.B. zur Mustererkennung und Funktionenapproximation, zu erhalten. Im Rahmen dieses
Ansatzes wurde vor etwa 10 Jahren das radiale Basisfunktionen (RBF)-Netzwerk eingefĂŒhrt,
welches bestimmte Strukturen im cerebellaren Cortex modelliert.
In frĂŒheren Arbeiten wurden tiefgehende Beziehungen zwischen diesem dreischichtigen
Netzwerkmodell und der maximum likelihood (ML)-SchÀtzung von empirischen Datenverteilungen
durch Mischungen univariater Normalverteilungen aufgedeckt. Solche Netzwerke
eignen sich zur datengetriebenen Funktionenapproximation und zur Lösung von Klassi-
fikationsaufgaben. Ausgehend von diesen Beobachtungen wird in der vorliegenden Arbeit
das RBF-Modell stufenweise verallgemeinert.
ZunÀchst wird mit dem generalisierten radialen Basisfunktionen (GRBF)-Netzwerk ein
Modell vorgestellt, dessen Parameter sich aus ML-SchÀtzungen von Datenverteilungen
durch Mischungen multivariater Normalverteilungen ableiten lassen. Damit wird erstmals
ein Verfahren eingefĂŒhrt, mit dem alle Netzwerkparameter simultan optimiert werden können.
Ein deterministisches AbkĂŒhlschema sorgt dabei fĂŒr die sichere Konvergenz des zugehörigen
sequentiellen stochastischen Lernprozesses.
AnschlieĂend wird ein neues Modell zur Funktionenapproximation, der sogenannte LLMApproximator
, vorgestellt, das ebenfalls auf DichteschÀtzungen durch Mischungen multivariater
Normalverteilungen beruht und sich in SpezialfÀllen auf das GRBF-Netzwerk
reduziert. Im LLM-Verfahren wird die zu approximierende Funktion durch eine Interpolation
lokaler linearer Regressionsmodelle dargestellt. In Verallgemeinerung dieser Verfahren
wird schlieĂlich ein Konstruktionsprinzip fĂŒr Systeme lokaler Experten formuliert,
das sowohlWettbewerb als auch Kooperation unterschiedlicher Experten zur Lösung einer
gemeinsamen Aufgabe organisiert.
Die Arbeitsweisen des LLM-Approximators als auch des Systems lokaler Experten werden
am Beispiel von Regelungsproblemen illustriert. ZunÀchst wird die Regelung eines
virtuellen Bioreaktors mit Hilfe des LLM-Approximators vorgestellt. AnschlieĂend wird
das System lokaler Experten fĂŒr die Regelung einer realen, komplexen industriellen Anlage
verwendet. Dabei handelt es sich um die Anlage zur RĂŒckstandsverbrennung im Werk
Burghausen der Wacker-Chemie GmbH
Abgaben- und Transfersystem wirkt Polarisierungstendenzen entgegen : Kernel-Density-SchÀtzungen auf Basis der Einkommens- und Verbrauchsstichproben 1973 bis 1988
Die Untersuchungen auf der Basis der Einkommens- und Verbrauchs stichproben haben ergeben, daĂ sich hinter der fĂŒr die "alte" Bundesrepublik festgestellten weitgehenden StabilitĂ€t der Verteilung der NettoĂ€quivalenzeinkommen deutliche VerĂ€nderungen auf den vorgelagerten Stufen des Verteilungsprozesses verbergen. Bei den individuellen Erwerbseinkommen sowie bei den individuellen Faktoreinkommen (nur Bezieher) sind zwischen 1973 und 1988 die hier einbezogenen aggregierten UngleichheitsmaĂe zwar kaum gestiegen; Kernel Density-SchĂ€tzungen zeigen aber einen leichten Polarisierungstrend der bimodalen Verteilung, da die Dichte in den Randbereichen der Verteilung zugenommen hat und das Dichtetal zwischen den beiden Gipfeln sich gesenkt hat. Unter BerĂŒcksichtigung des Haushaltszusammenhangs - durch Zusammenfassung individueller Faktoreinkommen auf Haushaltsebene und Gewichtung mit einer Ăquivalenzskala - erweisen sich die VerteilungsĂ€nderungen als noch gravierender. Die aggregierten UngleichheitsmaĂe sind stark gestiegen, und das VerhĂ€ltnis der beiden Modi der zweigipfligen Verteilung hat sich umgekehrt: lag 1973 der erste Gipfel im Bereich der geringfĂŒgigen FaktorĂ€quivalenzeinkommen noch deutlich unter dem zweiten, knapp unterhalb des Durchschnitts gelegenen Gipfel, so war 1988 der erste Gipfel deutlich höher als der zweite. Die relative HĂ€ufigkeit marginaler FaktorĂ€quivalenzeinkommen hat im Zeitablauf also eindeutig zugenommen, ebenso wie die im oberen Einkommensbereich. Dennoch kann man von Polarisierung nur in einem weiteren Sinn sprechen, da das Dichtetal zwischen den Modi 1988 höher als 1973 liegt. Es mag beruhigend wirken, daĂ - zumindest in der Zeit vor der Wiedervereinigung - das Abgaben- und Transfersystem die zunehmende DisparitĂ€t der Faktoreinkommensverteilung insoweit kompensieren konnte, als die relative HĂ€ufigkeit des Niedrigeinkommensbereichs - hier abgegrenzt mit 50% des durchschnittlichen NettoĂ€quivalenzeinkommens - vergleichsweise mĂ€Ăig zugenommen hat. Dieser Eindruck ist allerdings im Hinblick auf die eingangs erwĂ€hnten EinschrĂ€nkungen der Datenbasis zu relativieren. Die unzureichende Erfassung des oberen und des unteren Randbereichs der Einkommensverteilung lĂ€Ăt vermuten, daĂ der tatsĂ€chliche Trend zunehmender Ungleichheit und Polarisierung durch unsere Analysen unterschĂ€tzt wird
Population density and habitat use of the Green Woodpecker Picus viridis in Donau-Auen National Park (Lower Austria)
In einer 1170 ha groĂen ProbeflĂ€che im Nationalpark Donau-
Auen (Niederösterreich) wurden Siedlungsdichten und
HabitatprĂ€ferenzen des GrĂŒnspechts Picus viridis untersucht.
Im Rahmen einer rationalisierten Revierkartierung zwischen
Februar und April 2008 wurden 14 Reviere ermittelt (Revierdichte:
0,12 Reviere/10 ha). Basierend auf dem Vorkommen
der Art in 400 m x 400 m Rastern wurde der Einfluss
der vorherrschenden Baumarten, des Bestandesalters, der
LĂ€nge der Waldrandgrenze sowie der LĂ€nge der Seitenarme
auf das Vorkommen des GrĂŒnspechts mittels verallgemeinerter
linearer Modelle analysiert. Der beste PrĂ€diktor fĂŒr
das Vorkommen der Art war der Grenzlinienanteil zwischen
Wald und Nicht-Wald-Bereichen. Die meisten Reviere befanden
sich in Bereichen des Untersuchungsgebiets, die
durch einen Damm vor Hochwasser geschĂŒtzt sind. Die
Harte Au wurde im Vergleich zur Weichen Au signifikant
bevorzugt. Dies ist höchstwahrscheinlich mit einer besseren
NahrungsverfĂŒgbarkeit (Ameisen) in den trockeneren Gebieten
zu erklÀren. Es konnten keine signifikanten PrÀferenzen
fĂŒr bestimmte Baumarten festgestellt werden, Hybridpappeln
und Weiden (Arten der Weichen Au) wurden jedoch
scheinbar gemieden, was aber wohl eher auf die weniger
gĂŒnstigen Bedingungen in feuchteren LebensrĂ€umen zurĂŒckzufĂŒhren
ist. Alle Reviere lagen im Waldrandbereich
und beinhalteten Wiesen, Teile des Damms, aber auch landwirtschaftlich
genutzte Felder. Bei fĂŒnf Revieren dĂŒrften
intensiv genutzte Getreidefelder den einzigen Offenlandanteil
darstellen.Population densities and habitat use of the Green Woodpecker Picus viridis were studied in a 1,170 ha study area in the Donau-
Auen National Park (Lower Austria). Territory mapping (three visits) between February and April 2008 yielded a minimum
of 14 territories, which corresponds to 0.12 territories/10 ha. Based on the incidence of the species in 400 m x 400 m grids,
generalized linear models were constructed and the presence of the species was related to dominant tree species, tree age,
length of the forest boundary and length of river sidearms. The best predictor for the presence of P. viridis was the length of
the forest boundary. Most territories were located in areas protected from flooding by a dyke. Hardwood forest was significantly
preferred to softwood forest. This can be explained by a better food supply (ants) in drier areas. No significant preferences
for particular tree species were found; however, hybrid poplars and willows were apparently avoided, which can be attributed
to less favourable conditions in wetter habitats. All territories were located at the forestâs edges and contained meadows
or agricultural fields. In five territories, agricultural fields seemed to constitute the only open land
Konformationsdynamik lichtschaltbarer Peptide: Molekulardynamiksimulationen und datengetriebene Modellbildung
Die Faltung und die Funktionsdynamik von Proteinen basieren auf schnellen Prozessen, die zum Teil im Zeitbereich der Pikosekunden bis Nanosekunden ablaufen. Zur Untersuchung dieser Dynamiken und der mit ihnen verbundenen strukturellen Ănderungen werden hĂ€ufig Molekulardynamik (MD)-Simulationen eingesetzt, die auf empirisch parametrisierten molekularmechanischen (MM) Kraftfeldern basieren.
Die vorliegenden Arbeit stellt einen Ansatz zur Validierung solcher MM-Kraftfelder vor, der darin besteht, die Relaxationsdynamik kleiner lichtschaltbarer Modellpeptide zu simulieren und die dabei auftretenden Kinetiken mit Ergebnissen der Femtosekunden-Spektroskopie zu vergleichen. Erste Simulationen dieser Art zeigen eine ĂŒberraschende Ăbereinstimmung zwischen den simulierten und den gemessenen Kinetiken.
Weitere Untersuchungen, bei denen einzelne Details des eingesetzten Kraftfelds variiert werden, lassen jedoch erkennen, dass diese Ăbereinstimmung auf einer zufĂ€lligen Kompensation von Fehlern beruht. Es wird gezeigt, dass die simulierten Kinetiken sehr empfindlich auf Ănderungen am MM-Kraftfeld reagieren und damit als MaĂstab fĂŒr die GĂŒte seiner Parametrisierung dienen können. Besonders die Modellierung des Lösungsmittels DMSO hat einen entscheidenden Einfluss auf die beobachteten Kinetiken, und zwar nicht nur auf die KĂŒhlzeiten der WĂ€rmedissipation, sondern auch auf die Relaxationsdynamik des Peptidteils der Modellsysteme.
Als Vorarbeit fĂŒr die Simulation der Modellpeptide wird ein flexibles und explizites DMSO-Modell aus ersten Prinzipien abgeleitet und dessen thermodynamische und strukturelle Eigenschaften mit denen existierender Modelle verglichen. Ferner wird das eingesetzte Kraftfeld um Parameter fĂŒr den in die Modellpeptide integrierten Farbstoff Azobenzol erweitert und dessen lichtinduzierte Isomerisierungsreaktion modelliert. DarĂŒber hinaus werden neuartige Methoden zur statistischen Auswertung von MD-Trajektorien vorgestellt, die dazu dienen, eine strukturelle Klassifikation der Peptidgeometrien zu ermöglichen. Mit Hilfe dieser Klassifikation kann ein vertiefter Einblick in die wĂ€hrend der Relaxation der Modellpeptide auftretenden KonformationsĂŒbergĂ€nge gewonnen werden.
Ferner ermöglichen es die statistischen Auswertungsverfahren, aus Langzeitsimulationen der Modellpeptide deren Gleichgewichtskonformationen zu bestimmen. Der Vergleich dieser Konformationen mit Daten der NMR"=Spektroskopie zeigt schlieĂlich die LeistungsfĂ€higkeit der Methode der MD-Simulation fĂŒr die Vorhersage von Peptidstrukturen
ModalwertschĂ€tzung in der nichtparametrischen KurvenschĂ€tzung und Blockwise Bootstrap fĂŒr den geschĂ€tzten empirischen Prozess
Die folgende Arbeit befasst sich mit Fragestellungen der asymptotischen Statistik. Der erste Teil ist der ModalwertschÀtzung im Rahmen der nichtparametrischen KurvenschÀtzung in verschiedenen Modellen gewidmet. ZunÀchst wird das Problem der ModalwertschÀtzung in Dekonvolutionsmodellen betrachtet, wo interessierende
Zufallsvariablen nicht direkt beobachtet werden können, sondern mit einer additiven StörgröĂe versehen sind. Durch Verwendung von fĂŒr diese Problematik ĂŒblichen KernschĂ€tzern fĂŒr die Kurven selbst werden Konvergenzraten fĂŒr den ModalwertschĂ€tzer erzielt, der durch Maximierung der KurvenschĂ€tzer definiert ist. Die erzielten Konvergenzraten im Modell der DichteschĂ€tzung und der Errors-in-Variables-Regression sind von der Glattheit der mindestens als zweimal stetig differenzierbar angenommen Kurve sowie der Schlechtgestelltheit des Dekonvolutionsproblems abhĂ€ngig und erweisen sich als asymptotisch optimal. Im Modell mit direkten Beobachtungen wird der Fall einer Kurve mit nichtdifferenzierbarer Modalstelle unter Vorliegen stark mischender Beobachtungen beleuchtet. Zur SchĂ€tzung des Modalwertes wird sowohl die Maximierung des KurvenschĂ€tzers ĂŒber dem Kontinuum sowie ĂŒber einem Gitter herangezogen, beide SchĂ€tzer erweisen sich wiederum als asymptotisch optimal. Der zweite Teil dieser Arbeit behandelt den empirischen Prozesses mit geschĂ€tztem Parameter, basierend auf schwach abhĂ€ngigen Beobachtungen. Zahlreiche Teststatistiken beruhen auf dem geschĂ€tzten empirischen Prozess, jedoch ist deren Verteilung von unbekannten Parametern abhĂ€ngig. Daher wird der Originalprozess durch einen Prozess imitiert, welcher auf Pseudo-Beobachtungen beruht, die durch ein geeignetes Resampling-Verfahren generiert wurden. FĂŒr den Prozess der zugrundeliegenden Beobachtungen wird das auf Doukhan und Louhichi basierende AbhĂ€ngigkeitskonzept der -Weak Dependence verwendet, welches allgemeiner ist als das Mixing-Konzept und etwa auch innovationsgesteuerte Prozesse mit diskret verteilten Innovationen umfasst. Es wird zunĂ€chst die Verteilungskonvergenz des geschĂ€tzten empirischen Prozesses gegen einen zentrierten GauĂprozess nachgewiesen. Weiterhin wird fĂŒr den Bootstrap-Prozess die Verteilungskonvergenz in Wahrscheinlichkeit gegen einen zentrierten GauĂprozess gezeigt und daraus fĂŒr geeignete Teststatistiken die schwache Konsistenz des Bootstrap-Verfahrens in der Supremums-Metrik abgeleitet
Ăber lernende optische Inspektion am Beispiel der SchĂŒttgutsortierung
Die automatische optische Inspektion spielt als zerstörungsfreie Analysemethode in modernen industriellen Fertigungsprozessen eine wichtige Rolle. Typische, kommerziell eingesetzte automatische Inspektionssysteme sind dabei speziell an die jeweilige Aufgabenstellung angepasst und sind sehr aufwendig in der Entwicklung und Inbetriebnahme. AuĂerdem kann mangelndes Systemwissen der Anwender die Inspektionsleistung im industriellen Einsatz verschlechtern. Maschinelle Lernverfahren bieten eine Alternative: Die Anwender stellen lediglich eine Stichprobe bereit und das System konfiguriert sich von selbst. Ebenso können diese Verfahren versteckte ZusammenhĂ€nge in den Daten aufdecken und so den Entwurf von Inspektionssystemen unterstĂŒtzen.
Diese Arbeit beschĂ€ftigt sich mit geeigneten lernenden Verfahren fĂŒr die optische Inspektion. Die als Beispiel dienende SchĂŒttgutsortierung setzt dabei die Rahmenbedingungen: Die Aufnahmebedingungen sind kontrolliert und die Objekterscheinung einfach. Gleichzeitig zeigen die Objekte mitunter nur wenige diskriminative Merkmale. Die Lernstichproben sind klein, unbalanciert und oft unvollstĂ€ndig in Bezug auf die möglichen Defektklassen. ZusĂ€tzlich ist die verfĂŒgbare Rechenzeit stark begrenzt. Unter BerĂŒcksichtigung dieser Besonderheiten werden in der vorliegenden Arbeit lernende Methoden fĂŒr die Mustererkennungs-Schritte Bilderfassung, Merkmalsextraktion und Klassifikation entwickelt.
Die Auslegung der Bilderfassung wird durch die automatische Selektion optischer Filter zur Hervorhebung diskriminativer Merkmale unterstĂŒtzt. Anders als vergleichbare Methoden erlaubt die hier beschriebenen Methode die Selektion optische Filter mit beliebig komplizierten Transmissionskurven.
Da relevante Merkmale die Grundvoraussetzung fĂŒr eine erfolgreiche Klassifikation sind, nimmt die Merkmalsextraktion einen groĂen Teil der Arbeit ein. Solche Merkmale können beispielsweise aus einer Menge an Standardmerkmalen identifiziert werden. In der SchĂŒttgutsortierung ist dabei neben der Relevanz aber auch der Rechenaufwand der Merkmalsextraktion von Bedeutung. In dieser Arbeit wird daher ein Merkmalsselektionsverfahren beschrieben, welches diesen Aufwand mit einbezieht. Daneben werden auch Verfahren untersucht, mit denen sich Merkmale mit Hilfe einer Lernstichprobe an ein gegebenes Sortierproblem anpassen lassen. Im Rahmen dieser Arbeit werden dazu zwei Methoden zum Lernen von Formmerkmalen bzw. von Farb- und Texturmerkmalen beschrieben. Mit beiden Verfahren werden einfache, schnell berechenbare, aber wenig diskriminative Merkmale zu hochdiskriminativen Deskriptoren kombiniert. Das Verfahren zum Lernen der Farb- und Texturdeskriptoren erlaubt auĂerdem die Detektion und RĂŒckweisung unbekannter Objekte. Diese RĂŒckweisungsoption wird im Sinne statistischer Tests fĂŒr Anwender leicht verstĂ€ndlich parametriert.
Die Detektion unbekannter Objekte ist auch das Ziel der Einklassenklassifikation. HierfĂŒr wird in dieser Arbeit ein Verfahren beschrieben, das den Klassifikator anhand einer Lernstichprobe mit lediglich Beispielen der Positivklasse festlegt. Die Struktur dieses Klassifikators wird auĂerdem ausgenutzt, um sicher unbekannte Objekte um GröĂenordnungen schneller zurĂŒckzuweisen als dies mit alternativen Verfahren möglich ist.
Alle vorgestellten Verfahren werden anhand von synthetischen DatensĂ€tzen und DatensĂ€tzen aus der Lebensmittelinspektion, Mineralsortierung und Inspektion technischer GegenstĂ€nde quantitativ evaluiert. In einer GegenĂŒberstellung mit vergleichbaren Methoden aus der Literatur werden die StĂ€rken und EinschrĂ€nkungen der Methoden herausgestellt. Hierbei zeigten sich alle vorgestellten Verfahren gut fĂŒr die SchĂŒttgutsortierung geeignet.
Die vorgestellten Verfahren ergĂ€nzen sich auĂerdem gegenseitig. Sie können genutzt werden, um ein komplettes Sortiersystem auszulegen oder um einzeln als Komponenten in einem bestehenden System eingesetzt zu werden. Die Methoden sind dabei nicht auf einen bestimmten Anwendungsfall zugeschnitten, sondern fĂŒr eine groĂen Palette an Produkten einsetzbar. Somit liefert diese Arbeit einen Beitrag zur Anwendung maschineller Lernverfahren in optischen Inspektionssystemen
Die GlÀttung rÀumlicher DatensÀtze auf administrativen FlÀchen: Eine Fallstudie mit Berliner Wahldaten
Composite spatial data on administrative area level are often presented by maps. The aim is to detect regional differences in the concentration of subpopulations, like elderly persons, ethnic minorities, low-educated persons, voters of a political party or persons with a certain disease. Thematic collections of such maps are presented in different atlases. The standard presentation is by Choropleth maps where each administrative unit is represented by a single value. These maps can be criticized under three aspects: the implicit assumption of a uniform distribution within the area, the instability of the resulting map with respect to a change of the reference area and the discontinuities of the maps at the borderlines of the reference areas which inhibit the detection of regional clusters.
In order to address these problems we use a density approach in the construction of maps. This approach does not enforce a local uniform distribution. It does not depend on a specific choice of area reference system and there are no discontinuities in the displayed maps. A standard estimation procedure of densities are Kernel density estimates. However, these estimates need the geo-coordinates of the single units which are not at disposal as we have only access to the aggregates of some area system. To overcome this hurdle, we use a statistical simulation concept. This can be interpreted as a Simulated Expectation Maximisation (SEM) algorithm of Celeux et al (1996). We simulate observations from the current density estimates which are consistent with the aggregation information (S-step). Then we apply the Kernel density estimator to the simulated sample which gives the next density estimate (E-Step).
This concept has been first applied for grid data with rectangular areas, see GroĂ et al (2017), for the display of ethnic minorities. In a second application we demonstrated the use of this approach for the so-called âchange of supportâ (Bradley et al 2016) problem. Here GroĂ et al (2020) used the SEM algorithm to recalculate case numbers between non-hierarchical administrative area systems. Recently Rendtel et al (2021) applied the SEM algorithm to display spatial-temporal clusters of Corona infections in Germany.
Here we present three modifications of the basic SEM algorithm: 1) We introduce a boundary correction which removes the underestimation of kernel density estimates at the borders of the population area. 2) We recognize unsettled areas, like lakes, parks and industrial areas, in the computation of the kernel density. 3) We adapt the SEM algorithm for the computation of local percentages which are important especially in voting analysis.
We evaluate our approach against several standard maps by means of the local voting register with known addresses. In the empirical part we apply our approach for the display of voting results for the 2016 election of the Berlin parliament. We contrast our results against Choropleth maps and show new possibilities for reporting spatial voting results.RĂ€umliche Daten auf der Ebene administrativer FlĂ€cheneinheiten werden hĂ€ufig ĂŒber Karten dargestellt. Das Ziel ist es dabei regionale Unterschiede fĂŒr interessierenden Bevölkerungsgruppen aufzudecken. Dies betrifft beispielsweise Ă€ltere Personen, ethnische Minderheiten, Personen mit geringer Bildung aber auch WĂ€hler einer politischen Partei sowie Personen, die sich mit einer bestimmten Krankheit infiziert haben. Die Zusammenfassung derartiger Karten wird in Atlanten prĂ€sentiert. Eine Standarddarstellung benutzt Choroplethen, wo jede administrative Einheit durch einen einzigen Wert reprĂ€sentiert wird. Diese Karten können unter drei Aspekten kritisiert werden: Die implizite Annahme einer gleichmĂ€Ăigen Verteilung innerhalb der FlĂ€che der Einheit, die InstabilitĂ€t der Darstellung beim Wechsel der administrativen Einheit sowie die SprĂŒnge an den Grenzlinien der Einheiten, die das Aufdecken von regionalen Clustern erschweren.
Um diese Probleme zu beseitigen, verwenden wir eine Kartenkonstruktion auf der Basis von Dichten. Dieser Ansatz vermeidet eine zwangslĂ€ufige gleichmĂ€Ăige Dichte innerhalb der ReferenzflĂ€chen. Er ist unabhĂ€ngig von der Wahl eines spezifischen Referenzsystems und vermeidet Sprungstellen. Ein Standardverfahren wĂŒrde KerndichteschĂ€tzer verwenden. Allerdings werden hierfĂŒr die Geokoordinaten der einzelnen Einheiten benötigt. Diese stehen aber nicht zur VerfĂŒgung sondern lediglich die Aggregate der jeweiligen FlĂ€cheneinheit. Um diese HĂŒrde zu umgehen, verwenden wir ein statistisches Simulationskonzept. Es kann als Simulierter EM (SEM) Algorithmus von Celeux et al (1996) beschrieben werden. Auf Basis der gegenwĂ€rtigen DichteschĂ€tzung simulieren wir Beobachtungen, die mit der Aggregatsinformation konsistent sind (S-Schritt). Dann wenden wir den KerndichteschĂ€tzer auf die simulierte Stichprobe an, die die nĂ€chste DichteschĂ€tzung liefert (E-Schritt).
Dieses Konzept wurde erstmals fĂŒr Gitterdaten auf Rechtecken zur Darstellung von ethnischen Minderheiten angewendet, GroĂ et al (2017). Eine weitere Anwendung fand dieser Ansatz beim sogenannten âChange of Supportâ Problem, (Bradley et al 2016). Hier nutzten GroĂ et al (2020) den SEM Algorithmus bei der Umrechnung von Fallzahlen zwischen nicht-hierarchischen FlĂ€chensystemen. JĂŒngst haben Rendtel et al (2021) den SEM Algorithmus fĂŒr die Darstellung rĂ€umlich-zeitlicher Konzentrationen von Corona Infektionen in Deutschland verwendet.
Hier prĂ€sentieren wir drei Modifikationen des SEM Algorithmus: 1) Wir fĂŒhren eine Randkorrektur ein, die die UnterschĂ€tzung der KerndichteschĂ€tzung an den Grenzen der Population beseitigt. 2) Wir berĂŒcksichtigen unbewohnte Bereiche wie Parks, Seen und Industriegebiete bei der Berechnung der KerndichteschĂ€tzung. 3) Wir passen den SEM Algorithmus fĂŒr die Berechnung lokaler ProzentsĂ€tze an, die insbesondere fĂŒr Wahlanalysen interessant sind.
Wir evaluieren unseren Ansatz gegen verschiedene Standardkarten auf Basis eines lokalen WÀhlerregisters mit bekannten Adressen. Im empirischen Teil wenden wir unseren Ansatz auf die Darstellung von Wahlergebnissen zur Wahl des Berliner Abgeordnetenhauses 2016 an. Wir vergleichen unsere Ergebnisse mit Choroplethenkarten und zeigen neue Möglichkeiten zur Berichterstattung rÀumlicher Wahlergebnisse
Zeitreihenanalyse auf dĂŒnnen Gittern
Zeitreihen sind Mengen von zeitlich geordneten Beobachtungen und fallen bei nahezu allen messbaren Daten an. In dieser Arbeit wird das Vorhersageproblem fĂŒr Zeitreihen untersucht, fĂŒr das viele praktische Anwendungen existieren, darunter die Vorhersage von Börsendaten. FĂŒr die Untersuchung von Zeitreihen können Gitter-basierte AnsĂ€tze verwendet werden. Bei diesen treten jedoch bei hohen Problemdimensionen unpraktikabel groĂe Rechenzeiten auf. In dieser Arbeit wird eine Methode zur Zeitreihenanalyse mit dĂŒnnen Gittern vorgestellt, die es erlaubt, Lösungen fĂŒr Probleme mit höherer DimensionalitĂ€t zu berechnen. Die durchgefĂŒhrten Experimente zeigen dabei, dass fĂŒr einige DatensĂ€tze Vorhersagen mit sehr hoher QualitĂ€t berechnet werden. Gleichzeitig ist die benötigte Rechenzeit fĂŒr viele zeitkritische Anwendungen bereits ausreichend. Um das Anwendungsspektrum der Methode weiter zu vergröĂern, werden Optimierungen vorgestellt, mit denen die benötigte Rechenzeit weiter verringert wird
- âŠ