109 research outputs found

    Verteiltes DĂŒnngitter Clustering mit großen DatensĂ€tzen

    Get PDF
    Clustering ist ein Verfahren, das in vielen unterschiedlichen Disziplinen eingesetzt wird, um Muster in Daten zu erkennen. Wachsende Datenvolumen erfordern hierzu effiziente Algorithmen, welche auch große Datenmengen in akzeptabler Zeit clustern können. In dieser Arbeit wird zu diesem Zweck ein Clustering Verfahren genutzt, das auf einer DichteschĂ€tzung mit dĂŒnnen Gittern und einem k-nearest-neighbors Verfahren basiert. Dieser Algorithmus ist gut geeignet um große, höherdimensionale DatensĂ€tze zu clustern und in verrauschten DatensĂ€tzen Cluster beliebiger Form zu suchen. Um die heutigen Parallelrechner ausnutzen zu können, wird zur Implementierung OpenCL verwendet. Zur weiteren Aufteilung des Problemes wird das Message Passing Interface genutzt, um das Clustering auf mehrere Rechner verteilen zu können. Mit dieser Implementierung wurde auf einem Rechencluster mit 64 Xeon Phi Coprozessoren ein zehndimensionaler, stark verrauschter Datensatz mit einer Million Datenpunkte in 1434 Sekunden geclustert, wobei sĂ€mtliche Cluster erkannt und 88.99% der Datenpunkte dem richtigen Cluster zugeordnet wurden

    Multivariate GRBF-Netzwerke und Systeme lokaler Experten

    Get PDF
    Solange der Mensch seit Beginn der modernen Wissenschaft versucht, seine kognitiven FĂ€higkeiten durch anatomische, physiologische und psychologische Untersuchungen zu verstehen, werden diese Forschungen auch von der Entwicklung mathematischer Modelle begleitet. Dies geschieht in der Hoffnung, zu einem tieferen VerstĂ€ndnis der Gehirnfunktionen zu gelangen und in jĂŒngster Zeit mit dem Ziel, neuartige mathematische Verfahren, z.B. zur Mustererkennung und Funktionenapproximation, zu erhalten. Im Rahmen dieses Ansatzes wurde vor etwa 10 Jahren das radiale Basisfunktionen (RBF)-Netzwerk eingefĂŒhrt, welches bestimmte Strukturen im cerebellaren Cortex modelliert. In frĂŒheren Arbeiten wurden tiefgehende Beziehungen zwischen diesem dreischichtigen Netzwerkmodell und der maximum likelihood (ML)-SchĂ€tzung von empirischen Datenverteilungen durch Mischungen univariater Normalverteilungen aufgedeckt. Solche Netzwerke eignen sich zur datengetriebenen Funktionenapproximation und zur Lösung von Klassi- fikationsaufgaben. Ausgehend von diesen Beobachtungen wird in der vorliegenden Arbeit das RBF-Modell stufenweise verallgemeinert. ZunĂ€chst wird mit dem generalisierten radialen Basisfunktionen (GRBF)-Netzwerk ein Modell vorgestellt, dessen Parameter sich aus ML-SchĂ€tzungen von Datenverteilungen durch Mischungen multivariater Normalverteilungen ableiten lassen. Damit wird erstmals ein Verfahren eingefĂŒhrt, mit dem alle Netzwerkparameter simultan optimiert werden können. Ein deterministisches AbkĂŒhlschema sorgt dabei fĂŒr die sichere Konvergenz des zugehörigen sequentiellen stochastischen Lernprozesses. Anschließend wird ein neues Modell zur Funktionenapproximation, der sogenannte LLMApproximator , vorgestellt, das ebenfalls auf DichteschĂ€tzungen durch Mischungen multivariater Normalverteilungen beruht und sich in SpezialfĂ€llen auf das GRBF-Netzwerk reduziert. Im LLM-Verfahren wird die zu approximierende Funktion durch eine Interpolation lokaler linearer Regressionsmodelle dargestellt. In Verallgemeinerung dieser Verfahren wird schließlich ein Konstruktionsprinzip fĂŒr Systeme lokaler Experten formuliert, das sowohlWettbewerb als auch Kooperation unterschiedlicher Experten zur Lösung einer gemeinsamen Aufgabe organisiert. Die Arbeitsweisen des LLM-Approximators als auch des Systems lokaler Experten werden am Beispiel von Regelungsproblemen illustriert. ZunĂ€chst wird die Regelung eines virtuellen Bioreaktors mit Hilfe des LLM-Approximators vorgestellt. Anschließend wird das System lokaler Experten fĂŒr die Regelung einer realen, komplexen industriellen Anlage verwendet. Dabei handelt es sich um die Anlage zur RĂŒckstandsverbrennung im Werk Burghausen der Wacker-Chemie GmbH

    Abgaben- und Transfersystem wirkt Polarisierungstendenzen entgegen : Kernel-Density-SchÀtzungen auf Basis der Einkommens- und Verbrauchsstichproben 1973 bis 1988

    Get PDF
    Die Untersuchungen auf der Basis der Einkommens- und Verbrauchs stichproben haben ergeben, daß sich hinter der fĂŒr die "alte" Bundesrepublik festgestellten weitgehenden StabilitĂ€t der Verteilung der NettoĂ€quivalenzeinkommen deutliche VerĂ€nderungen auf den vorgelagerten Stufen des Verteilungsprozesses verbergen. Bei den individuellen Erwerbseinkommen sowie bei den individuellen Faktoreinkommen (nur Bezieher) sind zwischen 1973 und 1988 die hier einbezogenen aggregierten Ungleichheitsmaße zwar kaum gestiegen; Kernel Density-SchĂ€tzungen zeigen aber einen leichten Polarisierungstrend der bimodalen Verteilung, da die Dichte in den Randbereichen der Verteilung zugenommen hat und das Dichtetal zwischen den beiden Gipfeln sich gesenkt hat. Unter BerĂŒcksichtigung des Haushaltszusammenhangs - durch Zusammenfassung individueller Faktoreinkommen auf Haushaltsebene und Gewichtung mit einer Äquivalenzskala - erweisen sich die VerteilungsĂ€nderungen als noch gravierender. Die aggregierten Ungleichheitsmaße sind stark gestiegen, und das VerhĂ€ltnis der beiden Modi der zweigipfligen Verteilung hat sich umgekehrt: lag 1973 der erste Gipfel im Bereich der geringfĂŒgigen FaktorĂ€quivalenzeinkommen noch deutlich unter dem zweiten, knapp unterhalb des Durchschnitts gelegenen Gipfel, so war 1988 der erste Gipfel deutlich höher als der zweite. Die relative HĂ€ufigkeit marginaler FaktorĂ€quivalenzeinkommen hat im Zeitablauf also eindeutig zugenommen, ebenso wie die im oberen Einkommensbereich. Dennoch kann man von Polarisierung nur in einem weiteren Sinn sprechen, da das Dichtetal zwischen den Modi 1988 höher als 1973 liegt. Es mag beruhigend wirken, daß - zumindest in der Zeit vor der Wiedervereinigung - das Abgaben- und Transfersystem die zunehmende DisparitĂ€t der Faktoreinkommensverteilung insoweit kompensieren konnte, als die relative HĂ€ufigkeit des Niedrigeinkommensbereichs - hier abgegrenzt mit 50% des durchschnittlichen NettoĂ€quivalenzeinkommens - vergleichsweise mĂ€ĂŸig zugenommen hat. Dieser Eindruck ist allerdings im Hinblick auf die eingangs erwĂ€hnten EinschrĂ€nkungen der Datenbasis zu relativieren. Die unzureichende Erfassung des oberen und des unteren Randbereichs der Einkommensverteilung lĂ€ĂŸt vermuten, daß der tatsĂ€chliche Trend zunehmender Ungleichheit und Polarisierung durch unsere Analysen unterschĂ€tzt wird

    Population density and habitat use of the Green Woodpecker Picus viridis in Donau-Auen National Park (Lower Austria)

    Get PDF
    In einer 1170 ha großen ProbeflĂ€che im Nationalpark Donau- Auen (Niederösterreich) wurden Siedlungsdichten und HabitatprĂ€ferenzen des GrĂŒnspechts Picus viridis untersucht. Im Rahmen einer rationalisierten Revierkartierung zwischen Februar und April 2008 wurden 14 Reviere ermittelt (Revierdichte: 0,12 Reviere/10 ha). Basierend auf dem Vorkommen der Art in 400 m x 400 m Rastern wurde der Einfluss der vorherrschenden Baumarten, des Bestandesalters, der LĂ€nge der Waldrandgrenze sowie der LĂ€nge der Seitenarme auf das Vorkommen des GrĂŒnspechts mittels verallgemeinerter linearer Modelle analysiert. Der beste PrĂ€diktor fĂŒr das Vorkommen der Art war der Grenzlinienanteil zwischen Wald und Nicht-Wald-Bereichen. Die meisten Reviere befanden sich in Bereichen des Untersuchungsgebiets, die durch einen Damm vor Hochwasser geschĂŒtzt sind. Die Harte Au wurde im Vergleich zur Weichen Au signifikant bevorzugt. Dies ist höchstwahrscheinlich mit einer besseren NahrungsverfĂŒgbarkeit (Ameisen) in den trockeneren Gebieten zu erklĂ€ren. Es konnten keine signifikanten PrĂ€ferenzen fĂŒr bestimmte Baumarten festgestellt werden, Hybridpappeln und Weiden (Arten der Weichen Au) wurden jedoch scheinbar gemieden, was aber wohl eher auf die weniger gĂŒnstigen Bedingungen in feuchteren LebensrĂ€umen zurĂŒckzufĂŒhren ist. Alle Reviere lagen im Waldrandbereich und beinhalteten Wiesen, Teile des Damms, aber auch landwirtschaftlich genutzte Felder. Bei fĂŒnf Revieren dĂŒrften intensiv genutzte Getreidefelder den einzigen Offenlandanteil darstellen.Population densities and habitat use of the Green Woodpecker Picus viridis were studied in a 1,170 ha study area in the Donau- Auen National Park (Lower Austria). Territory mapping (three visits) between February and April 2008 yielded a minimum of 14 territories, which corresponds to 0.12 territories/10 ha. Based on the incidence of the species in 400 m x 400 m grids, generalized linear models were constructed and the presence of the species was related to dominant tree species, tree age, length of the forest boundary and length of river sidearms. The best predictor for the presence of P. viridis was the length of the forest boundary. Most territories were located in areas protected from flooding by a dyke. Hardwood forest was significantly preferred to softwood forest. This can be explained by a better food supply (ants) in drier areas. No significant preferences for particular tree species were found; however, hybrid poplars and willows were apparently avoided, which can be attributed to less favourable conditions in wetter habitats. All territories were located at the forest’s edges and contained meadows or agricultural fields. In five territories, agricultural fields seemed to constitute the only open land

    Konformationsdynamik lichtschaltbarer Peptide: Molekulardynamiksimulationen und datengetriebene Modellbildung

    Get PDF
    Die Faltung und die Funktionsdynamik von Proteinen basieren auf schnellen Prozessen, die zum Teil im Zeitbereich der Pikosekunden bis Nanosekunden ablaufen. Zur Untersuchung dieser Dynamiken und der mit ihnen verbundenen strukturellen Änderungen werden hĂ€ufig Molekulardynamik (MD)-Simulationen eingesetzt, die auf empirisch parametrisierten molekularmechanischen (MM) Kraftfeldern basieren. Die vorliegenden Arbeit stellt einen Ansatz zur Validierung solcher MM-Kraftfelder vor, der darin besteht, die Relaxationsdynamik kleiner lichtschaltbarer Modellpeptide zu simulieren und die dabei auftretenden Kinetiken mit Ergebnissen der Femtosekunden-Spektroskopie zu vergleichen. Erste Simulationen dieser Art zeigen eine ĂŒberraschende Übereinstimmung zwischen den simulierten und den gemessenen Kinetiken. Weitere Untersuchungen, bei denen einzelne Details des eingesetzten Kraftfelds variiert werden, lassen jedoch erkennen, dass diese Übereinstimmung auf einer zufĂ€lligen Kompensation von Fehlern beruht. Es wird gezeigt, dass die simulierten Kinetiken sehr empfindlich auf Änderungen am MM-Kraftfeld reagieren und damit als Maßstab fĂŒr die GĂŒte seiner Parametrisierung dienen können. Besonders die Modellierung des Lösungsmittels DMSO hat einen entscheidenden Einfluss auf die beobachteten Kinetiken, und zwar nicht nur auf die KĂŒhlzeiten der WĂ€rmedissipation, sondern auch auf die Relaxationsdynamik des Peptidteils der Modellsysteme. Als Vorarbeit fĂŒr die Simulation der Modellpeptide wird ein flexibles und explizites DMSO-Modell aus ersten Prinzipien abgeleitet und dessen thermodynamische und strukturelle Eigenschaften mit denen existierender Modelle verglichen. Ferner wird das eingesetzte Kraftfeld um Parameter fĂŒr den in die Modellpeptide integrierten Farbstoff Azobenzol erweitert und dessen lichtinduzierte Isomerisierungsreaktion modelliert. DarĂŒber hinaus werden neuartige Methoden zur statistischen Auswertung von MD-Trajektorien vorgestellt, die dazu dienen, eine strukturelle Klassifikation der Peptidgeometrien zu ermöglichen. Mit Hilfe dieser Klassifikation kann ein vertiefter Einblick in die wĂ€hrend der Relaxation der Modellpeptide auftretenden KonformationsĂŒbergĂ€nge gewonnen werden. Ferner ermöglichen es die statistischen Auswertungsverfahren, aus Langzeitsimulationen der Modellpeptide deren Gleichgewichtskonformationen zu bestimmen. Der Vergleich dieser Konformationen mit Daten der NMR"=Spektroskopie zeigt schließlich die LeistungsfĂ€higkeit der Methode der MD-Simulation fĂŒr die Vorhersage von Peptidstrukturen

    ModalwertschĂ€tzung in der nichtparametrischen KurvenschĂ€tzung und Blockwise Bootstrap fĂŒr den geschĂ€tzten empirischen Prozess

    Get PDF
    Die folgende Arbeit befasst sich mit Fragestellungen der asymptotischen Statistik. Der erste Teil ist der ModalwertschĂ€tzung im Rahmen der nichtparametrischen KurvenschĂ€tzung in verschiedenen Modellen gewidmet. ZunĂ€chst wird das Problem der ModalwertschĂ€tzung in Dekonvolutionsmodellen betrachtet, wo interessierende Zufallsvariablen nicht direkt beobachtet werden können, sondern mit einer additiven StörgrĂ¶ĂŸe versehen sind. Durch Verwendung von fĂŒr diese Problematik ĂŒblichen KernschĂ€tzern fĂŒr die Kurven selbst werden Konvergenzraten fĂŒr den ModalwertschĂ€tzer erzielt, der durch Maximierung der KurvenschĂ€tzer definiert ist. Die erzielten Konvergenzraten im Modell der DichteschĂ€tzung und der Errors-in-Variables-Regression sind von der Glattheit der mindestens als zweimal stetig differenzierbar angenommen Kurve sowie der Schlechtgestelltheit des Dekonvolutionsproblems abhĂ€ngig und erweisen sich als asymptotisch optimal. Im Modell mit direkten Beobachtungen wird der Fall einer Kurve mit nichtdifferenzierbarer Modalstelle unter Vorliegen stark mischender Beobachtungen beleuchtet. Zur SchĂ€tzung des Modalwertes wird sowohl die Maximierung des KurvenschĂ€tzers ĂŒber dem Kontinuum sowie ĂŒber einem Gitter herangezogen, beide SchĂ€tzer erweisen sich wiederum als asymptotisch optimal. Der zweite Teil dieser Arbeit behandelt den empirischen Prozesses mit geschĂ€tztem Parameter, basierend auf schwach abhĂ€ngigen Beobachtungen. Zahlreiche Teststatistiken beruhen auf dem geschĂ€tzten empirischen Prozess, jedoch ist deren Verteilung von unbekannten Parametern abhĂ€ngig. Daher wird der Originalprozess durch einen Prozess imitiert, welcher auf Pseudo-Beobachtungen beruht, die durch ein geeignetes Resampling-Verfahren generiert wurden. FĂŒr den Prozess der zugrundeliegenden Beobachtungen wird das auf Doukhan und Louhichi basierende AbhĂ€ngigkeitskonzept der -Weak Dependence verwendet, welches allgemeiner ist als das Mixing-Konzept und etwa auch innovationsgesteuerte Prozesse mit diskret verteilten Innovationen umfasst. Es wird zunĂ€chst die Verteilungskonvergenz des geschĂ€tzten empirischen Prozesses gegen einen zentrierten Gaußprozess nachgewiesen. Weiterhin wird fĂŒr den Bootstrap-Prozess die Verteilungskonvergenz in Wahrscheinlichkeit gegen einen zentrierten Gaußprozess gezeigt und daraus fĂŒr geeignete Teststatistiken die schwache Konsistenz des Bootstrap-Verfahrens in der Supremums-Metrik abgeleitet

    Über lernende optische Inspektion am Beispiel der SchĂŒttgutsortierung

    Get PDF
    Die automatische optische Inspektion spielt als zerstörungsfreie Analysemethode in modernen industriellen Fertigungsprozessen eine wichtige Rolle. Typische, kommerziell eingesetzte automatische Inspektionssysteme sind dabei speziell an die jeweilige Aufgabenstellung angepasst und sind sehr aufwendig in der Entwicklung und Inbetriebnahme. Außerdem kann mangelndes Systemwissen der Anwender die Inspektionsleistung im industriellen Einsatz verschlechtern. Maschinelle Lernverfahren bieten eine Alternative: Die Anwender stellen lediglich eine Stichprobe bereit und das System konfiguriert sich von selbst. Ebenso können diese Verfahren versteckte ZusammenhĂ€nge in den Daten aufdecken und so den Entwurf von Inspektionssystemen unterstĂŒtzen. Diese Arbeit beschĂ€ftigt sich mit geeigneten lernenden Verfahren fĂŒr die optische Inspektion. Die als Beispiel dienende SchĂŒttgutsortierung setzt dabei die Rahmenbedingungen: Die Aufnahmebedingungen sind kontrolliert und die Objekterscheinung einfach. Gleichzeitig zeigen die Objekte mitunter nur wenige diskriminative Merkmale. Die Lernstichproben sind klein, unbalanciert und oft unvollstĂ€ndig in Bezug auf die möglichen Defektklassen. ZusĂ€tzlich ist die verfĂŒgbare Rechenzeit stark begrenzt. Unter BerĂŒcksichtigung dieser Besonderheiten werden in der vorliegenden Arbeit lernende Methoden fĂŒr die Mustererkennungs-Schritte Bilderfassung, Merkmalsextraktion und Klassifikation entwickelt. Die Auslegung der Bilderfassung wird durch die automatische Selektion optischer Filter zur Hervorhebung diskriminativer Merkmale unterstĂŒtzt. Anders als vergleichbare Methoden erlaubt die hier beschriebenen Methode die Selektion optische Filter mit beliebig komplizierten Transmissionskurven. Da relevante Merkmale die Grundvoraussetzung fĂŒr eine erfolgreiche Klassifikation sind, nimmt die Merkmalsextraktion einen großen Teil der Arbeit ein. Solche Merkmale können beispielsweise aus einer Menge an Standardmerkmalen identifiziert werden. In der SchĂŒttgutsortierung ist dabei neben der Relevanz aber auch der Rechenaufwand der Merkmalsextraktion von Bedeutung. In dieser Arbeit wird daher ein Merkmalsselektionsverfahren beschrieben, welches diesen Aufwand mit einbezieht. Daneben werden auch Verfahren untersucht, mit denen sich Merkmale mit Hilfe einer Lernstichprobe an ein gegebenes Sortierproblem anpassen lassen. Im Rahmen dieser Arbeit werden dazu zwei Methoden zum Lernen von Formmerkmalen bzw. von Farb- und Texturmerkmalen beschrieben. Mit beiden Verfahren werden einfache, schnell berechenbare, aber wenig diskriminative Merkmale zu hochdiskriminativen Deskriptoren kombiniert. Das Verfahren zum Lernen der Farb- und Texturdeskriptoren erlaubt außerdem die Detektion und RĂŒckweisung unbekannter Objekte. Diese RĂŒckweisungsoption wird im Sinne statistischer Tests fĂŒr Anwender leicht verstĂ€ndlich parametriert. Die Detektion unbekannter Objekte ist auch das Ziel der Einklassenklassifikation. HierfĂŒr wird in dieser Arbeit ein Verfahren beschrieben, das den Klassifikator anhand einer Lernstichprobe mit lediglich Beispielen der Positivklasse festlegt. Die Struktur dieses Klassifikators wird außerdem ausgenutzt, um sicher unbekannte Objekte um GrĂ¶ĂŸenordnungen schneller zurĂŒckzuweisen als dies mit alternativen Verfahren möglich ist. Alle vorgestellten Verfahren werden anhand von synthetischen DatensĂ€tzen und DatensĂ€tzen aus der Lebensmittelinspektion, Mineralsortierung und Inspektion technischer GegenstĂ€nde quantitativ evaluiert. In einer GegenĂŒberstellung mit vergleichbaren Methoden aus der Literatur werden die StĂ€rken und EinschrĂ€nkungen der Methoden herausgestellt. Hierbei zeigten sich alle vorgestellten Verfahren gut fĂŒr die SchĂŒttgutsortierung geeignet. Die vorgestellten Verfahren ergĂ€nzen sich außerdem gegenseitig. Sie können genutzt werden, um ein komplettes Sortiersystem auszulegen oder um einzeln als Komponenten in einem bestehenden System eingesetzt zu werden. Die Methoden sind dabei nicht auf einen bestimmten Anwendungsfall zugeschnitten, sondern fĂŒr eine großen Palette an Produkten einsetzbar. Somit liefert diese Arbeit einen Beitrag zur Anwendung maschineller Lernverfahren in optischen Inspektionssystemen

    Die GlÀttung rÀumlicher DatensÀtze auf administrativen FlÀchen: Eine Fallstudie mit Berliner Wahldaten

    Get PDF
    Composite spatial data on administrative area level are often presented by maps. The aim is to detect regional differences in the concentration of subpopulations, like elderly persons, ethnic minorities, low-educated persons, voters of a political party or persons with a certain disease. Thematic collections of such maps are presented in different atlases. The standard presentation is by Choropleth maps where each administrative unit is represented by a single value. These maps can be criticized under three aspects: the implicit assumption of a uniform distribution within the area, the instability of the resulting map with respect to a change of the reference area and the discontinuities of the maps at the borderlines of the reference areas which inhibit the detection of regional clusters. In order to address these problems we use a density approach in the construction of maps. This approach does not enforce a local uniform distribution. It does not depend on a specific choice of area reference system and there are no discontinuities in the displayed maps. A standard estimation procedure of densities are Kernel density estimates. However, these estimates need the geo-coordinates of the single units which are not at disposal as we have only access to the aggregates of some area system. To overcome this hurdle, we use a statistical simulation concept. This can be interpreted as a Simulated Expectation Maximisation (SEM) algorithm of Celeux et al (1996). We simulate observations from the current density estimates which are consistent with the aggregation information (S-step). Then we apply the Kernel density estimator to the simulated sample which gives the next density estimate (E-Step). This concept has been first applied for grid data with rectangular areas, see Groß et al (2017), for the display of ethnic minorities. In a second application we demonstrated the use of this approach for the so-called “change of support” (Bradley et al 2016) problem. Here Groß et al (2020) used the SEM algorithm to recalculate case numbers between non-hierarchical administrative area systems. Recently Rendtel et al (2021) applied the SEM algorithm to display spatial-temporal clusters of Corona infections in Germany. Here we present three modifications of the basic SEM algorithm: 1) We introduce a boundary correction which removes the underestimation of kernel density estimates at the borders of the population area. 2) We recognize unsettled areas, like lakes, parks and industrial areas, in the computation of the kernel density. 3) We adapt the SEM algorithm for the computation of local percentages which are important especially in voting analysis. We evaluate our approach against several standard maps by means of the local voting register with known addresses. In the empirical part we apply our approach for the display of voting results for the 2016 election of the Berlin parliament. We contrast our results against Choropleth maps and show new possibilities for reporting spatial voting results.RĂ€umliche Daten auf der Ebene administrativer FlĂ€cheneinheiten werden hĂ€ufig ĂŒber Karten dargestellt. Das Ziel ist es dabei regionale Unterschiede fĂŒr interessierenden Bevölkerungsgruppen aufzudecken. Dies betrifft beispielsweise Ă€ltere Personen, ethnische Minderheiten, Personen mit geringer Bildung aber auch WĂ€hler einer politischen Partei sowie Personen, die sich mit einer bestimmten Krankheit infiziert haben. Die Zusammenfassung derartiger Karten wird in Atlanten prĂ€sentiert. Eine Standarddarstellung benutzt Choroplethen, wo jede administrative Einheit durch einen einzigen Wert reprĂ€sentiert wird. Diese Karten können unter drei Aspekten kritisiert werden: Die implizite Annahme einer gleichmĂ€ĂŸigen Verteilung innerhalb der FlĂ€che der Einheit, die InstabilitĂ€t der Darstellung beim Wechsel der administrativen Einheit sowie die SprĂŒnge an den Grenzlinien der Einheiten, die das Aufdecken von regionalen Clustern erschweren. Um diese Probleme zu beseitigen, verwenden wir eine Kartenkonstruktion auf der Basis von Dichten. Dieser Ansatz vermeidet eine zwangslĂ€ufige gleichmĂ€ĂŸige Dichte innerhalb der ReferenzflĂ€chen. Er ist unabhĂ€ngig von der Wahl eines spezifischen Referenzsystems und vermeidet Sprungstellen. Ein Standardverfahren wĂŒrde KerndichteschĂ€tzer verwenden. Allerdings werden hierfĂŒr die Geokoordinaten der einzelnen Einheiten benötigt. Diese stehen aber nicht zur VerfĂŒgung sondern lediglich die Aggregate der jeweiligen FlĂ€cheneinheit. Um diese HĂŒrde zu umgehen, verwenden wir ein statistisches Simulationskonzept. Es kann als Simulierter EM (SEM) Algorithmus von Celeux et al (1996) beschrieben werden. Auf Basis der gegenwĂ€rtigen DichteschĂ€tzung simulieren wir Beobachtungen, die mit der Aggregatsinformation konsistent sind (S-Schritt). Dann wenden wir den KerndichteschĂ€tzer auf die simulierte Stichprobe an, die die nĂ€chste DichteschĂ€tzung liefert (E-Schritt). Dieses Konzept wurde erstmals fĂŒr Gitterdaten auf Rechtecken zur Darstellung von ethnischen Minderheiten angewendet, Groß et al (2017). Eine weitere Anwendung fand dieser Ansatz beim sogenannten „Change of Support“ Problem, (Bradley et al 2016). Hier nutzten Groß et al (2020) den SEM Algorithmus bei der Umrechnung von Fallzahlen zwischen nicht-hierarchischen FlĂ€chensystemen. JĂŒngst haben Rendtel et al (2021) den SEM Algorithmus fĂŒr die Darstellung rĂ€umlich-zeitlicher Konzentrationen von Corona Infektionen in Deutschland verwendet. Hier prĂ€sentieren wir drei Modifikationen des SEM Algorithmus: 1) Wir fĂŒhren eine Randkorrektur ein, die die UnterschĂ€tzung der KerndichteschĂ€tzung an den Grenzen der Population beseitigt. 2) Wir berĂŒcksichtigen unbewohnte Bereiche wie Parks, Seen und Industriegebiete bei der Berechnung der KerndichteschĂ€tzung. 3) Wir passen den SEM Algorithmus fĂŒr die Berechnung lokaler ProzentsĂ€tze an, die insbesondere fĂŒr Wahlanalysen interessant sind. Wir evaluieren unseren Ansatz gegen verschiedene Standardkarten auf Basis eines lokalen WĂ€hlerregisters mit bekannten Adressen. Im empirischen Teil wenden wir unseren Ansatz auf die Darstellung von Wahlergebnissen zur Wahl des Berliner Abgeordnetenhauses 2016 an. Wir vergleichen unsere Ergebnisse mit Choroplethenkarten und zeigen neue Möglichkeiten zur Berichterstattung rĂ€umlicher Wahlergebnisse

    Zeitreihenanalyse auf dĂŒnnen Gittern

    Get PDF
    Zeitreihen sind Mengen von zeitlich geordneten Beobachtungen und fallen bei nahezu allen messbaren Daten an. In dieser Arbeit wird das Vorhersageproblem fĂŒr Zeitreihen untersucht, fĂŒr das viele praktische Anwendungen existieren, darunter die Vorhersage von Börsendaten. FĂŒr die Untersuchung von Zeitreihen können Gitter-basierte AnsĂ€tze verwendet werden. Bei diesen treten jedoch bei hohen Problemdimensionen unpraktikabel große Rechenzeiten auf. In dieser Arbeit wird eine Methode zur Zeitreihenanalyse mit dĂŒnnen Gittern vorgestellt, die es erlaubt, Lösungen fĂŒr Probleme mit höherer DimensionalitĂ€t zu berechnen. Die durchgefĂŒhrten Experimente zeigen dabei, dass fĂŒr einige DatensĂ€tze Vorhersagen mit sehr hoher QualitĂ€t berechnet werden. Gleichzeitig ist die benötigte Rechenzeit fĂŒr viele zeitkritische Anwendungen bereits ausreichend. Um das Anwendungsspektrum der Methode weiter zu vergrĂ¶ĂŸern, werden Optimierungen vorgestellt, mit denen die benötigte Rechenzeit weiter verringert wird
    • 

    corecore