Search CORE

109 research outputs found

Verteiltes Dünngitter Clustering mit großen Datensätzen

Author: Daiß Gregor
Publication venue
Publication date: 01/01/2015
Field of study

Clustering ist ein Verfahren, das in vielen unterschiedlichen Disziplinen eingesetzt wird, um Muster in Daten zu erkennen. Wachsende Datenvolumen erfordern hierzu effiziente Algorithmen, welche auch große Datenmengen in akzeptabler Zeit clustern können. In dieser Arbeit wird zu diesem Zweck ein Clustering Verfahren genutzt, das auf einer Dichteschätzung mit dünnen Gittern und einem k-nearest-neighbors Verfahren basiert. Dieser Algorithmus ist gut geeignet um große, höherdimensionale Datensätze zu clustern und in verrauschten Datensätzen Cluster beliebiger Form zu suchen. Um die heutigen Parallelrechner ausnutzen zu können, wird zur Implementierung OpenCL verwendet. Zur weiteren Aufteilung des Problemes wird das Message Passing Interface genutzt, um das Clustering auf mehrere Rechner verteilen zu können. Mit dieser Implementierung wurde auf einem Rechencluster mit 64 Xeon Phi Coprozessoren ein zehndimensionaler, stark verrauschter Datensatz mit einer Million Datenpunkte in 1434 Sekunden geclustert, wobei sämtliche Cluster erkannt und 88.99% der Datenpunkte dem richtigen Cluster zugeordnet wurden

Multivariate GRBF-Netzwerke und Systeme lokaler Experten

Author: Albrecht Sebastian
Publication venue: Ludwig-Maximilians-Universität München
Publication date: 24/02/2000
Field of study

Solange der Mensch seit Beginn der modernen Wissenschaft versucht, seine kognitiven Fähigkeiten durch anatomische, physiologische und psychologische Untersuchungen zu verstehen, werden diese Forschungen auch von der Entwicklung mathematischer Modelle begleitet. Dies geschieht in der Hoffnung, zu einem tieferen Verständnis der Gehirnfunktionen zu gelangen und in jüngster Zeit mit dem Ziel, neuartige mathematische Verfahren, z.B. zur Mustererkennung und Funktionenapproximation, zu erhalten. Im Rahmen dieses Ansatzes wurde vor etwa 10 Jahren das radiale Basisfunktionen (RBF)-Netzwerk eingeführt, welches bestimmte Strukturen im cerebellaren Cortex modelliert. In früheren Arbeiten wurden tiefgehende Beziehungen zwischen diesem dreischichtigen Netzwerkmodell und der maximum likelihood (ML)-Schätzung von empirischen Datenverteilungen durch Mischungen univariater Normalverteilungen aufgedeckt. Solche Netzwerke eignen sich zur datengetriebenen Funktionenapproximation und zur Lösung von Klassi- fikationsaufgaben. Ausgehend von diesen Beobachtungen wird in der vorliegenden Arbeit das RBF-Modell stufenweise verallgemeinert. Zunächst wird mit dem generalisierten radialen Basisfunktionen (GRBF)-Netzwerk ein Modell vorgestellt, dessen Parameter sich aus ML-Schätzungen von Datenverteilungen durch Mischungen multivariater Normalverteilungen ableiten lassen. Damit wird erstmals ein Verfahren eingeführt, mit dem alle Netzwerkparameter simultan optimiert werden können. Ein deterministisches Abkühlschema sorgt dabei für die sichere Konvergenz des zugehörigen sequentiellen stochastischen Lernprozesses. Anschließend wird ein neues Modell zur Funktionenapproximation, der sogenannte LLMApproximator , vorgestellt, das ebenfalls auf Dichteschätzungen durch Mischungen multivariater Normalverteilungen beruht und sich in Spezialfällen auf das GRBF-Netzwerk reduziert. Im LLM-Verfahren wird die zu approximierende Funktion durch eine Interpolation lokaler linearer Regressionsmodelle dargestellt. In Verallgemeinerung dieser Verfahren wird schließlich ein Konstruktionsprinzip für Systeme lokaler Experten formuliert, das sowohlWettbewerb als auch Kooperation unterschiedlicher Experten zur Lösung einer gemeinsamen Aufgabe organisiert. Die Arbeitsweisen des LLM-Approximators als auch des Systems lokaler Experten werden am Beispiel von Regelungsproblemen illustriert. Zunächst wird die Regelung eines virtuellen Bioreaktors mit Hilfe des LLM-Approximators vorgestellt. Anschließend wird das System lokaler Experten für die Regelung einer realen, komplexen industriellen Anlage verwendet. Dabei handelt es sich um die Anlage zur Rückstandsverbrennung im Werk Burghausen der Wacker-Chemie GmbH

Digitale Hochschulschriften der LMU

Abgaben- und Transfersystem wirkt Polarisierungstendenzen entgegen : Kernel-Density-Schätzungen auf Basis der Einkommens- und Verbrauchsstichproben 1973 bis 1988

Author: Becker Irene
Hauser Richard
Publication venue
Publication date: 20/09/2010
Field of study

Die Untersuchungen auf der Basis der Einkommens- und Verbrauchs stichproben haben ergeben, daß sich hinter der für die "alte" Bundesrepublik festgestellten weitgehenden Stabilität der Verteilung der Nettoäquivalenzeinkommen deutliche Veränderungen auf den vorgelagerten Stufen des Verteilungsprozesses verbergen. Bei den individuellen Erwerbseinkommen sowie bei den individuellen Faktoreinkommen (nur Bezieher) sind zwischen 1973 und 1988 die hier einbezogenen aggregierten Ungleichheitsmaße zwar kaum gestiegen; Kernel Density-Schätzungen zeigen aber einen leichten Polarisierungstrend der bimodalen Verteilung, da die Dichte in den Randbereichen der Verteilung zugenommen hat und das Dichtetal zwischen den beiden Gipfeln sich gesenkt hat. Unter Berücksichtigung des Haushaltszusammenhangs - durch Zusammenfassung individueller Faktoreinkommen auf Haushaltsebene und Gewichtung mit einer Äquivalenzskala - erweisen sich die Verteilungsänderungen als noch gravierender. Die aggregierten Ungleichheitsmaße sind stark gestiegen, und das Verhältnis der beiden Modi der zweigipfligen Verteilung hat sich umgekehrt: lag 1973 der erste Gipfel im Bereich der geringfügigen Faktoräquivalenzeinkommen noch deutlich unter dem zweiten, knapp unterhalb des Durchschnitts gelegenen Gipfel, so war 1988 der erste Gipfel deutlich höher als der zweite. Die relative Häufigkeit marginaler Faktoräquivalenzeinkommen hat im Zeitablauf also eindeutig zugenommen, ebenso wie die im oberen Einkommensbereich. Dennoch kann man von Polarisierung nur in einem weiteren Sinn sprechen, da das Dichtetal zwischen den Modi 1988 höher als 1973 liegt. Es mag beruhigend wirken, daß - zumindest in der Zeit vor der Wiedervereinigung - das Abgaben- und Transfersystem die zunehmende Disparität der Faktoreinkommensverteilung insoweit kompensieren konnte, als die relative Häufigkeit des Niedrigeinkommensbereichs - hier abgegrenzt mit 50% des durchschnittlichen Nettoäquivalenzeinkommens - vergleichsweise mäßig zugenommen hat. Dieser Eindruck ist allerdings im Hinblick auf die eingangs erwähnten Einschränkungen der Datenbasis zu relativieren. Die unzureichende Erfassung des oberen und des unteren Randbereichs der Einkommensverteilung läßt vermuten, daß der tatsächliche Trend zunehmender Ungleichheit und Polarisierung durch unsere Analysen unterschätzt wird

Hochschulschriftenserver - Universität Frankfurt am Main

Population density and habitat use of the Green Woodpecker Picus viridis in Donau-Auen National Park (Lower Austria)

Author: Frank Georg
Riemer Stefanie
Schulze Christian H.
Publication venue
Publication date: 30/11/2012
Field of study

In einer 1170 ha großen Probefläche im Nationalpark Donau- Auen (Niederösterreich) wurden Siedlungsdichten und Habitatpräferenzen des Grünspechts Picus viridis untersucht. Im Rahmen einer rationalisierten Revierkartierung zwischen Februar und April 2008 wurden 14 Reviere ermittelt (Revierdichte: 0,12 Reviere/10 ha). Basierend auf dem Vorkommen der Art in 400 m x 400 m Rastern wurde der Einfluss der vorherrschenden Baumarten, des Bestandesalters, der Länge der Waldrandgrenze sowie der Länge der Seitenarme auf das Vorkommen des Grünspechts mittels verallgemeinerter linearer Modelle analysiert. Der beste Prädiktor für das Vorkommen der Art war der Grenzlinienanteil zwischen Wald und Nicht-Wald-Bereichen. Die meisten Reviere befanden sich in Bereichen des Untersuchungsgebiets, die durch einen Damm vor Hochwasser geschützt sind. Die Harte Au wurde im Vergleich zur Weichen Au signifikant bevorzugt. Dies ist höchstwahrscheinlich mit einer besseren Nahrungsverfügbarkeit (Ameisen) in den trockeneren Gebieten zu erklären. Es konnten keine signifikanten Präferenzen für bestimmte Baumarten festgestellt werden, Hybridpappeln und Weiden (Arten der Weichen Au) wurden jedoch scheinbar gemieden, was aber wohl eher auf die weniger günstigen Bedingungen in feuchteren Lebensräumen zurückzuführen ist. Alle Reviere lagen im Waldrandbereich und beinhalteten Wiesen, Teile des Damms, aber auch landwirtschaftlich genutzte Felder. Bei fünf Revieren dürften intensiv genutzte Getreidefelder den einzigen Offenlandanteil darstellen.Population densities and habitat use of the Green Woodpecker Picus viridis were studied in a 1,170 ha study area in the Donau- Auen National Park (Lower Austria). Territory mapping (three visits) between February and April 2008 yielded a minimum of 14 territories, which corresponds to 0.12 territories/10 ha. Based on the incidence of the species in 400 m x 400 m grids, generalized linear models were constructed and the presence of the species was related to dominant tree species, tree age, length of the forest boundary and length of river sidearms. The best predictor for the presence of P. viridis was the length of the forest boundary. Most territories were located in areas protected from flooding by a dyke. Hardwood forest was significantly preferred to softwood forest. This can be explained by a better food supply (ants) in drier areas. No significant preferences for particular tree species were found; however, hybrid poplars and willows were apparently avoided, which can be attributed to less favourable conditions in wetter habitats. All territories were located at the forest’s edges and contained meadows or agricultural fields. In five territories, agricultural fields seemed to constitute the only open land

Hochschulschriftenserver - Universität Frankfurt am Main

Konformationsdynamik lichtschaltbarer Peptide: Molekulardynamiksimulationen und datengetriebene Modellbildung

Author: Carstens Heiko
Publication venue: Ludwig-Maximilians-Universität München
Publication date: 16/06/2004
Field of study

Die Faltung und die Funktionsdynamik von Proteinen basieren auf schnellen Prozessen, die zum Teil im Zeitbereich der Pikosekunden bis Nanosekunden ablaufen. Zur Untersuchung dieser Dynamiken und der mit ihnen verbundenen strukturellen Änderungen werden häufig Molekulardynamik (MD)-Simulationen eingesetzt, die auf empirisch parametrisierten molekularmechanischen (MM) Kraftfeldern basieren. Die vorliegenden Arbeit stellt einen Ansatz zur Validierung solcher MM-Kraftfelder vor, der darin besteht, die Relaxationsdynamik kleiner lichtschaltbarer Modellpeptide zu simulieren und die dabei auftretenden Kinetiken mit Ergebnissen der Femtosekunden-Spektroskopie zu vergleichen. Erste Simulationen dieser Art zeigen eine überraschende Übereinstimmung zwischen den simulierten und den gemessenen Kinetiken. Weitere Untersuchungen, bei denen einzelne Details des eingesetzten Kraftfelds variiert werden, lassen jedoch erkennen, dass diese Übereinstimmung auf einer zufälligen Kompensation von Fehlern beruht. Es wird gezeigt, dass die simulierten Kinetiken sehr empfindlich auf Änderungen am MM-Kraftfeld reagieren und damit als Maßstab für die Güte seiner Parametrisierung dienen können. Besonders die Modellierung des Lösungsmittels DMSO hat einen entscheidenden Einfluss auf die beobachteten Kinetiken, und zwar nicht nur auf die Kühlzeiten der Wärmedissipation, sondern auch auf die Relaxationsdynamik des Peptidteils der Modellsysteme. Als Vorarbeit für die Simulation der Modellpeptide wird ein flexibles und explizites DMSO-Modell aus ersten Prinzipien abgeleitet und dessen thermodynamische und strukturelle Eigenschaften mit denen existierender Modelle verglichen. Ferner wird das eingesetzte Kraftfeld um Parameter für den in die Modellpeptide integrierten Farbstoff Azobenzol erweitert und dessen lichtinduzierte Isomerisierungsreaktion modelliert. Darüber hinaus werden neuartige Methoden zur statistischen Auswertung von MD-Trajektorien vorgestellt, die dazu dienen, eine strukturelle Klassifikation der Peptidgeometrien zu ermöglichen. Mit Hilfe dieser Klassifikation kann ein vertiefter Einblick in die während der Relaxation der Modellpeptide auftretenden Konformationsübergänge gewonnen werden. Ferner ermöglichen es die statistischen Auswertungsverfahren, aus Langzeitsimulationen der Modellpeptide deren Gleichgewichtskonformationen zu bestimmen. Der Vergleich dieser Konformationen mit Daten der NMR"=Spektroskopie zeigt schließlich die Leistungsfähigkeit der Methode der MD-Simulation für die Vorhersage von Peptidstrukturen

Digitale Hochschulschriften der LMU

Modalwertschätzung in der nichtparametrischen Kurvenschätzung und Blockwise Bootstrap für den geschätzten empirischen Prozess

Author: Wieczorek Barbara
Publication venue
Publication date: 28/05/2013
Field of study

Die folgende Arbeit befasst sich mit Fragestellungen der asymptotischen Statistik. Der erste Teil ist der Modalwertschätzung im Rahmen der nichtparametrischen Kurvenschätzung in verschiedenen Modellen gewidmet. Zunächst wird das Problem der Modalwertschätzung in Dekonvolutionsmodellen betrachtet, wo interessierende Zufallsvariablen nicht direkt beobachtet werden können, sondern mit einer additiven Störgröße versehen sind. Durch Verwendung von für diese Problematik üblichen Kernschätzern für die Kurven selbst werden Konvergenzraten für den Modalwertschätzer erzielt, der durch Maximierung der Kurvenschätzer definiert ist. Die erzielten Konvergenzraten im Modell der Dichteschätzung und der Errors-in-Variables-Regression sind von der Glattheit der mindestens als zweimal stetig differenzierbar angenommen Kurve sowie der Schlechtgestelltheit des Dekonvolutionsproblems abhängig und erweisen sich als asymptotisch optimal. Im Modell mit direkten Beobachtungen wird der Fall einer Kurve mit nichtdifferenzierbarer Modalstelle unter Vorliegen stark mischender Beobachtungen beleuchtet. Zur Schätzung des Modalwertes wird sowohl die Maximierung des Kurvenschätzers über dem Kontinuum sowie über einem Gitter herangezogen, beide Schätzer erweisen sich wiederum als asymptotisch optimal. Der zweite Teil dieser Arbeit behandelt den empirischen Prozesses mit geschätztem Parameter, basierend auf schwach abhängigen Beobachtungen. Zahlreiche Teststatistiken beruhen auf dem geschätzten empirischen Prozess, jedoch ist deren Verteilung von unbekannten Parametern abhängig. Daher wird der Originalprozess durch einen Prozess imitiert, welcher auf Pseudo-Beobachtungen beruht, die durch ein geeignetes Resampling-Verfahren generiert wurden. Für den Prozess der zugrundeliegenden Beobachtungen wird das auf Doukhan und Louhichi basierende Abhängigkeitskonzept der -Weak Dependence verwendet, welches allgemeiner ist als das Mixing-Konzept und etwa auch innovationsgesteuerte Prozesse mit diskret verteilten Innovationen umfasst. Es wird zunächst die Verteilungskonvergenz des geschätzten empirischen Prozesses gegen einen zentrierten Gaußprozess nachgewiesen. Weiterhin wird für den Bootstrap-Prozess die Verteilungskonvergenz in Wahrscheinlichkeit gegen einen zentrierten Gaußprozess gezeigt und daraus für geeignete Teststatistiken die schwache Konsistenz des Bootstrap-Verfahrens in der Supremums-Metrik abgeleitet

Digitale Bibliothek Thüringen

Über lernende optische Inspektion am Beispiel der Schüttgutsortierung

Author: Richter Matthias
Publication venue: KIT-Bibliothek, Karlsruhe
Publication date: 01/01/2018
Field of study

Die automatische optische Inspektion spielt als zerstörungsfreie Analysemethode in modernen industriellen Fertigungsprozessen eine wichtige Rolle. Typische, kommerziell eingesetzte automatische Inspektionssysteme sind dabei speziell an die jeweilige Aufgabenstellung angepasst und sind sehr aufwendig in der Entwicklung und Inbetriebnahme. Außerdem kann mangelndes Systemwissen der Anwender die Inspektionsleistung im industriellen Einsatz verschlechtern. Maschinelle Lernverfahren bieten eine Alternative: Die Anwender stellen lediglich eine Stichprobe bereit und das System konfiguriert sich von selbst. Ebenso können diese Verfahren versteckte Zusammenhänge in den Daten aufdecken und so den Entwurf von Inspektionssystemen unterstützen. Diese Arbeit beschäftigt sich mit geeigneten lernenden Verfahren für die optische Inspektion. Die als Beispiel dienende Schüttgutsortierung setzt dabei die Rahmenbedingungen: Die Aufnahmebedingungen sind kontrolliert und die Objekterscheinung einfach. Gleichzeitig zeigen die Objekte mitunter nur wenige diskriminative Merkmale. Die Lernstichproben sind klein, unbalanciert und oft unvollständig in Bezug auf die möglichen Defektklassen. Zusätzlich ist die verfügbare Rechenzeit stark begrenzt. Unter Berücksichtigung dieser Besonderheiten werden in der vorliegenden Arbeit lernende Methoden für die Mustererkennungs-Schritte Bilderfassung, Merkmalsextraktion und Klassifikation entwickelt. Die Auslegung der Bilderfassung wird durch die automatische Selektion optischer Filter zur Hervorhebung diskriminativer Merkmale unterstützt. Anders als vergleichbare Methoden erlaubt die hier beschriebenen Methode die Selektion optische Filter mit beliebig komplizierten Transmissionskurven. Da relevante Merkmale die Grundvoraussetzung für eine erfolgreiche Klassifikation sind, nimmt die Merkmalsextraktion einen großen Teil der Arbeit ein. Solche Merkmale können beispielsweise aus einer Menge an Standardmerkmalen identifiziert werden. In der Schüttgutsortierung ist dabei neben der Relevanz aber auch der Rechenaufwand der Merkmalsextraktion von Bedeutung. In dieser Arbeit wird daher ein Merkmalsselektionsverfahren beschrieben, welches diesen Aufwand mit einbezieht. Daneben werden auch Verfahren untersucht, mit denen sich Merkmale mit Hilfe einer Lernstichprobe an ein gegebenes Sortierproblem anpassen lassen. Im Rahmen dieser Arbeit werden dazu zwei Methoden zum Lernen von Formmerkmalen bzw. von Farb- und Texturmerkmalen beschrieben. Mit beiden Verfahren werden einfache, schnell berechenbare, aber wenig diskriminative Merkmale zu hochdiskriminativen Deskriptoren kombiniert. Das Verfahren zum Lernen der Farb- und Texturdeskriptoren erlaubt außerdem die Detektion und Rückweisung unbekannter Objekte. Diese Rückweisungsoption wird im Sinne statistischer Tests für Anwender leicht verständlich parametriert. Die Detektion unbekannter Objekte ist auch das Ziel der Einklassenklassifikation. Hierfür wird in dieser Arbeit ein Verfahren beschrieben, das den Klassifikator anhand einer Lernstichprobe mit lediglich Beispielen der Positivklasse festlegt. Die Struktur dieses Klassifikators wird außerdem ausgenutzt, um sicher unbekannte Objekte um Größenordnungen schneller zurückzuweisen als dies mit alternativen Verfahren möglich ist. Alle vorgestellten Verfahren werden anhand von synthetischen Datensätzen und Datensätzen aus der Lebensmittelinspektion, Mineralsortierung und Inspektion technischer Gegenstände quantitativ evaluiert. In einer Gegenüberstellung mit vergleichbaren Methoden aus der Literatur werden die Stärken und Einschränkungen der Methoden herausgestellt. Hierbei zeigten sich alle vorgestellten Verfahren gut für die Schüttgutsortierung geeignet. Die vorgestellten Verfahren ergänzen sich außerdem gegenseitig. Sie können genutzt werden, um ein komplettes Sortiersystem auszulegen oder um einzeln als Komponenten in einem bestehenden System eingesetzt zu werden. Die Methoden sind dabei nicht auf einen bestimmten Anwendungsfall zugeschnitten, sondern für eine großen Palette an Produkten einsetzbar. Somit liefert diese Arbeit einen Beitrag zur Anwendung maschineller Lernverfahren in optischen Inspektionssystemen

KITopen

Die Glättung räumlicher Datensätze auf administrativen Flächen: Eine Fallstudie mit Berliner Wahldaten

Author: Erfurth Kerstin
Groß Marcus
Rendtel Ulrich
Schmid Timo
Publication venue
Publication date: 01/01/2022
Field of study

Composite spatial data on administrative area level are often presented by maps. The aim is to detect regional differences in the concentration of subpopulations, like elderly persons, ethnic minorities, low-educated persons, voters of a political party or persons with a certain disease. Thematic collections of such maps are presented in different atlases. The standard presentation is by Choropleth maps where each administrative unit is represented by a single value. These maps can be criticized under three aspects: the implicit assumption of a uniform distribution within the area, the instability of the resulting map with respect to a change of the reference area and the discontinuities of the maps at the borderlines of the reference areas which inhibit the detection of regional clusters. In order to address these problems we use a density approach in the construction of maps. This approach does not enforce a local uniform distribution. It does not depend on a specific choice of area reference system and there are no discontinuities in the displayed maps. A standard estimation procedure of densities are Kernel density estimates. However, these estimates need the geo-coordinates of the single units which are not at disposal as we have only access to the aggregates of some area system. To overcome this hurdle, we use a statistical simulation concept. This can be interpreted as a Simulated Expectation Maximisation (SEM) algorithm of Celeux et al (1996). We simulate observations from the current density estimates which are consistent with the aggregation information (S-step). Then we apply the Kernel density estimator to the simulated sample which gives the next density estimate (E-Step). This concept has been first applied for grid data with rectangular areas, see Groß et al (2017), for the display of ethnic minorities. In a second application we demonstrated the use of this approach for the so-called “change of support” (Bradley et al 2016) problem. Here Groß et al (2020) used the SEM algorithm to recalculate case numbers between non-hierarchical administrative area systems. Recently Rendtel et al (2021) applied the SEM algorithm to display spatial-temporal clusters of Corona infections in Germany. Here we present three modifications of the basic SEM algorithm: 1) We introduce a boundary correction which removes the underestimation of kernel density estimates at the borders of the population area. 2) We recognize unsettled areas, like lakes, parks and industrial areas, in the computation of the kernel density. 3) We adapt the SEM algorithm for the computation of local percentages which are important especially in voting analysis. We evaluate our approach against several standard maps by means of the local voting register with known addresses. In the empirical part we apply our approach for the display of voting results for the 2016 election of the Berlin parliament. We contrast our results against Choropleth maps and show new possibilities for reporting spatial voting results.Räumliche Daten auf der Ebene administrativer Flächeneinheiten werden häufig über Karten dargestellt. Das Ziel ist es dabei regionale Unterschiede für interessierenden Bevölkerungsgruppen aufzudecken. Dies betrifft beispielsweise ältere Personen, ethnische Minderheiten, Personen mit geringer Bildung aber auch Wähler einer politischen Partei sowie Personen, die sich mit einer bestimmten Krankheit infiziert haben. Die Zusammenfassung derartiger Karten wird in Atlanten präsentiert. Eine Standarddarstellung benutzt Choroplethen, wo jede administrative Einheit durch einen einzigen Wert repräsentiert wird. Diese Karten können unter drei Aspekten kritisiert werden: Die implizite Annahme einer gleichmäßigen Verteilung innerhalb der Fläche der Einheit, die Instabilität der Darstellung beim Wechsel der administrativen Einheit sowie die Sprünge an den Grenzlinien der Einheiten, die das Aufdecken von regionalen Clustern erschweren. Um diese Probleme zu beseitigen, verwenden wir eine Kartenkonstruktion auf der Basis von Dichten. Dieser Ansatz vermeidet eine zwangsläufige gleichmäßige Dichte innerhalb der Referenzflächen. Er ist unabhängig von der Wahl eines spezifischen Referenzsystems und vermeidet Sprungstellen. Ein Standardverfahren würde Kerndichteschätzer verwenden. Allerdings werden hierfür die Geokoordinaten der einzelnen Einheiten benötigt. Diese stehen aber nicht zur Verfügung sondern lediglich die Aggregate der jeweiligen Flächeneinheit. Um diese Hürde zu umgehen, verwenden wir ein statistisches Simulationskonzept. Es kann als Simulierter EM (SEM) Algorithmus von Celeux et al (1996) beschrieben werden. Auf Basis der gegenwärtigen Dichteschätzung simulieren wir Beobachtungen, die mit der Aggregatsinformation konsistent sind (S-Schritt). Dann wenden wir den Kerndichteschätzer auf die simulierte Stichprobe an, die die nächste Dichteschätzung liefert (E-Schritt). Dieses Konzept wurde erstmals für Gitterdaten auf Rechtecken zur Darstellung von ethnischen Minderheiten angewendet, Groß et al (2017). Eine weitere Anwendung fand dieser Ansatz beim sogenannten „Change of Support“ Problem, (Bradley et al 2016). Hier nutzten Groß et al (2020) den SEM Algorithmus bei der Umrechnung von Fallzahlen zwischen nicht-hierarchischen Flächensystemen. Jüngst haben Rendtel et al (2021) den SEM Algorithmus für die Darstellung räumlich-zeitlicher Konzentrationen von Corona Infektionen in Deutschland verwendet. Hier präsentieren wir drei Modifikationen des SEM Algorithmus: 1) Wir führen eine Randkorrektur ein, die die Unterschätzung der Kerndichteschätzung an den Grenzen der Population beseitigt. 2) Wir berücksichtigen unbewohnte Bereiche wie Parks, Seen und Industriegebiete bei der Berechnung der Kerndichteschätzung. 3) Wir passen den SEM Algorithmus für die Berechnung lokaler Prozentsätze an, die insbesondere für Wahlanalysen interessant sind. Wir evaluieren unseren Ansatz gegen verschiedene Standardkarten auf Basis eines lokalen Wählerregisters mit bekannten Adressen. Im empirischen Teil wenden wir unseren Ansatz auf die Darstellung von Wahlergebnissen zur Wahl des Berliner Abgeordnetenhauses 2016 an. Wir vergleichen unsere Ergebnisse mit Choroplethenkarten und zeigen neue Möglichkeiten zur Berichterstattung räumlicher Wahlergebnisse

Institutional Repository of the Freie Universität Berlin

Zeitreihenanalyse auf dünnen Gittern

Author: Pfander David
Publication venue
Publication date: 01/01/2013
Field of study

Zeitreihen sind Mengen von zeitlich geordneten Beobachtungen und fallen bei nahezu allen messbaren Daten an. In dieser Arbeit wird das Vorhersageproblem für Zeitreihen untersucht, für das viele praktische Anwendungen existieren, darunter die Vorhersage von Börsendaten. Für die Untersuchung von Zeitreihen können Gitter-basierte Ansätze verwendet werden. Bei diesen treten jedoch bei hohen Problemdimensionen unpraktikabel große Rechenzeiten auf. In dieser Arbeit wird eine Methode zur Zeitreihenanalyse mit dünnen Gittern vorgestellt, die es erlaubt, Lösungen für Probleme mit höherer Dimensionalität zu berechnen. Die durchgeführten Experimente zeigen dabei, dass für einige Datensätze Vorhersagen mit sehr hoher Qualität berechnet werden. Gleichzeitig ist die benötigte Rechenzeit für viele zeitkritische Anwendungen bereits ausreichend. Um das Anwendungsspektrum der Methode weiter zu vergrößern, werden Optimierungen vorgestellt, mit denen die benötigte Rechenzeit weiter verringert wird

Selektivitätsschätzung von Bereichsanfragen auf metrischen Attributen mit nichtparametrischen Verfahren

Author: Korus Dieter
Publication venue: Philipps-Universität Marburg
Publication date: 01/01/1999
Field of study

Publikations- und Dokumentenserver der Universitätsbibliothek Marburg