Search CORE

6 research outputs found

Hot-Deck-Verfahren zur Imputation fehlender Daten: Auswirkungen des Donor-Limits

Author: Joenssen Dieter William Hermann
Publication venue
Publication date: 03/06/2015
Field of study

Imputation is a method for compensating missing data. Contrary to elimination procedures, which systematically remove data prior to further analysis, and parameter estimation procedures, which directly estimate statistics of interest from the incomplete data matrix, imputation methods replace missing values with estimates. This results in a completed data set, upon which normal statistical procedures may again be used. Hot deck methods are special imputation procedures, which rely on duplicating existing values. In this form of imputation, objects with available data (donors) are matched to those objects missing data (recipients). After matching, values existent in the selected donor are copied to the recipient. While the basic hot deck algorithm allows one donor to be matched to multiple recipients, different variants limit the number of times any one donor may be chosen for duplication. This is called a donor limit, and results in a number of desirable properties. Amongst others, a donor limit reduces the risk that any one donor is used too often or even exclusively for all recipients. This dissertation investigates if the theoretical advantages that a donor limit promises hold empirically, and if these advantages outweigh possible disadvantages. To this end, fundamentals in missing data theory discussed and developed. Following this, the history of the hot deck methodology is portrayed, and a general definition of hot deck imputation is derived from literature. Subsequently, existing hot deck variants are systemized and described using the four basic characteristics that they all share. Finally, the dissertation closes with empirical studies in the advantages of the donor limit. Results from these comprehensive simulation studies suggest that the donor limit is essential in improving imputation quality in many situations. In addition to this, borderline cases and tendencies, under which a donor limit will result in reductions in imputation quality, could be identified.Imputationsverfahren stellen eine von mehreren Möglichkeiten dar, dem Problem fehlender Daten bei empirischen Untersuchungen zu begegnen. Im Gegensatz zu den Eliminierungsverfahren, die Objekte und/oder Merkmale mit fehlenden Werten aus der weiteren Analyse ausschließen, und den Parameterschätzverfahren, die auf der Basis von Verteilungsannahmen die gewünschten Parameter aus einer unvollständigen Datenmatrix direkt schätzen, werden bei den Imputationsverfahren die fehlenden durch geeignete Werte ersetzt. Dadurch resultiert letztendlich eine vollständige Datenmatrix, bei der herkömmliche statistische Verfahren zur Datenauswertung herangezogen werden können. Hot-Deck-Verfahren sind spezielle Imputationsverfahren, die auf der Duplizierung vorhandener Werte basieren. Das Objekt, das dabei die vorhandenen Daten zur Imputation liefert, wird als Spender bezeichnet, und das Objekt, bei dem die Werte fehlen, wird als Empfänger bezeichnet. Da beim grundlegenden Algorithmus die Möglichkeit besteht, dass ein Spender mehreren Empfängern zugeordnet wird, beschränken einige Hot-Deck-Varianten, wie häufig ein Spender zur Imputation ausgewählt werden kann. Dieses sogenannte Donor-Limit führt theoretisch zu einer Reihe an wünschenswerten Algorithmuseigenschaften. Unter anderem wird das Risiko, dass ein Spender zu häufig verwendet oder gar allen Empfängern zugeordnet wird, beschränkt. Die vorliegende Dissertation untersucht, ob die theoretischen Vorteile des Donor-Limits empirisch haltbar sind, und im Spannungsfeld mit den möglichen Nachteilen überwiegen. Hierzu werden zunächst Grundlagen der Missing-Data-Theorie dargestellt und erarbeitet. Danach erfolgt eine Darstellung der historischen Entwicklung der Hot-Deck-Verfahren, auf deren Basis eine allgemeingültige Definition aufgestellt wird. Im Anschluss werden existente Hot-Deck-Varianten anhand der vier identifizierten Eigenschaften systematisiert und dargestellt. Abgeschlossen wird die Dissertation mit empirischen Untersuchungen zu der Vorteilhaftigkeit des Donor-Limits. Diese umfassenden Simulationsstudien weisen darauf hin, dass ein Donor-Limit zur Verbesserung der Impuationsqualität in vielen Situationen zwingend erforderlich ist. Ferner können Grenzfälle und Tendenzen identifiziert werden, unter denen ein Donor-Limit zu schlechteren Imputationsergebnissen führt

Digitale Bibliothek Thüringen

Decision Trees for the Imputation of Categorical Data

Author: Bankhofer Udo
Joenssen Dieter William
Rockel Tobias
Publication venue: KIT Scientific Publishing, Karlsruhe
Publication date: 11/04/2017
Field of study

Resolving the problem of missing data via imputation can theoretically be done by any prediction model. In the field of machine learning, a well known type of prediction model is a decision tree. However, the literature on how suitable a decision tree is for imputation is still scant to date. Therefore, the aim of this paper is to analyze the imputation quality of decision trees. Furthermore, we present a way to conduct a stochastic imputation using decision trees. We ran a simulation study to compare the deterministic and stochastic imputation approach using decision trees among each other and with other imputation methods. For this study, real datasets and various missing data settings are used. In addition, three different quality criteria are considered. The results of the study indicate that the choice of imputation method should be based on the intended analysis

KITopen

KI Basierte Geschäftsmodelle

Author: Joenssen Dieter William
Müllerleile Thomas
Publication venue
Publication date: 01/01/2020
Field of study

Immer mehr Unternehmen, vom Start-Up bis zum etablierten Großkonzern, beschäftigen sich mit Künstlicher Intelligenz (KI). Diese Unternehmen wollen sich hierdurch jenen Anteil der digitalen Dividende sichern, die eine Anreicherung ihres Geschäftsmodells mit KI verspricht. Um den Einfluss des Themas auf ein beliebiges Unternehmen besser einschätzen und Potentiale erschließen zu können, ist eine Systematisierung zwingend erforderlich und die Kenntnis erfolgreicher Projekte hilfreich. Hierzu werden in dem vorliegenden Beitrag die Begriffe "Geschäftsmodell" und "KI" zunächst erläutert und eine Definition von KI basierten Geschäftsmodellen vorgeschlagen. Basierend hierauf werden 10 Use-Cases von Unternehmen unterschiedlicher Größe vorgestellt und unter Hinzunahme einer Strukturierungsmethode für Geschäftsmodelle systematisiert.Whether startup or established conglomerate, more and more companies are utilizing artificial intelligenge (AI). These companies are looking to secure their part of the digital divdidend, by integrating AI into their bunsiess model. For judging how and how strong any company is impacted by this paradigm shift, a systematization is essential and the knowledge of successful projects is helpful. To this end, we discuss the terms "business model" and "AI" and systhesize these definitions to offer an understanding of "AI based business models". After this, we sescribe 10 real use cases, implemented by companies of varying sizes

OPUS - Hochschulschriftenserver der Hochschule Aalen

Optimal Stopping: Erwartungsoptimierung beim Full-Information-Game

Author: Joenssen Dieter William
Reppin James Oliver
Publication venue
Publication date: 25/01/2022
Field of study

Das Sekretärinnenproblem oder Dowry-Problem ist ein prominenter Vertreter der Optimal-Stopping Probleme. Hierzu existieren Algorithmen, die unter voller Information für eine bekannte Verteilung der betrachteten Zufallszahlen, ertragsmaximale Lösungen versprechen. Dieser Aufsatz beschäftigt sich mit der Anpassung der Verfahren auf Minimierungsprobleme. Nach der Herleitung der Lösung, wird diese exemplarisch auf vier Verteilungen übertragen. Danach werden die resultierenden Algorithmen numerisch und analytisch betrachtet, um Rückschlüsse über wesentliche Eigenschaften ziehen zu können.The secretary or dowry problem is a well known optimal stopping problem. Existing solutions are based on full information and require a maximization. This paper considers adapting existing algorithms to a minimization problem. After this adaptation, the solution is shown explicitly for four well know distributions. Following, properties of these algorithms are elicited by numeric and analytic methods

OPUS - Hochschulschriftenserver der Hochschule Aalen

An interpretable boosting model to predict side effects of analgesics for osteoarthritis

Author: A Carr
AD Woolf
AG Sorensen
Chengqian Lu
CJC Burges
Dieter William Joenssen
DJ Hand
Fang-Xiang Wu
FK Chan
G Peat
G Valdes
H Luo
H Luo
H Oka
HJ Kerkhof
HJ Park
Hong-Dong Li
JH Friedman
Jianxin Wang
JW Bijlsma
KL Urish
L Shamir
L Shamir
Liangliang Liu
M Bally
M Goadrich
Min Li
N Bhala
RB Landewe
S Paul
T Fawcett
TE Towheed
V Raghavan
W Zhang
WL Henrich
Yi Pan
Ying Yu
Zhihui Fei
Publication venue: 'Springer Science and Business Media LLC'
Publication date
Field of study

Crossref