6 research outputs found

    Hot-Deck-Verfahren zur Imputation fehlender Daten: Auswirkungen des Donor-Limits

    Get PDF
    Imputation is a method for compensating missing data. Contrary to elimination procedures, which systematically remove data prior to further analysis, and parameter estimation procedures, which directly estimate statistics of interest from the incomplete data matrix, imputation methods replace missing values with estimates. This results in a completed data set, upon which normal statistical procedures may again be used. Hot deck methods are special imputation procedures, which rely on duplicating existing values. In this form of imputation, objects with available data (donors) are matched to those objects missing data (recipients). After matching, values existent in the selected donor are copied to the recipient. While the basic hot deck algorithm allows one donor to be matched to multiple recipients, different variants limit the number of times any one donor may be chosen for duplication. This is called a donor limit, and results in a number of desirable properties. Amongst others, a donor limit reduces the risk that any one donor is used too often or even exclusively for all recipients. This dissertation investigates if the theoretical advantages that a donor limit promises hold empirically, and if these advantages outweigh possible disadvantages. To this end, fundamentals in missing data theory discussed and developed. Following this, the history of the hot deck methodology is portrayed, and a general definition of hot deck imputation is derived from literature. Subsequently, existing hot deck variants are systemized and described using the four basic characteristics that they all share. Finally, the dissertation closes with empirical studies in the advantages of the donor limit. Results from these comprehensive simulation studies suggest that the donor limit is essential in improving imputation quality in many situations. In addition to this, borderline cases and tendencies, under which a donor limit will result in reductions in imputation quality, could be identified.Imputationsverfahren stellen eine von mehreren Möglichkeiten dar, dem Problem fehlender Daten bei empirischen Untersuchungen zu begegnen. Im Gegensatz zu den Eliminierungsverfahren, die Objekte und/oder Merkmale mit fehlenden Werten aus der weiteren Analyse ausschließen, und den Parameterschätzverfahren, die auf der Basis von Verteilungsannahmen die gewünschten Parameter aus einer unvollständigen Datenmatrix direkt schätzen, werden bei den Imputationsverfahren die fehlenden durch geeignete Werte ersetzt. Dadurch resultiert letztendlich eine vollständige Datenmatrix, bei der herkömmliche statistische Verfahren zur Datenauswertung herangezogen werden können. Hot-Deck-Verfahren sind spezielle Imputationsverfahren, die auf der Duplizierung vorhandener Werte basieren. Das Objekt, das dabei die vorhandenen Daten zur Imputation liefert, wird als Spender bezeichnet, und das Objekt, bei dem die Werte fehlen, wird als Empfänger bezeichnet. Da beim grundlegenden Algorithmus die Möglichkeit besteht, dass ein Spender mehreren Empfängern zugeordnet wird, beschränken einige Hot-Deck-Varianten, wie häufig ein Spender zur Imputation ausgewählt werden kann. Dieses sogenannte Donor-Limit führt theoretisch zu einer Reihe an wünschenswerten Algorithmuseigenschaften. Unter anderem wird das Risiko, dass ein Spender zu häufig verwendet oder gar allen Empfängern zugeordnet wird, beschränkt. Die vorliegende Dissertation untersucht, ob die theoretischen Vorteile des Donor-Limits empirisch haltbar sind, und im Spannungsfeld mit den möglichen Nachteilen überwiegen. Hierzu werden zunächst Grundlagen der Missing-Data-Theorie dargestellt und erarbeitet. Danach erfolgt eine Darstellung der historischen Entwicklung der Hot-Deck-Verfahren, auf deren Basis eine allgemeingültige Definition aufgestellt wird. Im Anschluss werden existente Hot-Deck-Varianten anhand der vier identifizierten Eigenschaften systematisiert und dargestellt. Abgeschlossen wird die Dissertation mit empirischen Untersuchungen zu der Vorteilhaftigkeit des Donor-Limits. Diese umfassenden Simulationsstudien weisen darauf hin, dass ein Donor-Limit zur Verbesserung der Impuationsqualität in vielen Situationen zwingend erforderlich ist. Ferner können Grenzfälle und Tendenzen identifiziert werden, unter denen ein Donor-Limit zu schlechteren Imputationsergebnissen führt

    Decision Trees for the Imputation of Categorical Data

    Get PDF
    Resolving the problem of missing data via imputation can theoretically be done by any prediction model. In the field of machine learning, a well known type of prediction model is a decision tree. However, the literature on how suitable a decision tree is for imputation is still scant to date. Therefore, the aim of this paper is to analyze the imputation quality of decision trees. Furthermore, we present a way to conduct a stochastic imputation using decision trees. We ran a simulation study to compare the deterministic and stochastic imputation approach using decision trees among each other and with other imputation methods. For this study, real datasets and various missing data settings are used. In addition, three different quality criteria are considered. The results of the study indicate that the choice of imputation method should be based on the intended analysis

    KI Basierte Geschäftsmodelle

    Get PDF
    Immer mehr Unternehmen, vom Start-Up bis zum etablierten Großkonzern, beschäftigen sich mit Künstlicher Intelligenz (KI). Diese Unternehmen wollen sich hierdurch jenen Anteil der digitalen Dividende sichern, die eine Anreicherung ihres Geschäftsmodells mit KI verspricht. Um den Einfluss des Themas auf ein beliebiges Unternehmen besser einschätzen und Potentiale erschließen zu können, ist eine Systematisierung zwingend erforderlich und die Kenntnis erfolgreicher Projekte hilfreich. Hierzu werden in dem vorliegenden Beitrag die Begriffe "Geschäftsmodell" und "KI" zunächst erläutert und eine Definition von KI basierten Geschäftsmodellen vorgeschlagen. Basierend hierauf werden 10 Use-Cases von Unternehmen unterschiedlicher Größe vorgestellt und unter Hinzunahme einer Strukturierungsmethode für Geschäftsmodelle systematisiert.Whether startup or established conglomerate, more and more companies are utilizing artificial intelligenge (AI). These companies are looking to secure their part of the digital divdidend, by integrating AI into their bunsiess model. For judging how and how strong any company is impacted by this paradigm shift, a systematization is essential and the knowledge of successful projects is helpful. To this end, we discuss the terms "business model" and "AI" and systhesize these definitions to offer an understanding of "AI based business models". After this, we sescribe 10 real use cases, implemented by companies of varying sizes

    Optimal Stopping: Erwartungsoptimierung beim Full-Information-Game

    No full text
    Das Sekretärinnenproblem oder Dowry-Problem ist ein prominenter Vertreter der Optimal-Stopping Probleme. Hierzu existieren Algorithmen, die unter voller Information für eine bekannte Verteilung der betrachteten Zufallszahlen, ertragsmaximale Lösungen versprechen. Dieser Aufsatz beschäftigt sich mit der Anpassung der Verfahren auf Minimierungsprobleme. Nach der Herleitung der Lösung, wird diese exemplarisch auf vier Verteilungen übertragen. Danach werden die resultierenden Algorithmen numerisch und analytisch betrachtet, um Rückschlüsse über wesentliche Eigenschaften ziehen zu können.The secretary or dowry problem is a well known optimal stopping problem. Existing solutions are based on full information and require a maximization. This paper considers adapting existing algorithms to a minimization problem. After this adaptation, the solution is shown explicitly for four well know distributions. Following, properties of these algorithms are elicited by numeric and analytic methods
    corecore