2 research outputs found

    Nutzen und Benutzen von Text Mining fĂĽr die Medienanalyse

    Get PDF
    Einerseits werden bestehende Ergebnisse aus so unterschiedlichen Richtungen wie etwa der empirischen Medienforschung und dem Text Mining zusammengetragen. Es geht dabei um Inhaltsanalyse, von Hand, mit Unterstützung durch Computer, oder völlig automatisch, speziell auch im Hinblick auf die Faktoren wie Zeit, Entwicklung und Veränderung. Die Verdichtung und Zusammenstellung liefert nicht nur einen Überblick aus ungewohnter Perspektive, in diesem Prozess geschieht auch die Synthese von etwas Neuem. Die Grundthese bleibt dabei immer eine einschließende: So wenig es möglich scheint, dass in Zukunft der Computer Analysen völlig ohne menschliche Interpretation betreiben kann und wird, so wenig werden menschliche Interpretatoren noch ohne die jeweils bestmögliche Unterstützung des Rechners in der Lage sein, komplexe Themen zeitnah umfassend und ohne allzu große subjektive Einflüsse zu bearbeiten – und so wenig werden es sich substantiell wertvolle Analysen noch leisten können, völlig auf derartige Hilfen und Instrumente der Qualitätssicherung zu verzichten. Daraus ergeben sich unmittelbar Anforderungen: Es ist zu klären, wo die Stärken und Schwächen von menschlichen Analysten und von Computerverfahren liegen. Darauf aufbauend gilt es eine optimale Synthese aus beider Seiten Stärken und unter Minimierung der jeweiligen Schwächen zu erzielen. Praktisches Ziel ist letztlich die Reduktion von Komplexität und die Ermöglichung eines Ausgangs aus dem Zustand des systembedingten „overnewsed but uninformed“-Seins.:Abbildungsverzeichnis v Tabellenverzeichnis viii 1 einleitung 1 1.1 Sinn einer wissenschaftlichen Arbeit zu Beginn des 21. Jahrhunderts 1 1.2 Verortung der Arbeit in der Ordnung der Wissenschaften 1 1.3 Vor dem Text 2 1.4 Beitrag zu Forschung und Praxis 3 1.5 Anlage und Aufbau der Arbeit 4 2 grundlagen 5 2.1 Textdaten 5 2.1.1 Zeichen 5 2.1.2 Verweise 6 2.1.3 Encoding 6 2.1.4 Umwandlung 7 2.2 Untersuchungsobjekte 7 2.2.1 Begriffe 7 2.2.2 Verteilung 8 2.2.3 Kookkurrenzen 12 2.3 Exkurs: Ein Verteilungsexperiment 12 2.3.1 Setup 12 2.3.2 Einfluss der Samplegröße 14 2.3.3 Einfluss der Korpusgröße 14 2.3.4 Wiederauftauchen von Types und Kookkurrenzen 14 2.4 Zeit 18 2.4.1 Definition 18 2.4.2 Betrachtungsarten 18 2.4.3 Zeitreihenanalyse 18 2.5 Wahrheit und Information 19 3 zugänge zu text 21 3.1 Inhaltsanalyse 21 3.1.1 Geschichte 21 3.1.2 Vorgehen 22 3.1.3 Kritik 23 3.1.4 Mit Computer 23 3.1.5 Medienresonanzanalyse 24 3.1.6 Exkurs: Automatische Analyse von Meinungen und Einstellungen 25 3.1.7 Ein anderer Zugang zu Text durch Text Mining 26 3.2 Beispiele 27 3.2.1 Nachrichtensuchmaschinen 27 3.2.2 Nachrichtenzusammenfassungen 28 3.2.3 Nachrichtenüberblicke 29 4 die wörter des tages 34 4.1 Einordnung und Ursprung 34 4.1.1 Projekt Deutscher Wortschatz 34 4.1.2 Idee zu „Wörtern des Tages“ 37 4.1.3 Verwandte Ansätze und Arbeiten 38 4.2 Archivierung 39 4.2.1 Zur Funktion von Archiven 40 4.2.2 Rechtliche Rahmenbedingungen 40 4.3 Implementierung 44 4.3.1 Daten und Datenacquise 45 4.3.2 Vorverarbeitung 50 4.3.3 Linguistische Aufbereitung 54 4.3.4 Tägliche Verarbeitung 58 4.3.5 Präsentation 65 4.3.6 Evaluation 70 4.4 Weiterentwicklungen und Perspektiven 71 4.4.1 Anwendungen 71 4.4.2 Mashup 74 4.4.3 Medien- und Trendanalyse 78 5 schluss 84 a weitere beispiele aus der anwendung 85 a.1 Wirtschaft 85 a.2 Papst: Tod und Neuwahl 87 a.3 Weltsicherheitsrat 93 b listings 94 c datenbankschema 110 d wissenschaftlicher werdegang 112 e publikationen 113 literaturverzeichnis 11

    Digital Intelligence – Möglichkeiten und Umsetzung einer informatikgestützten Frühaufklärung: Digital Intelligence – opportunities and implementation of a data-driven foresight

    Get PDF
    Das Ziel der Digital Intelligence bzw. datengetriebenen Strategischen Frühaufklärung ist, die Zukunftsgestaltung auf Basis valider und fundierter digitaler Information mit vergleichsweise geringem Aufwand und enormer Zeit- und Kostenersparnis zu unterstützen. Hilfe bieten innovative Technologien der (halb)automatischen Sprach- und Datenverarbeitung wie z. B. das Information Retrieval, das (Temporal) Data, Text und Web Mining, die Informationsvisualisierung, konzeptuelle Strukturen sowie die Informetrie. Sie ermöglichen, Schlüsselthemen und latente Zusammenhänge aus einer nicht überschaubaren, verteilten und inhomogenen Datenmenge wie z. B. Patenten, wissenschaftlichen Publikationen, Pressedokumenten oder Webinhalten rechzeitig zu erkennen und schnell und zielgerichtet bereitzustellen. Die Digital Intelligence macht somit intuitiv erahnte Muster und Entwicklungen explizit und messbar. Die vorliegende Forschungsarbeit soll zum einen die Möglichkeiten der Informatik zur datengetriebenen Frühaufklärung aufzeigen und zum zweiten diese im pragmatischen Kontext umsetzen. Ihren Ausgangspunkt findet sie in der Einführung in die Disziplin der Strategischen Frühaufklärung und ihren datengetriebenen Zweig – die Digital Intelligence. Diskutiert und klassifiziert werden die theoretischen und insbesondere informatikbezogenen Grundlagen der Frühaufklärung – vor allem die Möglichkeiten der zeitorientierten Datenexploration. Konzipiert und entwickelt werden verschiedene Methoden und Software-Werkzeuge, die die zeitorientierte Exploration insbesondere unstrukturierter Textdaten (Temporal Text Mining) unterstützen. Dabei werden nur Verfahren in Betracht gezogen, die sich im Kontext einer großen Institution und den spezifischen Anforderungen der Strategischen Frühaufklärung pragmatisch nutzen lassen. Hervorzuheben sind eine Plattform zur kollektiven Suche sowie ein innovatives Verfahren zur Identifikation schwacher Signale. Vorgestellt und diskutiert wird eine Dienstleistung der Digital Intelligence, die auf dieser Basis in einem globalen technologieorientierten Konzern erfolgreich umgesetzt wurde und eine systematische Wettbewerbs-, Markt- und Technologie-Analyse auf Basis digitaler Spuren des Menschen ermöglicht.:Kurzzusammenfassung 2 Danksagung 3 Inhaltsverzeichnis 5 Tabellenverzeichnis 9 Abbildungsverzeichnis 10 A – EINLEITUNG 13 1 Hintergrund und Motivation 13 2 Beitrag und Aufbau der Arbeit 16 B – THEORIE 20 B0 – Digital Intelligence 20 3 Herleitung und Definition der Digital Intelligence 21 4 Abgrenzung zur Business Intelligence 23 5 Übersicht über unterschiedliche Textsorten 24 6 Informetrie: Bibliometrie, Szientometrie, Webometrie 29 7 Informationssysteme im Kontext der Digital Intelligence 31 B1 – Betriebswirtschaftliche Grundlagen der Digital Intelligence 36 8 Strategische Frühaufklärung 37 8.1 Facetten und historische Entwicklung 37 8.2 Methoden 41 8.3 Prozess 42 8.4 Bestimmung wiederkehrender Termini 44 8.5 Grundlagen der Innovations- und Diffusionsforschung 49 B2 – Informatik-Grundlagen der Digital Intelligence 57 9 Von Zeit, Daten, Text, Metadaten zu multidimensionalen zeitorientierten (Text)Daten 59 9.1 Zeit – eine Begriffsbestimmung 59 9.1.1 Zeitliche Grundelemente und Operatoren 59 9.1.2 Lineare, zyklische und verzweigte Entwicklungen 62 9.1.3 Zeitliche (Un)Bestimmtheit 62 9.1.4 Zeitliche Granularität 63 9.2 Text 63 9.2.1 Der Text und seine sprachlich-textuellen Ebenen 63 9.2.2 Von Signalen und Daten zu Information und Wissen 65 9.3 Daten 65 9.3.1 Herkunft 65 9.3.2 Datengröße 66 9.3.3 Datentyp und Wertebereich 66 9.3.4 Datenstruktur 67 9.3.5 Dimensionalität 68 9.4 Metadaten 69 9.5 Zusammenfassung und multidimensionale zeitorientierte Daten 70 10 Zeitorientierte Datenexplorationsmethoden 73 10.1 Zeitorientierte Datenbankabfragen und OLAP 76 10.2 Zeitorientiertes Information Retrieval 78 10.3 Data Mining und Temporal Data Mining 79 10.3.1 Repräsentationen zeitorientierter Daten 81 10.3.2 Aufgaben des Temporal Data Mining 86 10.4 Text Mining und Temporal Text Mining 91 10.4.1 Grundlagen des Text Mining 98 10.4.2 Entwickelte, genutzte und lizensierte Anwendungen des Text Mining 107 10.4.3 Formen des Temporal Text Mining 110 10.4.3.1 Entdeckung kausaler und zeitorientierter Regeln 110 10.4.3.2 Identifikation von Abweichungen und Volatilität 111 10.4.3.3 Identifikation und zeitorientierte Organisation von Themen 112 10.4.3.4 Zeitorientierte Analyse auf Basis konzeptueller Strukturen 116 10.4.3.5 Zeitorientierte Analyse von Frequenz, Vernetzung und Hierarchien 117 10.4.3.6 Halbautomatische Identifikation von Trends 121 10.4.3.7 Umgang mit dynamisch aktualisierten Daten 123 10.5 Web Mining und Temporal Web Mining 124 10.5.1 Web Content Mining 125 10.5.2 Web Structure Mining 126 10.5.3 Web Usage Mining 127 10.5.4 Temporal Web Mining 127 10.6 Informationsvisualisierung 128 10.6.1 Visualisierungstechniken 130 10.6.1.1 Visualisierungstechniken nach Datentypen 130 10.6.1.2 Visualisierungstechniken nach Darstellungsart 132 10.6.1.3 Visualisierungstechniken nach Art der Interaktion 137 10.6.1.4 Visualisierungstechniken nach Art der visuellen Aufgabe 139 10.6.1.5 Visualisierungstechniken nach Visualisierungsprozess 139 10.6.2 Zeitorientierte Visualisierungstechniken 140 10.6.2.1 Statische Repräsentationen 141 10.6.2.2 Dynamische Repräsentationen 145 10.6.2.3 Ereignisbasierte Repräsentationen 147 10.7 Zusammenfassung 152 11 Konzeptuelle Strukturen 154 12 Synopsis für die zeitorientierte Datenexploration 163 C – UMSETZUNG EINES DIGITAL-INTELLIGENCESYSTEMS 166 13 Bestimmung textbasierter Indikatoren 167 14 Anforderungen an ein Digital-Intelligence-System 171 15 Beschreibung der Umsetzung eines Digital-Intelligence-Systems 174 15.1 Konzept einer Dienstleistung der Digital Intelligence 175 15.1.1 Portalnutzung 177 15.1.2 Steckbriefe 178 15.1.3 Tiefenanalysen 180 15.1.4 Technologiescanning 185 15.2 Relevante Daten für die Digital Intelligence (Beispiel) 187 15.3 Frühaufklärungs-Plattform 188 15.4 WCTAnalyze und automatische Extraktion themenspezifischer Ereignisse 197 15.5 SemanticTalk 200 15.6 Halbautomatische Identifikation von Trends 204 15.6.1 Zeitreihenkorrelation 205 15.6.2 HD-SOM-Scanning 207 D – ZUSAMMENFASSUNG 217 Anhang A: Prozessbilder entwickelter Anwendungen des (Temporal) Text Mining 223 Anhang B: Synopsis der zeitorientierten Datenexploration 230 Literaturverzeichnis 231 Selbstständigkeitserklärung 285 Wissenschaftlicher Werdegang des Autors 286 Veröffentlichungen 28
    corecore