170 research outputs found

    Exploration von Textkorpora - Topic Models als Grundlage der Interaktion

    Get PDF
    The internet offers a seemingly infinite amount of information. A central issue of our days is to make use of this nformation. To formulate efficient search queries a user must have good domain knowledge. Often this is not the case, wherefore a lot of time has to be invested to get an overview of the topic in question. In those situations a user ends up in an exploratory search process, in which he has to outline the individual topics step by step. By now machine learning algorithms are frequently used in data organization but stay invisible to the user for most of the time. The interactive use of these methods could optimize search processes by connecting the human ability to judge with machine processing powers used on large data sources. Topic models are algorithms that find latent topics in unstructured text corpora and are relatively good to interpret. Their use is promising in exploratory search processes, in which a user has to gain new domain knowledge quickly. It appears that many researches use topic models mostly to generate static visualizations of latent text structures. Sensemaking is an essential part of exploratory search processes but it is still only used to a small extent in order to justify algorithmic novelties and bring them into a larger context. Therefore the assumption is derived, that the use of sensemaking models and user centered concepts for exploratory search processes could lead to the development of new ways to interact with topic models and to generate a framework for publications of the correlating research fields.Das Internet birgt schier endlose Informationen. Ein zentrales Problem besteht heutzutage darin diese auch zugänglich zu machen. Es ist ein fundamentales Domänenwissen erforderlich, um in einer Volltextsuche die korrekten Suchanfragen zu formulieren. Das ist jedoch oftmals nicht vorhanden, so dass viel Zeit aufgewandt werden muss, um einen Überblick des behandelten Themas zu erhalten. In solchen Situationen findet sich ein Nutzer in einem explorativen Suchvorgang, in dem er sich schrittweise an ein Thema heranarbeiten muss. Für die Organisation von Daten werden mittlerweile ganz selbstverständlich Verfahren des Machine Learnings verwendet. In den meisten Fällen bleiben sie allerdings für den Anwender unsichtbar. Die interaktive Verwendung in explorativen Suchprozessen könnte die menschliche Urteilskraft enger mit der maschinellen Verarbeitung großer Datenmengen verbinden. Topic Models sind ebensolche Verfahren. Sie finden in einem Textkorpus verborgene Themen, die sich relativ gut von Menschen interpretieren lassen und sind daher vielversprechend für die Anwendung in explorativen Suchprozessen. Nutzer können damit beim Verstehen unbekannter Quellen unterstützt werden. Bei der Betrachtung entsprechender Forschungsarbeiten fiel auf, dass Topic Models vorwiegend zur Erzeugung statischer Visualisierungen verwendet werden. Das Sensemaking ist ein wesentlicher Bestandteil der explorativen Suche und wird dennoch nur in sehr geringem Umfang genutzt, um algorithmische Neuerungen zu begründen und in einen umfassenden Kontext zu setzen. Daraus leitet sich die Vermutung ab, dass die Verwendung von Modellen des Sensemakings und die nutzerzentrierte Konzeption von explorativen Suchen, neue Funktionen für die Interaktion mit Topic Models hervorbringen und einen Kontext für entsprechende Forschungsarbeiten bieten können

    HiER 2015. Proceedings des 9. Hildesheimer Evaluierungs- und Retrievalworkshop

    Get PDF
    Die Digitalisierung formt unsere Informationsumwelten. Disruptive Technologien dringen verstärkt und immer schneller in unseren Alltag ein und verändern unser Informations- und Kommunikationsverhalten. Informationsmärkte wandeln sich. Der 9. Hildesheimer Evaluierungs- und Retrievalworkshop HIER 2015 thematisiert die Gestaltung und Evaluierung von Informationssystemen vor dem Hintergrund der sich beschleunigenden Digitalisierung. Im Fokus stehen die folgenden Themen: Digital Humanities, Internetsuche und Online Marketing, Information Seeking und nutzerzentrierte Entwicklung, E-Learning

    Entwicklung kognitionspsychologisch konzipierter Bild-unterstützter Präsentationssequenzen (KoKo-BuPS). Anwendung kognitionspsychologischer Prinzipien auf Präsentationen zur Wissenskommunikation

    Get PDF
    Entwicklung kognitionspsychologisch konzipierter Bild-unterstützter Präsentations - Sequenzen (KoKo-BuPS) Anwendung kognitionspsychologischer Prinzipien auf Präsentationen zur Wissenskommunikation Den Ausgangspunkt dieser Arbeit bildet das multimediale Japanisch-Lernprogramm "KreaKanji", welches durch die Nutzung von Vorstellungsbildern dazu beiträgt, japanische Schriftzeichen effektiv zu lernen und zu behalten. Daraus entstand die Idee, ein umfassendes Konzept zur Nutzung von bildlichen Darstellungen zu entwickeln und auch den Studierenden die Kompetenz zu vermitteln, lerntheoretisch fundierte, Bild-unterstütze Lern- und Präsentationsprogramme zu entwickeln. Aus dieser Perspektive sind die kognitionspsychologisch konzipierten Bildunterstützten-Präsentations-Sequenzen (KoKo-BuPS) hervorgegangen. Die theoretische Basis der KoKo-BuPS bilden die "cognitive load" -Theorie und die Theorie der "Levels of Processing". Der "cognitive load"-Theorie zu Folge führt die Überlastung des limitierten Arbeitsgedächtnisses zu einer Verringerung der Lernleistung. Daraus folgt, dass durch eine lernförderliche Gestaltung von Informationen, bspw. durch die effektive Nutzung von Bildern, die koordinierte Text-Bild-Darstellung, Schemata oder guter Gestalten, das Arbeitsgedächtnisses zu entlasten, um so die Speicherung und Organisation von Informationen im Langzeitgedächtnis zu unterstützen. Die Theorie der "Levels of Processing" geht davon aus, dass Informationen umso sicherer gespeichert werden und umso leichter abrufbar sind, je intensiver sie verarbeitet werden. Durch den gezielten Einsatz von sowohl äußeren Bildern als auch inneren Bildern kann die Verarbeitungstiefe der Informationen intensiviert werden. Der kognitionspsychologisch effektive Einsatz von Bildern macht es darüber hinaus notwendig, die verschiedenen Informationsprozesse, die bei der Bildverarbeitung eine wesentliche Rolle spielen, näher zu beleuchten. Dabei werden neurophysiologische Aspekte der Bildverarbeitung, automatische Bildverarbeitungsprozesse, kontrollierte Bildverarbeitungsprozesse und affektive Bildverarbeitungsprozesse unterschieden. Die Aufgabe der KoKo-BuPS besteht in der Anregung von Bildverarbeitungsprozessen, zur Unterstützung von Lernprozessen mit dem Ziel, qualitativ unterschiedliche Wissensstrukturen aufzubauen. Bezüglich der empirischen Belege stützen sich die entwickelten Konzepte auf die vorliegenden Ergebnisse der Kognitionspsychologie. Wenn die Kognitionspsychologie gezeigt hat, dass ein Prozess produktiv ist, dann kommt es darauf an, diesen Prozess zuverlässig auszulösen. Die Lehrmethode ist dann theoretisch effektiv, so dass sich der Effektivitätsnachweis auf die Optimierung der Umsetzung der Lernbedingung beschränken kann. Die Effektivität der Konzepte ist nicht nochmals zu erbringen und die Evaluation kann sich auf die Akzeptanz beschränken. Im Vordergrund steht also die nachvollziehbare und anregende Umsetzung kognitionspsychologischer Erkenntnisse und Prinzipien und die Optimierung dieser Anwendungen durch die Methode des "rapid prototyping"

    Graphdatenbanken fĂĽr die textorientierten e-Humanities

    Get PDF
    Vor dem Hintergrund zahlreicher Digitalisierungsinitiativen befinden sich weite Teile der Geistes- und Sozialwissenschaften derzeit in einer Transition hin zur großflächigen Anwendung digitaler Methoden. Zwischen den Fachdisziplinen und der Informatik zeigen sich große Differenzen in der Methodik und bei der gemeinsamen Kommunikation. Diese durch interdisziplinäre Projektarbeit zu überbrücken, ist das zentrale Anliegen der sogenannten e-Humanities. Da Text der häufigste Untersuchungsgegenstand in diesem Feld ist, wurden bereits viele Verfahren des Text Mining auf Problemstellungen der Fächer angepasst und angewendet. Während sich langsam generelle Arbeitsabläufe und Best Practices etablieren, zeigt sich, dass generische Lösungen für spezifische Teilprobleme oftmals nicht geeignet sind. Um für diese Anwendungsfälle maßgeschneiderte digitale Werkzeuge erstellen zu können, ist eines der Kernprobleme die adäquate digitale Repräsentation von Text sowie seinen vielen Kontexten und Bezügen. In dieser Arbeit wird eine neue Form der Textrepräsentation vorgestellt, die auf Property-Graph-Datenbanken beruht – einer aktuellen Technologie für die Speicherung und Abfrage hochverknüpfter Daten. Darauf aufbauend wird das Textrecherchesystem „Kadmos“ vorgestellt, mit welchem nutzerdefinierte asynchrone Webservices erstellt werden können. Es bietet flexible Möglichkeiten zur Erweiterung des Datenmodells und der Programmfunktionalität und kann Textsammlungen mit mehreren hundert Millionen Wörtern auf einzelnen Rechnern und weitaus größere in Rechnerclustern speichern. Es wird gezeigt, wie verschiedene Text-Mining-Verfahren über diese Graphrepräsentation realisiert und an sie angepasst werden können. Die feine Granularität der Zugriffsebene erlaubt die Erstellung passender Werkzeuge für spezifische fachwissenschaftliche Anwendungen. Zusätzlich wird demonstriert, wie die graphbasierte Modellierung auch über die rein textorientierte Forschung hinaus gewinnbringend eingesetzt werden kann.In light of the recent massive digitization efforts, most of the humanities disciplines are currently undergoing a fundamental transition towards the widespread application of digital methods. In between those traditional scholarly fields and computer science exists a methodological and communicational gap, that the so-called \\\"e-Humanities\\\" aim to bridge systematically, via interdisciplinary project work. With text being the most common object of study in this field, many approaches from the area of Text Mining have been adapted to problems of the disciplines. While common workflows and best practices slowly emerge, it is evident that generic solutions are no ultimate fit for many specific application scenarios. To be able to create custom-tailored digital tools, one of the central issues is to digitally represent the text, as well as its many contexts and related objects of interest in an adequate manner. This thesis introduces a novel form of text representation that is based on Property Graph databases – an emerging technology that is used to store and query highly interconnected data sets. Based on this modeling paradigm, a new text research system called \\\"Kadmos\\\" is introduced. It provides user-definable asynchronous web services and is built to allow for a flexible extension of the data model and system functionality within a prototype-driven development process. With Kadmos it is possible to easily scale up to text collections containing hundreds of millions of words on a single device and even further when using a machine cluster. It is shown how various methods of Text Mining can be implemented with and adapted for the graph representation at a very fine granularity level, allowing the creation of fitting digital tools for different aspects of scholarly work. In extended usage scenarios it is demonstrated how the graph-based modeling of domain data can be beneficial even in research scenarios that go beyond a purely text-based study

    Digital Intelligence – Möglichkeiten und Umsetzung einer informatikgestützten Frühaufklärung: Digital Intelligence – opportunities and implementation of a data-driven foresight

    Get PDF
    Das Ziel der Digital Intelligence bzw. datengetriebenen Strategischen Frühaufklärung ist, die Zukunftsgestaltung auf Basis valider und fundierter digitaler Information mit vergleichsweise geringem Aufwand und enormer Zeit- und Kostenersparnis zu unterstützen. Hilfe bieten innovative Technologien der (halb)automatischen Sprach- und Datenverarbeitung wie z. B. das Information Retrieval, das (Temporal) Data, Text und Web Mining, die Informationsvisualisierung, konzeptuelle Strukturen sowie die Informetrie. Sie ermöglichen, Schlüsselthemen und latente Zusammenhänge aus einer nicht überschaubaren, verteilten und inhomogenen Datenmenge wie z. B. Patenten, wissenschaftlichen Publikationen, Pressedokumenten oder Webinhalten rechzeitig zu erkennen und schnell und zielgerichtet bereitzustellen. Die Digital Intelligence macht somit intuitiv erahnte Muster und Entwicklungen explizit und messbar. Die vorliegende Forschungsarbeit soll zum einen die Möglichkeiten der Informatik zur datengetriebenen Frühaufklärung aufzeigen und zum zweiten diese im pragmatischen Kontext umsetzen. Ihren Ausgangspunkt findet sie in der Einführung in die Disziplin der Strategischen Frühaufklärung und ihren datengetriebenen Zweig – die Digital Intelligence. Diskutiert und klassifiziert werden die theoretischen und insbesondere informatikbezogenen Grundlagen der Frühaufklärung – vor allem die Möglichkeiten der zeitorientierten Datenexploration. Konzipiert und entwickelt werden verschiedene Methoden und Software-Werkzeuge, die die zeitorientierte Exploration insbesondere unstrukturierter Textdaten (Temporal Text Mining) unterstützen. Dabei werden nur Verfahren in Betracht gezogen, die sich im Kontext einer großen Institution und den spezifischen Anforderungen der Strategischen Frühaufklärung pragmatisch nutzen lassen. Hervorzuheben sind eine Plattform zur kollektiven Suche sowie ein innovatives Verfahren zur Identifikation schwacher Signale. Vorgestellt und diskutiert wird eine Dienstleistung der Digital Intelligence, die auf dieser Basis in einem globalen technologieorientierten Konzern erfolgreich umgesetzt wurde und eine systematische Wettbewerbs-, Markt- und Technologie-Analyse auf Basis digitaler Spuren des Menschen ermöglicht.:Kurzzusammenfassung 2 Danksagung 3 Inhaltsverzeichnis 5 Tabellenverzeichnis 9 Abbildungsverzeichnis 10 A – EINLEITUNG 13 1 Hintergrund und Motivation 13 2 Beitrag und Aufbau der Arbeit 16 B – THEORIE 20 B0 – Digital Intelligence 20 3 Herleitung und Definition der Digital Intelligence 21 4 Abgrenzung zur Business Intelligence 23 5 Übersicht über unterschiedliche Textsorten 24 6 Informetrie: Bibliometrie, Szientometrie, Webometrie 29 7 Informationssysteme im Kontext der Digital Intelligence 31 B1 – Betriebswirtschaftliche Grundlagen der Digital Intelligence 36 8 Strategische Frühaufklärung 37 8.1 Facetten und historische Entwicklung 37 8.2 Methoden 41 8.3 Prozess 42 8.4 Bestimmung wiederkehrender Termini 44 8.5 Grundlagen der Innovations- und Diffusionsforschung 49 B2 – Informatik-Grundlagen der Digital Intelligence 57 9 Von Zeit, Daten, Text, Metadaten zu multidimensionalen zeitorientierten (Text)Daten 59 9.1 Zeit – eine Begriffsbestimmung 59 9.1.1 Zeitliche Grundelemente und Operatoren 59 9.1.2 Lineare, zyklische und verzweigte Entwicklungen 62 9.1.3 Zeitliche (Un)Bestimmtheit 62 9.1.4 Zeitliche Granularität 63 9.2 Text 63 9.2.1 Der Text und seine sprachlich-textuellen Ebenen 63 9.2.2 Von Signalen und Daten zu Information und Wissen 65 9.3 Daten 65 9.3.1 Herkunft 65 9.3.2 Datengröße 66 9.3.3 Datentyp und Wertebereich 66 9.3.4 Datenstruktur 67 9.3.5 Dimensionalität 68 9.4 Metadaten 69 9.5 Zusammenfassung und multidimensionale zeitorientierte Daten 70 10 Zeitorientierte Datenexplorationsmethoden 73 10.1 Zeitorientierte Datenbankabfragen und OLAP 76 10.2 Zeitorientiertes Information Retrieval 78 10.3 Data Mining und Temporal Data Mining 79 10.3.1 Repräsentationen zeitorientierter Daten 81 10.3.2 Aufgaben des Temporal Data Mining 86 10.4 Text Mining und Temporal Text Mining 91 10.4.1 Grundlagen des Text Mining 98 10.4.2 Entwickelte, genutzte und lizensierte Anwendungen des Text Mining 107 10.4.3 Formen des Temporal Text Mining 110 10.4.3.1 Entdeckung kausaler und zeitorientierter Regeln 110 10.4.3.2 Identifikation von Abweichungen und Volatilität 111 10.4.3.3 Identifikation und zeitorientierte Organisation von Themen 112 10.4.3.4 Zeitorientierte Analyse auf Basis konzeptueller Strukturen 116 10.4.3.5 Zeitorientierte Analyse von Frequenz, Vernetzung und Hierarchien 117 10.4.3.6 Halbautomatische Identifikation von Trends 121 10.4.3.7 Umgang mit dynamisch aktualisierten Daten 123 10.5 Web Mining und Temporal Web Mining 124 10.5.1 Web Content Mining 125 10.5.2 Web Structure Mining 126 10.5.3 Web Usage Mining 127 10.5.4 Temporal Web Mining 127 10.6 Informationsvisualisierung 128 10.6.1 Visualisierungstechniken 130 10.6.1.1 Visualisierungstechniken nach Datentypen 130 10.6.1.2 Visualisierungstechniken nach Darstellungsart 132 10.6.1.3 Visualisierungstechniken nach Art der Interaktion 137 10.6.1.4 Visualisierungstechniken nach Art der visuellen Aufgabe 139 10.6.1.5 Visualisierungstechniken nach Visualisierungsprozess 139 10.6.2 Zeitorientierte Visualisierungstechniken 140 10.6.2.1 Statische Repräsentationen 141 10.6.2.2 Dynamische Repräsentationen 145 10.6.2.3 Ereignisbasierte Repräsentationen 147 10.7 Zusammenfassung 152 11 Konzeptuelle Strukturen 154 12 Synopsis für die zeitorientierte Datenexploration 163 C – UMSETZUNG EINES DIGITAL-INTELLIGENCESYSTEMS 166 13 Bestimmung textbasierter Indikatoren 167 14 Anforderungen an ein Digital-Intelligence-System 171 15 Beschreibung der Umsetzung eines Digital-Intelligence-Systems 174 15.1 Konzept einer Dienstleistung der Digital Intelligence 175 15.1.1 Portalnutzung 177 15.1.2 Steckbriefe 178 15.1.3 Tiefenanalysen 180 15.1.4 Technologiescanning 185 15.2 Relevante Daten für die Digital Intelligence (Beispiel) 187 15.3 Frühaufklärungs-Plattform 188 15.4 WCTAnalyze und automatische Extraktion themenspezifischer Ereignisse 197 15.5 SemanticTalk 200 15.6 Halbautomatische Identifikation von Trends 204 15.6.1 Zeitreihenkorrelation 205 15.6.2 HD-SOM-Scanning 207 D – ZUSAMMENFASSUNG 217 Anhang A: Prozessbilder entwickelter Anwendungen des (Temporal) Text Mining 223 Anhang B: Synopsis der zeitorientierten Datenexploration 230 Literaturverzeichnis 231 Selbstständigkeitserklärung 285 Wissenschaftlicher Werdegang des Autors 286 Veröffentlichungen 28

    Rekontextualisierung als Forschungsparadigma des Digitalen

    Get PDF
    Der Begriff der Rekontextualisierung hat in neueren diskursanalytischen Forschungen zu digitalen Medien einen erstaunlichen Aufschwung erfahren. Die für digitale Medien charakteristische Möglichkeit, durch serielle Reihungen, Rekombination, Einbettung und Vernetzung digitaler Objekte neuen Sinn zu generieren, wird dadurch auf den Begriff gebracht. Auch für methodologische Fragestellungen zu digitalen Forschungsinfrastrukturen und digitalen Methoden kann der Begriff der Rekontextualisierung als Leitkonzept dienen. Der Band diskutiert aus interdisziplinärer Perspektive die Potenziale des Rekontextualisierungsbegriffs als Schlüsselbegriff digitaler Forschung

    HiER 2015 - Proceedings des 9. Hildesheimer Evaluierungs- und Retrievalworkshop

    Get PDF
    Dieser Band fasst die Vorträge des 9. Hildesheimer Evaluierungs- und Retrieval-Workshops (HIER) zusammen, der am 9. und 10. Juli 2015 an der Universität Hildesheim stattfand. Die HIER Workshop-Reihe begann im Jahr 2001 mit dem Ziel, die Forschungsergebnisse der Hildesheimer Informationswissenschaft zu präsentieren und zu diskutieren. Mittlerweile nehmen immer wieder Kooperationspartner von anderen Institutionen teil, was wir sehr begrüßen. HIER schafft auch ein Forum für Systemvorstellungen und praxisorientierte Beiträge

    PatMining - Wege zur ErschlieĂźung textueller Patentinformationen fĂĽr das Technologie-Monitoring

    Get PDF
    Patent have often been seen as a useful information source for technology monitoring. Nevertheless, analyzing patent information remains a demanding task, and this is largely due to the ever increasing number and extent of patent documents. A very useful tool for dealing with the information overflow in order to analyze textual patent information can be found in the application of semantic patent analysis. Following up on this, approaches to the content-based analysis of textual patent information for technology monitoring are introduced in this thesis. Relating to the usefulness of patent information for technology monitoring, it is shown that technologies are published in patents on a large scale. Furthermore, patents provide information about new technologies at an early stage. From a methodological point of view, the role of design decisions for concept extraction is highlighted. Additionally, semantic patent analysis is adapted for technology monitoring and its specific tasks

    Virtuelle Organisation und Neue Medien 2009. Workshop GeNeMe \u2709, Gemeinschaften in Neuen Medien. TU Dresden, 01./02.10.2009

    Full text link
    Die Tagungsreihe „GeNeMe - Gemeinschaften in Neuen Medien“ findet in diesem Jahr zum zwölften Mal mit einer Vielzahl interessanter Beiträge aus folgenden Themengebieten statt: Konzepte, Modelle (Geschäfts-, Betriebs-, Architektur-Modelle); Technologien und Methoden für Virtuelle Gemeinschaften und Virtuelle Organisationen; Soziale Gemeinschaften in Neuen Medien; Wirtschaftliche Aspekte Virtueller Gemeinschaften und Virtuelle Organisationen; Wissensmanagement in Virtuellen Organisationen, virtuelles Lehren und Lernen; Anwendungen und Praxisbeispiele von GeNeMe. (DIPF/Orig.
    • …
    corecore