170 research outputs found
Exploration von Textkorpora - Topic Models als Grundlage der Interaktion
The internet offers a seemingly infinite amount of information. A central issue of our days is to make use of this nformation. To formulate efficient search queries a user must have good domain knowledge. Often this is not the case, wherefore a lot of time has to be invested to get an overview of the topic in question. In those situations a user ends up in an exploratory search process, in which he has to outline the individual topics step by step.
By now machine learning algorithms are frequently used in data organization but stay invisible to the user for most of the time. The interactive use of these methods could optimize search processes by connecting the human ability to judge with machine processing powers used on large data sources.
Topic models are algorithms that find latent topics in unstructured text corpora and are relatively good to interpret. Their use is promising in exploratory search processes, in which a user has to gain new domain knowledge quickly.
It appears that many researches use topic models mostly to generate static visualizations of latent text structures. Sensemaking is an essential part of exploratory search processes but it is still only used to a small extent in order to justify algorithmic novelties and bring them into a larger context. Therefore the assumption is derived, that the use of sensemaking models and user centered concepts for exploratory search processes could lead to the development of new ways to interact with topic models and to generate a framework for publications of the correlating research fields.Das Internet birgt schier endlose Informationen. Ein zentrales Problem besteht heutzutage darin diese auch zugänglich zu machen. Es ist ein fundamentales Domänenwissen erforderlich, um in einer Volltextsuche die korrekten Suchanfragen zu formulieren. Das ist jedoch oftmals nicht vorhanden, so dass viel Zeit aufgewandt werden muss, um einen Überblick des behandelten Themas zu erhalten. In solchen Situationen findet sich ein Nutzer in einem explorativen Suchvorgang, in dem er sich schrittweise an ein Thema heranarbeiten muss.
Für die Organisation von Daten werden mittlerweile ganz selbstverständlich Verfahren des Machine Learnings verwendet. In den meisten Fällen bleiben sie allerdings für den Anwender unsichtbar.
Die interaktive Verwendung in explorativen Suchprozessen könnte die menschliche Urteilskraft enger mit der maschinellen Verarbeitung großer Datenmengen verbinden.
Topic Models sind ebensolche Verfahren. Sie finden in einem Textkorpus verborgene Themen, die sich relativ gut von Menschen interpretieren lassen und sind daher vielversprechend für die Anwendung in explorativen Suchprozessen. Nutzer können damit beim Verstehen unbekannter Quellen unterstützt werden.
Bei der Betrachtung entsprechender Forschungsarbeiten fiel auf, dass Topic Models vorwiegend zur Erzeugung statischer Visualisierungen verwendet werden. Das Sensemaking ist ein wesentlicher Bestandteil der explorativen Suche und wird dennoch nur in sehr geringem Umfang genutzt, um algorithmische Neuerungen zu begründen und in einen umfassenden Kontext zu setzen. Daraus leitet sich die Vermutung ab, dass die Verwendung von Modellen des Sensemakings und die nutzerzentrierte Konzeption von explorativen Suchen, neue Funktionen für die Interaktion mit Topic Models hervorbringen und einen Kontext für entsprechende Forschungsarbeiten bieten können
HiER 2015. Proceedings des 9. Hildesheimer Evaluierungs- und Retrievalworkshop
Die Digitalisierung formt unsere Informationsumwelten. Disruptive Technologien dringen verstärkt und immer schneller in unseren Alltag ein und verändern unser Informations- und Kommunikationsverhalten. Informationsmärkte wandeln sich. Der 9. Hildesheimer Evaluierungs- und Retrievalworkshop HIER 2015 thematisiert die Gestaltung und Evaluierung von Informationssystemen vor dem Hintergrund der sich beschleunigenden Digitalisierung. Im Fokus stehen die folgenden Themen: Digital Humanities, Internetsuche und Online Marketing, Information Seeking und nutzerzentrierte Entwicklung, E-Learning
Entwicklung kognitionspsychologisch konzipierter Bild-unterstützter Präsentationssequenzen (KoKo-BuPS). Anwendung kognitionspsychologischer Prinzipien auf Präsentationen zur Wissenskommunikation
Entwicklung kognitionspsychologisch konzipierter Bild-unterstützter Präsentations - Sequenzen (KoKo-BuPS) Anwendung kognitionspsychologischer Prinzipien auf Präsentationen zur Wissenskommunikation Den Ausgangspunkt dieser Arbeit bildet das multimediale Japanisch-Lernprogramm "KreaKanji", welches durch die Nutzung von Vorstellungsbildern dazu beiträgt, japanische Schriftzeichen effektiv zu lernen und zu behalten. Daraus entstand die Idee, ein umfassendes Konzept zur Nutzung von bildlichen Darstellungen zu entwickeln und auch den Studierenden die Kompetenz zu vermitteln, lerntheoretisch fundierte, Bild-unterstütze Lern- und Präsentationsprogramme zu entwickeln. Aus dieser Perspektive sind die kognitionspsychologisch konzipierten Bildunterstützten-Präsentations-Sequenzen (KoKo-BuPS) hervorgegangen. Die theoretische Basis der KoKo-BuPS bilden die "cognitive load" -Theorie und die Theorie der "Levels of Processing". Der "cognitive load"-Theorie zu Folge führt die Überlastung des limitierten Arbeitsgedächtnisses zu einer Verringerung der Lernleistung. Daraus folgt, dass durch eine lernförderliche Gestaltung von Informationen, bspw. durch die effektive Nutzung von Bildern, die koordinierte Text-Bild-Darstellung, Schemata oder guter Gestalten, das Arbeitsgedächtnisses zu entlasten, um so die Speicherung und Organisation von Informationen im Langzeitgedächtnis zu unterstützen. Die Theorie der "Levels of Processing" geht davon aus, dass Informationen umso sicherer gespeichert werden und umso leichter abrufbar sind, je intensiver sie verarbeitet werden. Durch den gezielten Einsatz von sowohl äußeren Bildern als auch inneren Bildern kann die Verarbeitungstiefe der Informationen intensiviert werden. Der kognitionspsychologisch effektive Einsatz von Bildern macht es darüber hinaus notwendig, die verschiedenen Informationsprozesse, die bei der Bildverarbeitung eine wesentliche Rolle spielen, näher zu beleuchten. Dabei werden neurophysiologische Aspekte der Bildverarbeitung, automatische Bildverarbeitungsprozesse, kontrollierte Bildverarbeitungsprozesse und affektive Bildverarbeitungsprozesse unterschieden. Die Aufgabe der KoKo-BuPS besteht in der Anregung von Bildverarbeitungsprozessen, zur Unterstützung von Lernprozessen mit dem Ziel, qualitativ unterschiedliche Wissensstrukturen aufzubauen. Bezüglich der empirischen Belege stützen sich die entwickelten Konzepte auf die vorliegenden Ergebnisse der Kognitionspsychologie. Wenn die Kognitionspsychologie gezeigt hat, dass ein Prozess produktiv ist, dann kommt es darauf an, diesen Prozess zuverlässig auszulösen. Die Lehrmethode ist dann theoretisch effektiv, so dass sich der Effektivitätsnachweis auf die Optimierung der Umsetzung der Lernbedingung beschränken kann. Die Effektivität der Konzepte ist nicht nochmals zu erbringen und die Evaluation kann sich auf die Akzeptanz beschränken. Im Vordergrund steht also die nachvollziehbare und anregende Umsetzung kognitionspsychologischer Erkenntnisse und Prinzipien und die Optimierung dieser Anwendungen durch die Methode des "rapid prototyping"
Graphdatenbanken fĂĽr die textorientierten e-Humanities
Vor dem Hintergrund zahlreicher Digitalisierungsinitiativen befinden sich weite Teile der Geistes- und Sozialwissenschaften derzeit in einer Transition hin zur großflächigen Anwendung digitaler Methoden. Zwischen den Fachdisziplinen und der Informatik zeigen sich große Differenzen in der Methodik und bei der gemeinsamen Kommunikation. Diese durch interdisziplinäre Projektarbeit zu überbrücken, ist das zentrale Anliegen der sogenannten e-Humanities. Da Text der häufigste Untersuchungsgegenstand in diesem Feld ist, wurden bereits viele Verfahren des Text Mining auf Problemstellungen der Fächer angepasst und angewendet. Während sich langsam generelle Arbeitsabläufe und Best Practices etablieren, zeigt sich, dass generische Lösungen für spezifische Teilprobleme oftmals nicht geeignet sind. Um für diese Anwendungsfälle maßgeschneiderte digitale Werkzeuge erstellen zu können, ist eines der Kernprobleme die adäquate digitale Repräsentation von Text sowie seinen vielen Kontexten und Bezügen.
In dieser Arbeit wird eine neue Form der Textrepräsentation vorgestellt, die auf Property-Graph-Datenbanken beruht – einer aktuellen Technologie für die Speicherung und Abfrage hochverknüpfter Daten. Darauf aufbauend wird das Textrecherchesystem „Kadmos“ vorgestellt, mit welchem nutzerdefinierte asynchrone Webservices erstellt werden können. Es bietet flexible Möglichkeiten zur Erweiterung des Datenmodells und der Programmfunktionalität und kann Textsammlungen mit mehreren hundert Millionen Wörtern auf einzelnen Rechnern und weitaus größere in Rechnerclustern speichern. Es wird gezeigt, wie verschiedene Text-Mining-Verfahren über diese Graphrepräsentation realisiert und an sie angepasst werden können. Die feine Granularität der Zugriffsebene erlaubt die Erstellung passender Werkzeuge für spezifische fachwissenschaftliche Anwendungen. Zusätzlich wird demonstriert, wie die graphbasierte Modellierung auch über die rein textorientierte Forschung hinaus gewinnbringend eingesetzt werden kann.In light of the recent massive digitization efforts, most of the humanities disciplines are currently undergoing a fundamental transition towards the widespread application of digital methods. In between those traditional scholarly fields and computer science exists a methodological and communicational gap, that the so-called \\\"e-Humanities\\\" aim to bridge systematically, via interdisciplinary project work. With text being the most common object of study in this field, many approaches from the area of Text Mining have been adapted to problems of the disciplines. While common workflows and best practices slowly emerge, it is evident that generic solutions are no ultimate fit for many specific application scenarios. To be able to create custom-tailored digital tools, one of the central issues is to digitally represent the text, as well as its many contexts and related objects of interest in an adequate manner.
This thesis introduces a novel form of text representation that is based on Property Graph databases – an emerging technology that is used to store and query highly interconnected data sets. Based on this modeling paradigm, a new text research system called \\\"Kadmos\\\" is introduced. It provides user-definable asynchronous web services and is built to allow for a flexible extension of the data model and system functionality within a prototype-driven development process. With Kadmos it is possible to easily scale up to text collections containing hundreds of millions of words on a single device and even further when using a machine cluster. It is shown how various methods of Text Mining can be implemented with and adapted for the graph representation at a very fine granularity level, allowing the creation of fitting digital tools for different aspects of scholarly work. In extended usage scenarios it is demonstrated how the graph-based modeling of domain data can be beneficial even in research scenarios that go beyond a purely text-based study
Digital Intelligence – Möglichkeiten und Umsetzung einer informatikgestützten Frühaufklärung: Digital Intelligence – opportunities and implementation of a data-driven foresight
Das Ziel der Digital Intelligence bzw. datengetriebenen Strategischen Frühaufklärung ist, die Zukunftsgestaltung auf Basis valider und fundierter digitaler Information mit vergleichsweise geringem Aufwand und enormer Zeit- und Kostenersparnis zu unterstützen. Hilfe bieten innovative Technologien der (halb)automatischen Sprach- und Datenverarbeitung wie z. B. das Information Retrieval, das (Temporal) Data, Text und Web Mining, die Informationsvisualisierung, konzeptuelle Strukturen sowie die Informetrie. Sie ermöglichen, Schlüsselthemen und latente Zusammenhänge aus einer nicht überschaubaren, verteilten und inhomogenen Datenmenge wie z. B. Patenten, wissenschaftlichen Publikationen, Pressedokumenten oder Webinhalten rechzeitig zu erkennen und schnell und zielgerichtet bereitzustellen. Die Digital Intelligence macht somit intuitiv erahnte Muster und Entwicklungen explizit und messbar.
Die vorliegende Forschungsarbeit soll zum einen die Möglichkeiten der Informatik zur datengetriebenen Frühaufklärung aufzeigen und zum zweiten diese im pragmatischen Kontext umsetzen.
Ihren Ausgangspunkt findet sie in der Einführung in die Disziplin der Strategischen Frühaufklärung und ihren datengetriebenen Zweig – die Digital Intelligence.
Diskutiert und klassifiziert werden die theoretischen und insbesondere informatikbezogenen Grundlagen der Frühaufklärung – vor allem die Möglichkeiten der zeitorientierten Datenexploration.
Konzipiert und entwickelt werden verschiedene Methoden und Software-Werkzeuge, die die zeitorientierte Exploration insbesondere unstrukturierter Textdaten (Temporal Text Mining) unterstützen. Dabei werden nur Verfahren in Betracht gezogen, die sich im Kontext einer großen Institution und den spezifischen Anforderungen der Strategischen Frühaufklärung pragmatisch nutzen lassen. Hervorzuheben sind eine Plattform zur kollektiven Suche sowie ein innovatives Verfahren zur Identifikation schwacher Signale.
Vorgestellt und diskutiert wird eine Dienstleistung der Digital Intelligence, die auf dieser Basis in einem globalen technologieorientierten Konzern erfolgreich umgesetzt wurde und eine systematische Wettbewerbs-, Markt- und Technologie-Analyse auf Basis digitaler Spuren des Menschen ermöglicht.:Kurzzusammenfassung 2
Danksagung 3
Inhaltsverzeichnis 5
Tabellenverzeichnis 9
Abbildungsverzeichnis 10
A – EINLEITUNG 13
1 Hintergrund und Motivation 13
2 Beitrag und Aufbau der Arbeit 16
B – THEORIE 20
B0 – Digital Intelligence 20
3 Herleitung und Definition der Digital Intelligence 21
4 Abgrenzung zur Business Intelligence 23
5 Ăśbersicht ĂĽber unterschiedliche Textsorten 24
6 Informetrie: Bibliometrie, Szientometrie, Webometrie 29
7 Informationssysteme im Kontext der Digital Intelligence 31
B1 – Betriebswirtschaftliche Grundlagen der Digital Intelligence 36
8 Strategische Frühaufklärung 37
8.1 Facetten und historische Entwicklung 37
8.2 Methoden 41
8.3 Prozess 42
8.4 Bestimmung wiederkehrender Termini 44
8.5 Grundlagen der Innovations- und Diffusionsforschung 49
B2 – Informatik-Grundlagen der Digital Intelligence 57
9 Von Zeit, Daten, Text, Metadaten zu multidimensionalen zeitorientierten (Text)Daten 59
9.1 Zeit – eine Begriffsbestimmung 59
9.1.1 Zeitliche Grundelemente und Operatoren 59
9.1.2 Lineare, zyklische und verzweigte Entwicklungen 62
9.1.3 Zeitliche (Un)Bestimmtheit 62
9.1.4 Zeitliche Granularität 63
9.2 Text 63
9.2.1 Der Text und seine sprachlich-textuellen Ebenen 63
9.2.2 Von Signalen und Daten zu Information und Wissen 65
9.3 Daten 65
9.3.1 Herkunft 65
9.3.2 Datengröße 66
9.3.3 Datentyp und Wertebereich 66
9.3.4 Datenstruktur 67
9.3.5 Dimensionalität 68
9.4 Metadaten 69
9.5 Zusammenfassung und multidimensionale zeitorientierte Daten 70
10 Zeitorientierte Datenexplorationsmethoden 73
10.1 Zeitorientierte Datenbankabfragen und OLAP 76
10.2 Zeitorientiertes Information Retrieval 78
10.3 Data Mining und Temporal Data Mining 79
10.3.1 Repräsentationen zeitorientierter Daten 81
10.3.2 Aufgaben des Temporal Data Mining 86
10.4 Text Mining und Temporal Text Mining 91
10.4.1 Grundlagen des Text Mining 98
10.4.2 Entwickelte, genutzte und lizensierte Anwendungen des Text Mining 107
10.4.3 Formen des Temporal Text Mining 110
10.4.3.1 Entdeckung kausaler und zeitorientierter Regeln 110
10.4.3.2 Identifikation von Abweichungen und Volatilität 111
10.4.3.3 Identifikation und zeitorientierte Organisation von Themen 112
10.4.3.4 Zeitorientierte Analyse auf Basis konzeptueller Strukturen 116
10.4.3.5 Zeitorientierte Analyse von Frequenz, Vernetzung und Hierarchien 117
10.4.3.6 Halbautomatische Identifikation von Trends 121
10.4.3.7 Umgang mit dynamisch aktualisierten Daten 123
10.5 Web Mining und Temporal Web Mining 124
10.5.1 Web Content Mining 125
10.5.2 Web Structure Mining 126
10.5.3 Web Usage Mining 127
10.5.4 Temporal Web Mining 127
10.6 Informationsvisualisierung 128
10.6.1 Visualisierungstechniken 130
10.6.1.1 Visualisierungstechniken nach Datentypen 130
10.6.1.2 Visualisierungstechniken nach Darstellungsart 132
10.6.1.3 Visualisierungstechniken nach Art der Interaktion 137
10.6.1.4 Visualisierungstechniken nach Art der visuellen Aufgabe 139
10.6.1.5 Visualisierungstechniken nach Visualisierungsprozess 139
10.6.2 Zeitorientierte Visualisierungstechniken 140
10.6.2.1 Statische Repräsentationen 141
10.6.2.2 Dynamische Repräsentationen 145
10.6.2.3 Ereignisbasierte Repräsentationen 147
10.7 Zusammenfassung 152
11 Konzeptuelle Strukturen 154
12 Synopsis fĂĽr die zeitorientierte Datenexploration 163
C – UMSETZUNG EINES DIGITAL-INTELLIGENCESYSTEMS 166
13 Bestimmung textbasierter Indikatoren 167
14 Anforderungen an ein Digital-Intelligence-System 171
15 Beschreibung der Umsetzung eines Digital-Intelligence-Systems 174
15.1 Konzept einer Dienstleistung der Digital Intelligence 175
15.1.1 Portalnutzung 177
15.1.2 Steckbriefe 178
15.1.3 Tiefenanalysen 180
15.1.4 Technologiescanning 185
15.2 Relevante Daten fĂĽr die Digital Intelligence (Beispiel) 187
15.3 Frühaufklärungs-Plattform 188
15.4 WCTAnalyze und automatische Extraktion themenspezifischer Ereignisse 197
15.5 SemanticTalk 200
15.6 Halbautomatische Identifikation von Trends 204
15.6.1 Zeitreihenkorrelation 205
15.6.2 HD-SOM-Scanning 207
D – ZUSAMMENFASSUNG 217
Anhang A: Prozessbilder entwickelter Anwendungen des (Temporal) Text Mining 223
Anhang B: Synopsis der zeitorientierten Datenexploration 230
Literaturverzeichnis 231
Selbstständigkeitserklärung 285
Wissenschaftlicher Werdegang des Autors 286
Veröffentlichungen 28
Rekontextualisierung als Forschungsparadigma des Digitalen
Der Begriff der Rekontextualisierung hat in neueren diskursanalytischen Forschungen zu digitalen Medien einen erstaunlichen Aufschwung erfahren. Die für digitale Medien charakteristische Möglichkeit, durch serielle Reihungen, Rekombination, Einbettung und Vernetzung digitaler Objekte neuen Sinn zu generieren, wird dadurch auf den Begriff gebracht. Auch für methodologische Fragestellungen zu digitalen Forschungsinfrastrukturen und digitalen Methoden kann der Begriff der Rekontextualisierung als Leitkonzept dienen. Der Band diskutiert aus interdisziplinärer Perspektive die Potenziale des Rekontextualisierungsbegriffs als Schlüsselbegriff digitaler Forschung
HiER 2015 - Proceedings des 9. Hildesheimer Evaluierungs- und Retrievalworkshop
Dieser Band fasst die Vorträge des 9. Hildesheimer Evaluierungs- und Retrieval-Workshops (HIER) zusammen, der am 9. und 10. Juli 2015 an der Universität Hildesheim stattfand. Die HIER Workshop-Reihe begann im Jahr 2001 mit dem Ziel, die Forschungsergebnisse der Hildesheimer Informationswissenschaft zu präsentieren und zu diskutieren. Mittlerweile nehmen immer wieder Kooperationspartner von anderen Institutionen teil, was wir sehr begrüßen. HIER schafft auch ein Forum für Systemvorstellungen und praxisorientierte Beiträge
PatMining - Wege zur ErschlieĂźung textueller Patentinformationen fĂĽr das Technologie-Monitoring
Patent have often been seen as a useful information source for technology monitoring. Nevertheless, analyzing patent information remains a demanding task, and this is largely due to the ever increasing number and extent of patent documents. A very useful tool for dealing with the information overflow in order to analyze textual patent information can be found in the application of semantic patent analysis. Following up on this, approaches to the content-based analysis of textual patent information for technology monitoring are introduced in this thesis. Relating to the usefulness of patent information for technology monitoring, it is shown that technologies are published in patents on a large scale. Furthermore, patents provide information about new technologies at an early stage. From a methodological point of view, the role of design decisions for concept extraction is highlighted. Additionally, semantic patent analysis is adapted for technology monitoring and its specific tasks
Virtuelle Organisation und Neue Medien 2009. Workshop GeNeMe \u2709, Gemeinschaften in Neuen Medien. TU Dresden, 01./02.10.2009
Die Tagungsreihe „GeNeMe - Gemeinschaften in Neuen Medien“ findet in diesem Jahr zum zwölften Mal mit einer Vielzahl interessanter Beiträge aus folgenden Themengebieten statt: Konzepte, Modelle (Geschäfts-, Betriebs-, Architektur-Modelle); Technologien und Methoden für Virtuelle Gemeinschaften und Virtuelle Organisationen; Soziale Gemeinschaften in Neuen Medien; Wirtschaftliche Aspekte Virtueller Gemeinschaften und Virtuelle Organisationen; Wissensmanagement in Virtuellen Organisationen, virtuelles Lehren und Lernen; Anwendungen und Praxisbeispiele von GeNeMe. (DIPF/Orig.
- …