22 research outputs found
Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows
In den vergangenen Jahren hat das neu entstandene Paradigma Infrastructure as a Service die IT-Welt massiv verändert. Die Bereitstellung von Recheninfrastruktur durch externe Dienstleister bietet die Möglichkeit, bei Bedarf in kurzer Zeit eine große Menge von Rechenleistung, Speicherplatz und Bandbreite ohne Vorabinvestitionen zu akquirieren. Gleichzeitig steigt sowohl die Menge der frei verfügbaren als auch der in Unternehmen zu verwaltenden Daten dramatisch an. Die Notwendigkeit zur effizienten Verwaltung und Auswertung dieser Datenmengen erforderte eine Weiterentwicklung bestehender IT-Technologien und führte zur Entstehung neuer Forschungsgebiete und einer Vielzahl innovativer Systeme. Ein typisches Merkmal dieser Systeme ist die verteilte Speicherung und Datenverarbeitung in großen Rechnerclustern bestehend aus Standard-Hardware. Besonders das MapReduce-Programmiermodell hat in den vergangenen zehn Jahren zunehmend an Bedeutung gewonnen. Es ermöglicht eine verteilte Verarbeitung großer Datenmengen und abstrahiert von den Details des verteilten Rechnens sowie der Behandlung von Hardwarefehlern. Innerhalb dieser Dissertation steht die Nutzung des MapReduce-Konzeptes zur automatischen Parallelisierung rechenintensiver Entity Resolution-Aufgaben im Mittelpunkt. Entity Resolution ist ein wichtiger Teilbereich der Informationsintegration, dessen Ziel die Entdeckung von Datensätzen einer oder mehrerer Datenquellen ist, die dasselbe Realweltobjekt beschreiben. Im Rahmen der Dissertation werden schrittweise Verfahren präsentiert, welche verschiedene Teilprobleme der MapReduce-basierten Ausführung von Entity Resolution-Workflows lösen.
Zur Erkennung von Duplikaten vergleichen Entity Resolution-Verfahren üblicherweise Paare von Datensätzen mithilfe mehrerer Ähnlichkeitsmaße. Die Auswertung des Kartesischen Produktes von n Datensätzen führt dabei zu einer quadratischen Komplexität von O(n²) und ist deswegen nur für kleine bis mittelgroße Datenquellen praktikabel. Für Datenquellen mit mehr als 100.000 Datensätzen entstehen selbst bei verteilter Ausführung Laufzeiten von mehreren Stunden. Deswegen kommen sogenannte Blocking-Techniken zum Einsatz, die zur Reduzierung des Suchraums dienen. Die zugrundeliegende Annahme ist, dass Datensätze, die eine gewisse Mindestähnlichkeit unterschreiten, nicht miteinander verglichen werden müssen. Die Arbeit stellt eine MapReduce-basierte Umsetzung der Auswertung des Kartesischen Produktes sowie einiger bekannter Blocking-Verfahren vor. Nach dem Vergleich der Datensätze erfolgt abschließend eine Klassifikation der verglichenen Kandidaten-Paare in Match beziehungsweise Non-Match. Mit einer steigenden Anzahl verwendeter Attributwerte und Ähnlichkeitsmaße ist eine manuelle Festlegung einer qualitativ hochwertigen Strategie zur Kombination der resultierenden Ähnlichkeitswerte kaum mehr handhabbar. Aus diesem Grund untersucht die Arbeit die Integration maschineller Lernverfahren in MapReduce-basierte Entity Resolution-Workflows.
Eine Umsetzung von Blocking-Verfahren mit MapReduce bedingt eine Partitionierung der Menge der zu vergleichenden Paare sowie eine Zuweisung der Partitionen zu verfügbaren Prozessen. Die Zuweisung erfolgt auf Basis eines semantischen Schlüssels, der entsprechend der konkreten Blocking-Strategie aus den Attributwerten der Datensätze abgeleitet ist. Beispielsweise wäre es bei der Deduplizierung von Produktdatensätzen denkbar, lediglich Produkte des gleichen Herstellers miteinander zu vergleichen. Die Bearbeitung aller Datensätze desselben Schlüssels durch einen Prozess führt bei Datenungleichverteilung zu erheblichen Lastbalancierungsproblemen, die durch die inhärente quadratische Komplexität verschärft werden. Dies reduziert in drastischem Maße die Laufzeiteffizienz und Skalierbarkeit der entsprechenden MapReduce-Programme, da ein Großteil der Ressourcen eines Clusters nicht ausgelastet ist, wohingegen wenige Prozesse den Großteil der Arbeit verrichten müssen. Die Bereitstellung verschiedener Verfahren zur gleichmäßigen Ausnutzung der zur Verfügung stehenden Ressourcen stellt einen weiteren Schwerpunkt der Arbeit dar.
Blocking-Strategien müssen stets zwischen Effizienz und Datenqualität abwägen. Eine große Reduktion des Suchraums verspricht zwar eine signifikante Beschleunigung, führt jedoch dazu, dass ähnliche Datensätze, z. B. aufgrund fehlerhafter Attributwerte, nicht miteinander verglichen werden. Aus diesem Grunde ist es hilfreich, für jeden Datensatz mehrere von verschiedenen Attributen abgeleitete semantische Schlüssel zu generieren. Dies führt jedoch dazu, dass ähnliche Datensätze unnötigerweise mehrfach bezüglich verschiedener Schlüssel miteinander verglichen werden. Innerhalb der Arbeit werden deswegen Algorithmen zur Vermeidung solch redundanter Ähnlichkeitsberechnungen präsentiert.
Als Ergebnis dieser Arbeit wird das Entity Resolution-Framework Dedoop präsentiert, welches von den entwickelten MapReduce-Algorithmen abstrahiert und eine High-Level-Spezifikation komplexer Entity Resolution-Workflows ermöglicht. Dedoop fasst alle in dieser Arbeit vorgestellten Techniken und Optimierungen in einem nutzerfreundlichen System zusammen. Der Prototyp überführt nutzerdefinierte Workflows automatisch in eine Menge von MapReduce-Jobs und verwaltet deren parallele Ausführung in MapReduce-Clustern. Durch die vollständige Integration der Cloud-Dienste Amazon EC2 und Amazon S3 in Dedoop sowie dessen Verfügbarmachung ist es für Endnutzer ohne MapReduce-Kenntnisse möglich, komplexe Entity Resolution-Workflows in privaten oder dynamisch erstellten externen MapReduce-Clustern zu berechnen
Szenen- und Objektmodellierung fĂĽr Serviceroboter
Ein Serviceroboter benötigt für die Perzeption und Manipulation der Umwelt Modellwissen. Die Erzeugung geeigneter Repräsentationen von Alltagsgegenständen auf Basis von Sensordaten und automatisierter Nachbearbeitung ist Gegenstand der Arbeit
Digital Intelligence – Möglichkeiten und Umsetzung einer informatikgestützten Frühaufklärung: Digital Intelligence – opportunities and implementation of a data-driven foresight
Das Ziel der Digital Intelligence bzw. datengetriebenen Strategischen Frühaufklärung ist, die Zukunftsgestaltung auf Basis valider und fundierter digitaler Information mit vergleichsweise geringem Aufwand und enormer Zeit- und Kostenersparnis zu unterstützen. Hilfe bieten innovative Technologien der (halb)automatischen Sprach- und Datenverarbeitung wie z. B. das Information Retrieval, das (Temporal) Data, Text und Web Mining, die Informationsvisualisierung, konzeptuelle Strukturen sowie die Informetrie. Sie ermöglichen, Schlüsselthemen und latente Zusammenhänge aus einer nicht überschaubaren, verteilten und inhomogenen Datenmenge wie z. B. Patenten, wissenschaftlichen Publikationen, Pressedokumenten oder Webinhalten rechzeitig zu erkennen und schnell und zielgerichtet bereitzustellen. Die Digital Intelligence macht somit intuitiv erahnte Muster und Entwicklungen explizit und messbar.
Die vorliegende Forschungsarbeit soll zum einen die Möglichkeiten der Informatik zur datengetriebenen Frühaufklärung aufzeigen und zum zweiten diese im pragmatischen Kontext umsetzen.
Ihren Ausgangspunkt findet sie in der Einführung in die Disziplin der Strategischen Frühaufklärung und ihren datengetriebenen Zweig – die Digital Intelligence.
Diskutiert und klassifiziert werden die theoretischen und insbesondere informatikbezogenen Grundlagen der Frühaufklärung – vor allem die Möglichkeiten der zeitorientierten Datenexploration.
Konzipiert und entwickelt werden verschiedene Methoden und Software-Werkzeuge, die die zeitorientierte Exploration insbesondere unstrukturierter Textdaten (Temporal Text Mining) unterstützen. Dabei werden nur Verfahren in Betracht gezogen, die sich im Kontext einer großen Institution und den spezifischen Anforderungen der Strategischen Frühaufklärung pragmatisch nutzen lassen. Hervorzuheben sind eine Plattform zur kollektiven Suche sowie ein innovatives Verfahren zur Identifikation schwacher Signale.
Vorgestellt und diskutiert wird eine Dienstleistung der Digital Intelligence, die auf dieser Basis in einem globalen technologieorientierten Konzern erfolgreich umgesetzt wurde und eine systematische Wettbewerbs-, Markt- und Technologie-Analyse auf Basis digitaler Spuren des Menschen ermöglicht.:Kurzzusammenfassung 2
Danksagung 3
Inhaltsverzeichnis 5
Tabellenverzeichnis 9
Abbildungsverzeichnis 10
A – EINLEITUNG 13
1 Hintergrund und Motivation 13
2 Beitrag und Aufbau der Arbeit 16
B – THEORIE 20
B0 – Digital Intelligence 20
3 Herleitung und Definition der Digital Intelligence 21
4 Abgrenzung zur Business Intelligence 23
5 Ăśbersicht ĂĽber unterschiedliche Textsorten 24
6 Informetrie: Bibliometrie, Szientometrie, Webometrie 29
7 Informationssysteme im Kontext der Digital Intelligence 31
B1 – Betriebswirtschaftliche Grundlagen der Digital Intelligence 36
8 Strategische Frühaufklärung 37
8.1 Facetten und historische Entwicklung 37
8.2 Methoden 41
8.3 Prozess 42
8.4 Bestimmung wiederkehrender Termini 44
8.5 Grundlagen der Innovations- und Diffusionsforschung 49
B2 – Informatik-Grundlagen der Digital Intelligence 57
9 Von Zeit, Daten, Text, Metadaten zu multidimensionalen zeitorientierten (Text)Daten 59
9.1 Zeit – eine Begriffsbestimmung 59
9.1.1 Zeitliche Grundelemente und Operatoren 59
9.1.2 Lineare, zyklische und verzweigte Entwicklungen 62
9.1.3 Zeitliche (Un)Bestimmtheit 62
9.1.4 Zeitliche Granularität 63
9.2 Text 63
9.2.1 Der Text und seine sprachlich-textuellen Ebenen 63
9.2.2 Von Signalen und Daten zu Information und Wissen 65
9.3 Daten 65
9.3.1 Herkunft 65
9.3.2 Datengröße 66
9.3.3 Datentyp und Wertebereich 66
9.3.4 Datenstruktur 67
9.3.5 Dimensionalität 68
9.4 Metadaten 69
9.5 Zusammenfassung und multidimensionale zeitorientierte Daten 70
10 Zeitorientierte Datenexplorationsmethoden 73
10.1 Zeitorientierte Datenbankabfragen und OLAP 76
10.2 Zeitorientiertes Information Retrieval 78
10.3 Data Mining und Temporal Data Mining 79
10.3.1 Repräsentationen zeitorientierter Daten 81
10.3.2 Aufgaben des Temporal Data Mining 86
10.4 Text Mining und Temporal Text Mining 91
10.4.1 Grundlagen des Text Mining 98
10.4.2 Entwickelte, genutzte und lizensierte Anwendungen des Text Mining 107
10.4.3 Formen des Temporal Text Mining 110
10.4.3.1 Entdeckung kausaler und zeitorientierter Regeln 110
10.4.3.2 Identifikation von Abweichungen und Volatilität 111
10.4.3.3 Identifikation und zeitorientierte Organisation von Themen 112
10.4.3.4 Zeitorientierte Analyse auf Basis konzeptueller Strukturen 116
10.4.3.5 Zeitorientierte Analyse von Frequenz, Vernetzung und Hierarchien 117
10.4.3.6 Halbautomatische Identifikation von Trends 121
10.4.3.7 Umgang mit dynamisch aktualisierten Daten 123
10.5 Web Mining und Temporal Web Mining 124
10.5.1 Web Content Mining 125
10.5.2 Web Structure Mining 126
10.5.3 Web Usage Mining 127
10.5.4 Temporal Web Mining 127
10.6 Informationsvisualisierung 128
10.6.1 Visualisierungstechniken 130
10.6.1.1 Visualisierungstechniken nach Datentypen 130
10.6.1.2 Visualisierungstechniken nach Darstellungsart 132
10.6.1.3 Visualisierungstechniken nach Art der Interaktion 137
10.6.1.4 Visualisierungstechniken nach Art der visuellen Aufgabe 139
10.6.1.5 Visualisierungstechniken nach Visualisierungsprozess 139
10.6.2 Zeitorientierte Visualisierungstechniken 140
10.6.2.1 Statische Repräsentationen 141
10.6.2.2 Dynamische Repräsentationen 145
10.6.2.3 Ereignisbasierte Repräsentationen 147
10.7 Zusammenfassung 152
11 Konzeptuelle Strukturen 154
12 Synopsis fĂĽr die zeitorientierte Datenexploration 163
C – UMSETZUNG EINES DIGITAL-INTELLIGENCESYSTEMS 166
13 Bestimmung textbasierter Indikatoren 167
14 Anforderungen an ein Digital-Intelligence-System 171
15 Beschreibung der Umsetzung eines Digital-Intelligence-Systems 174
15.1 Konzept einer Dienstleistung der Digital Intelligence 175
15.1.1 Portalnutzung 177
15.1.2 Steckbriefe 178
15.1.3 Tiefenanalysen 180
15.1.4 Technologiescanning 185
15.2 Relevante Daten fĂĽr die Digital Intelligence (Beispiel) 187
15.3 Frühaufklärungs-Plattform 188
15.4 WCTAnalyze und automatische Extraktion themenspezifischer Ereignisse 197
15.5 SemanticTalk 200
15.6 Halbautomatische Identifikation von Trends 204
15.6.1 Zeitreihenkorrelation 205
15.6.2 HD-SOM-Scanning 207
D – ZUSAMMENFASSUNG 217
Anhang A: Prozessbilder entwickelter Anwendungen des (Temporal) Text Mining 223
Anhang B: Synopsis der zeitorientierten Datenexploration 230
Literaturverzeichnis 231
Selbstständigkeitserklärung 285
Wissenschaftlicher Werdegang des Autors 286
Veröffentlichungen 28
Energiediskurse in der Schweiz : anwendungsorientierte Erforschung eines mehrsprachigen Kommunikationsfelds mittels digitaler Daten
Öffentliche Diskurse über Energiepolitik spielen eine entscheidende Rolle, wenn es darum geht, die «Energiestrategie 2050» der Schweizer Regierung erfolgreich umzusetzen. Das interdisziplinäre Forschungsprojekt «Energiediskurse in der Schweiz» untersucht Muster des öffentlichen Sprachgebrauchs zum Thema. Solche Muster bilden die Grundlage für das öffentliche Verständnis der Themen und Kontroversen im demokratischen Dialog und in der vernetzten Innovation. Das vorliegende «Working Paper» präsentiert das dreijährige Projekt in seinen theoretischen und methodischen Grundzügen ebenso wie ausgewählte Ergebnisse des ersten Projektjahrs. Dazu gehören der Aufbau und die Annotation des digitalen Swiss-AL-Textkorpus ebenso wie Vergleiche zwischen dem Sprachgebrauch in den drei Landessprachen Deutsch, Französisch und Italienisch. So kann beispielsweise der Einfluss von Ereignissen wie der Nuklearkatastrophe in Fukushima Daiichi nachgezeichnet werden, in dem die Hinweise auf das Ereignis über die Jahre hinweg gemessen werden. Zudem gibt es erste Hinweise und Belege dafür, dass die verschiedenen Sprachen den öffentlichen Diskurs über Energiefragen auch unterschiedlich gestalten. Bestimmte Wortkombinationen stehen für Konzepte wie «erneuerbare», «Wind-», «Solar-», «Nuklear-» oder «fossile» Energien, wobei diese Konzepte in den verschiedenen Sprachen unterschiedlich gewichtet sind. Argumentationsstrategien beispielsweise in Bezug auf die «erneuerbaren Energien» scheinen sich ebenfalls zu unterscheiden, so dass es angezeigt ist, in der Fortsetzung des Projekts die nationalen und regionalen Diskurse je für sich und detaillierter zu untersuchen. Im Fokus der nächsten Projektphasen werden systematische Analysen zu diskursiven Kontroversen und Koalitionen stehen, um Diskursnetzwerke zwischen relevanten Akteuren zu identifizieren.Public discourse about energy policies plays a key role in the successful implementation of the Swiss energy strategy. The interdisciplinary research project Energy Discourses in Switzerland focuses on the patterns of language use related to energy policy. Patterns of language use are understood and analyzed as drivers or constraints of democratic dialogue and collective innovation in the field. This working paper outlines exemplary results of the project work in the first year of the 3-year project, including exploratory analyses of the Swiss-AL corpus and comparisons of the discourses typical of actors whose public communication is in one of the Swiss national languages or some combination of them. The influence of events such as the Fukushima Daiichi nuclear disaster on public discourse were traced by mapping the frequency of references to that event in texts. The changes over time of terms associated with energy issues also provided indications of the development of public discourses. Initial analyses of the multilingual Swiss-AL corpus indicate that the way that energy in its various forms is discussed seems to differ depending on the language of the texts. The most frequent word combinations represent concepts such as renewable, hydro, wind, solar, nuclear, and fossil-fueled energy but the order of importance differs for German, French, Italian, and English. Argumentation strategies also seem to vary not only between languages but also between multilingual and monolingual sources in the Swiss-AL corpus, suggesting that national and local discourses need to be examined separately and in more detail. The focus of the next phase of the project will be on systematically analysing discourse controversies and coalitions in order to identify discursively linked actor networks
Aktueller Stand von Prozess Mining als Methode zur UnterstĂĽtzung der Prozessautomatisierung
Prozess Mining ist eine Technologie, die Unternehmen bei der Verbesserung der Prozesse durch verschiedene Anwendungen wie Process Discovery, Conformance Checking oder Predictive Process Mining unterstützt. Prozessautomatisierung ist eine verbreitete Variante der Prozessverbesserung, da sie einen bedeutenden Wettbewerbsvorteil verspricht. Diese Studie untersucht anhand einer Literaturanalyse wie geeignet Prozess Mining für die Unterstützung der Prozessautomatisierung ist. Die Analyse bedient sich einer Systematisierung nach dem BPM-Lebenszyklus und der Level of Automation Taxonomie. Prozess Mining weist viel Potential für die Unterstützung der Automatisierung auf, aber es bleibt unklar, inwieweit dieses Potential in der Praxis umgesetzt werden kann. Die Stärken von Prozess Mining liegen im Diagnostischen Bereich, doch die Umsetzung wird kaum unterstützt. Die größten Hürden bildet hierbei die fehlende Limitation des Anwendungsbereichs von PM und das benötigte Expertenwissen für die Anwendung
Definitionen in Wörterbuch und Text
Obwohl gute Suchmaschinen heute bereits den Zugang zu Dokumenten erleichtern, bleibt
das BedĂĽrfnis nach intelligenten, zielgerichteten Suchfunktionen innerhalb von Dokumenten.
Die groĂźe Zahl der Dokumente und vor allem die rasche Zunahme und geringe
Halbwertszeit der Daten verbietet die rein manuelle Auszeichnung. Alternativ entwickeln
Computerlinguisten Methoden, die auf der Grundlage eines kleinen Ausschnitts manuell
aufbereiteter Daten Verfahren zur automatischen Extraktion implementieren.
Gegenstand der vorliegenden Dissertation ist es, den Begriff der Definition im Sinn von
Annotationsrichtlinien zu operationalisieren sowie Ressourcen und Methoden zur
automatischen Extraktion definitorischer Textsegmenten zu untersuchen. Auf der Basis eines
mit diesen Annotationsrichtlinien manuell aufbereiteten Korpus wurden Merkmale zum
AufspĂĽren und Auszeichnen von definitorischen Textsegmenten abgeleitet. Diese Merkmale
wurden in einem System implementiert, das zur automatischen Extraktion von Definitionen
eingesetzt werden und z. B. als Hilfsmittel fĂĽr die lexikographische Arbeit dienen kann.
Im Zusammenhang mit den verschiedenen Extraktionsexperimenten wurde zudem eine
Sammlung von mehr als 3.000 Textsegmenten zusammengetragen, die entsprechend der in
den Annotationsrichtlinien erarbeiteten Operationalisierung als Definitionen interpretiert und
als eigenständiges Korpus verwendet werden können.
Die verschiedenen Experimente des Dissertationsprojekts zeigen allerdings, dass es sich bei
Definitionen häufig um syntaktisch, semantisch und pragmatisch äußerst komplexe
Textsegmente handelt, die nicht nur schwer zu extrahieren, sondern vor allem schwer zu
annotieren sind. Ob also ein Textsegment von einem Rezipienten als Definition interpretiert
und genutzt wird, hängt daher von individuellen Faktoren wie der Bildung und teilweise auch
der Einstellung ab
Präsenz und Sichtbarkeit von Meeresforschungsinstituten im World Wide Web : eine Fallstudie zum Potential der Webometrie zur Untersuchung der internationalen Einbettung wissenschaftlicher Einrichtungen
Ruschenburg T. Präsenz und Sichtbarkeit von Meeresforschungsinstituten im World Wide Web : eine Fallstudie zum Potential der Webometrie zur Untersuchung der internationalen Einbettung wissenschaftlicher Einrichtungen. Bielefeld (Germany): Bielefeld University; 2010.Das World Wide Web hat in den 20 Jahren seit seiner Entstehung die Vernetzung und den Austausch von Informationen innerhalb der wissenschaftlichen Gemeinschaft enorm erleichtert. In der quantitativen Wissenschaftsforschung sowie der Informationswissenschaft wird seit Mitte der 90er Jahre darüber diskutiert, inwiefern das World Wide Web Aufschluss über die sozialen Strukturen der Wissenschaft gegeben kann. Vorbild war dabei zunächst die etablierte quantitative Methode der Wissenschaftsforschung: die Bibliometrie. Auf der Grundlage von Publikations-, Zitations- und Koautorenschaftsdaten lassen sich mit bibliometrischen Verfahren beispielsweise Erkenntnisse über den Stellenwert und die Vernetzung einzelner ForscherInnen, Gruppen, Forschungseinrichtungen oder Nationen gewinnen. In Anlehnung daran werden nun unter dem Begriff "Webometrie" Daten zur Größe von Websites und ihrer Vernetzung durch Links analysiert, um die virtuelle Präsenz und Vernetzung verschiedener wissenschaftlicher Entitäten zu bestimmen. Neben oberflächlichen Parallelen zur Bibliometrie wurden jedoch schnell auch fundamentale Unterschiede deutlich. Sie resultieren aus spezifischen Eigenschaften des World Wide Webs, das anderen Zwecken dient als Fachzeitschriften und das - anders als Publikationsdatenbanken - keine retrospektiven Untersuchungen zulässt, das kaum formal standardisiert ist und in dem eine systematische Qualitätskontrolle fehlt, wie sie in wissenschaftlichen Zeitschriften mit der Peer-Review fest verankert ist. Folglich befasst sich ein großer Teil der webometrischen Literatur mit der Entwicklung neuer Verfahren und Indikatoren sowie mit der Prüfung ihrer Aussagekraft.
Dies gilt auch für die vorliegende Dissertation, die sich mit der Frage befasst, inwiefern webometrische Verfahren dazu geeignet sind, internationale Zusammenhänge in der Wissenschaft zu untersuchen. Diese Frage ist bislang nicht systematisch betrachtet worden. Um sie beantworten zu können, wurden auf der Grundlage zweier literaturbasierter Kapitel - zur Entwicklung der Webometrie sowie zur webometrischen Untersuchung internationaler Zusammenhänge in der Wissenschaft - drei Leitfragen entwickelt:
1. Wie aussagekräftig sind Top-Level-Domains als Indikatoren der nationalen Verortung?
2. Inwieweit ähneln sich die Bilder, die webometrische und bibliometrische Indikatoren von der internationalen Einbettung von Forschungseinrichtungen zeigen?
3. Hängen Präsenz und Vernetzung wissenschaftlicher Einrichtungen im World Wide Web (bzw. im Web of Science) mit dem Entwicklungsstand ihrer Sitzländer zusammen?
Die drei Leitfragen wurden im Rahmen einer empirischen Fallstudie geklärt. Gegenstand der Fallstudie waren zehn Meeresforschungseinrichtungen in deutsch- und englischsprachigen Ländern.
Die Ergebnisse dieser Dissertation sprechen dafür, dass die Webometrie eher eine Ergänzung als ein Ersatz für die Bibliometrie darstellt. Beide befassen sich mit sehr unterschiedlichen Datenquellen, die ihre eigenen Anforderungen an die Methode stellen. Im Hinblick auf internationale Fragestellungen hat eine Limitierung in der Reichweite webometrischer Anwendungen gezeigt: Da keine zuverlässigen, automatisiert auszuwertenden Indikatoren für die nationale Zuordnung von Webseiten zur Verfügung stehen, muss die Webometrie internationale Fragestellungen weiterhin anhand ausgewählter Websites durchführen, deren nationale Verortung bekannt ist.
Darüber hinaus zeigte sich ein eher negatives Bild, was die Einbindung von Forschungseinrichtungen in Entwicklungsländern in Webstrukturen betrifft: Durch die global digital divide im Internetzugang weisen die untersuchten Meeresforschungseinrichtungen in englischsprachigen Entwicklungsländern - im Verhältnis zu ihrer personellen Größe - deutlich kleinere Websites auf als diejenigen in Deutschland und den USA. Sie sind zudem wesentlich schwächer verlinkt. Im Gegensatz dazu stellte sich heraus, dass die Publikationen der Forschungsinstitute durchgängig zu hohen Teilen im Web of Science erfasst werden. Das Einrichten und Pflegen einer Webpräsenz ist offensichtlich eine Anforderung, die Forschungseinrichtungen in Industrieländern - u.a. mit Hilfe von spezialisiertem Personal - besser bewältigen und für sich nutzen können als solche in Entwicklungsländern. Dort belastet diese zusätzliche, wissenschaftsfremde Aufgabe die ohnehin knappen Forschungsressourcen. Bisher verschärft das World Wide Web somit die bestehende Ungleichheit in der globalen Forschungslandschaft eher, als dass es sie mildert. Es ist anzunehmen, dass Forschungseinrichtungen, die nicht die Möglichkeit haben, ihre Existenz und ihre Aktivitäten im World Wide Web darzustellen, Chancen - beispielsweise auf neue Kooperationen - entgehen