Search CORE

22 research outputs found

Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

Author: Kolb Lars
Publication venue
Publication date: 08/12/2014
Field of study

In den vergangenen Jahren hat das neu entstandene Paradigma Infrastructure as a Service die IT-Welt massiv verändert. Die Bereitstellung von Recheninfrastruktur durch externe Dienstleister bietet die Möglichkeit, bei Bedarf in kurzer Zeit eine große Menge von Rechenleistung, Speicherplatz und Bandbreite ohne Vorabinvestitionen zu akquirieren. Gleichzeitig steigt sowohl die Menge der frei verfügbaren als auch der in Unternehmen zu verwaltenden Daten dramatisch an. Die Notwendigkeit zur effizienten Verwaltung und Auswertung dieser Datenmengen erforderte eine Weiterentwicklung bestehender IT-Technologien und führte zur Entstehung neuer Forschungsgebiete und einer Vielzahl innovativer Systeme. Ein typisches Merkmal dieser Systeme ist die verteilte Speicherung und Datenverarbeitung in großen Rechnerclustern bestehend aus Standard-Hardware. Besonders das MapReduce-Programmiermodell hat in den vergangenen zehn Jahren zunehmend an Bedeutung gewonnen. Es ermöglicht eine verteilte Verarbeitung großer Datenmengen und abstrahiert von den Details des verteilten Rechnens sowie der Behandlung von Hardwarefehlern. Innerhalb dieser Dissertation steht die Nutzung des MapReduce-Konzeptes zur automatischen Parallelisierung rechenintensiver Entity Resolution-Aufgaben im Mittelpunkt. Entity Resolution ist ein wichtiger Teilbereich der Informationsintegration, dessen Ziel die Entdeckung von Datensätzen einer oder mehrerer Datenquellen ist, die dasselbe Realweltobjekt beschreiben. Im Rahmen der Dissertation werden schrittweise Verfahren präsentiert, welche verschiedene Teilprobleme der MapReduce-basierten Ausführung von Entity Resolution-Workflows lösen. Zur Erkennung von Duplikaten vergleichen Entity Resolution-Verfahren üblicherweise Paare von Datensätzen mithilfe mehrerer Ähnlichkeitsmaße. Die Auswertung des Kartesischen Produktes von n Datensätzen führt dabei zu einer quadratischen Komplexität von O(n²) und ist deswegen nur für kleine bis mittelgroße Datenquellen praktikabel. Für Datenquellen mit mehr als 100.000 Datensätzen entstehen selbst bei verteilter Ausführung Laufzeiten von mehreren Stunden. Deswegen kommen sogenannte Blocking-Techniken zum Einsatz, die zur Reduzierung des Suchraums dienen. Die zugrundeliegende Annahme ist, dass Datensätze, die eine gewisse Mindestähnlichkeit unterschreiten, nicht miteinander verglichen werden müssen. Die Arbeit stellt eine MapReduce-basierte Umsetzung der Auswertung des Kartesischen Produktes sowie einiger bekannter Blocking-Verfahren vor. Nach dem Vergleich der Datensätze erfolgt abschließend eine Klassifikation der verglichenen Kandidaten-Paare in Match beziehungsweise Non-Match. Mit einer steigenden Anzahl verwendeter Attributwerte und Ähnlichkeitsmaße ist eine manuelle Festlegung einer qualitativ hochwertigen Strategie zur Kombination der resultierenden Ähnlichkeitswerte kaum mehr handhabbar. Aus diesem Grund untersucht die Arbeit die Integration maschineller Lernverfahren in MapReduce-basierte Entity Resolution-Workflows. Eine Umsetzung von Blocking-Verfahren mit MapReduce bedingt eine Partitionierung der Menge der zu vergleichenden Paare sowie eine Zuweisung der Partitionen zu verfügbaren Prozessen. Die Zuweisung erfolgt auf Basis eines semantischen Schlüssels, der entsprechend der konkreten Blocking-Strategie aus den Attributwerten der Datensätze abgeleitet ist. Beispielsweise wäre es bei der Deduplizierung von Produktdatensätzen denkbar, lediglich Produkte des gleichen Herstellers miteinander zu vergleichen. Die Bearbeitung aller Datensätze desselben Schlüssels durch einen Prozess führt bei Datenungleichverteilung zu erheblichen Lastbalancierungsproblemen, die durch die inhärente quadratische Komplexität verschärft werden. Dies reduziert in drastischem Maße die Laufzeiteffizienz und Skalierbarkeit der entsprechenden MapReduce-Programme, da ein Großteil der Ressourcen eines Clusters nicht ausgelastet ist, wohingegen wenige Prozesse den Großteil der Arbeit verrichten müssen. Die Bereitstellung verschiedener Verfahren zur gleichmäßigen Ausnutzung der zur Verfügung stehenden Ressourcen stellt einen weiteren Schwerpunkt der Arbeit dar. Blocking-Strategien müssen stets zwischen Effizienz und Datenqualität abwägen. Eine große Reduktion des Suchraums verspricht zwar eine signifikante Beschleunigung, führt jedoch dazu, dass ähnliche Datensätze, z. B. aufgrund fehlerhafter Attributwerte, nicht miteinander verglichen werden. Aus diesem Grunde ist es hilfreich, für jeden Datensatz mehrere von verschiedenen Attributen abgeleitete semantische Schlüssel zu generieren. Dies führt jedoch dazu, dass ähnliche Datensätze unnötigerweise mehrfach bezüglich verschiedener Schlüssel miteinander verglichen werden. Innerhalb der Arbeit werden deswegen Algorithmen zur Vermeidung solch redundanter Ähnlichkeitsberechnungen präsentiert. Als Ergebnis dieser Arbeit wird das Entity Resolution-Framework Dedoop präsentiert, welches von den entwickelten MapReduce-Algorithmen abstrahiert und eine High-Level-Spezifikation komplexer Entity Resolution-Workflows ermöglicht. Dedoop fasst alle in dieser Arbeit vorgestellten Techniken und Optimierungen in einem nutzerfreundlichen System zusammen. Der Prototyp überführt nutzerdefinierte Workflows automatisch in eine Menge von MapReduce-Jobs und verwaltet deren parallele Ausführung in MapReduce-Clustern. Durch die vollständige Integration der Cloud-Dienste Amazon EC2 und Amazon S3 in Dedoop sowie dessen Verfügbarmachung ist es für Endnutzer ohne MapReduce-Kenntnisse möglich, komplexe Entity Resolution-Workflows in privaten oder dynamisch erstellten externen MapReduce-Clustern zu berechnen

Qucosa - Publikationsserver der Universität Leipzig

Szenen- und Objektmodellierung für Serviceroboter

Author: Kasper Alexander
Publication venue: KIT-Bibliothek, Karlsruhe
Publication date: 01/01/2013
Field of study

Ein Serviceroboter benötigt für die Perzeption und Manipulation der Umwelt Modellwissen. Die Erzeugung geeigneter Repräsentationen von Alltagsgegenständen auf Basis von Sensordaten und automatisierter Nachbearbeitung ist Gegenstand der Arbeit

KITopen

Digital Intelligence – Möglichkeiten und Umsetzung einer informatikgestützten Frühaufklärung: Digital Intelligence – opportunities and implementation of a data-driven foresight

Author: Walde Peter
Publication venue
Publication date: 15/12/2010
Field of study

Das Ziel der Digital Intelligence bzw. datengetriebenen Strategischen Frühaufklärung ist, die Zukunftsgestaltung auf Basis valider und fundierter digitaler Information mit vergleichsweise geringem Aufwand und enormer Zeit- und Kostenersparnis zu unterstützen. Hilfe bieten innovative Technologien der (halb)automatischen Sprach- und Datenverarbeitung wie z. B. das Information Retrieval, das (Temporal) Data, Text und Web Mining, die Informationsvisualisierung, konzeptuelle Strukturen sowie die Informetrie. Sie ermöglichen, Schlüsselthemen und latente Zusammenhänge aus einer nicht überschaubaren, verteilten und inhomogenen Datenmenge wie z. B. Patenten, wissenschaftlichen Publikationen, Pressedokumenten oder Webinhalten rechzeitig zu erkennen und schnell und zielgerichtet bereitzustellen. Die Digital Intelligence macht somit intuitiv erahnte Muster und Entwicklungen explizit und messbar. Die vorliegende Forschungsarbeit soll zum einen die Möglichkeiten der Informatik zur datengetriebenen Frühaufklärung aufzeigen und zum zweiten diese im pragmatischen Kontext umsetzen. Ihren Ausgangspunkt findet sie in der Einführung in die Disziplin der Strategischen Frühaufklärung und ihren datengetriebenen Zweig – die Digital Intelligence. Diskutiert und klassifiziert werden die theoretischen und insbesondere informatikbezogenen Grundlagen der Frühaufklärung – vor allem die Möglichkeiten der zeitorientierten Datenexploration. Konzipiert und entwickelt werden verschiedene Methoden und Software-Werkzeuge, die die zeitorientierte Exploration insbesondere unstrukturierter Textdaten (Temporal Text Mining) unterstützen. Dabei werden nur Verfahren in Betracht gezogen, die sich im Kontext einer großen Institution und den spezifischen Anforderungen der Strategischen Frühaufklärung pragmatisch nutzen lassen. Hervorzuheben sind eine Plattform zur kollektiven Suche sowie ein innovatives Verfahren zur Identifikation schwacher Signale. Vorgestellt und diskutiert wird eine Dienstleistung der Digital Intelligence, die auf dieser Basis in einem globalen technologieorientierten Konzern erfolgreich umgesetzt wurde und eine systematische Wettbewerbs-, Markt- und Technologie-Analyse auf Basis digitaler Spuren des Menschen ermöglicht.:Kurzzusammenfassung 2 Danksagung 3 Inhaltsverzeichnis 5 Tabellenverzeichnis 9 Abbildungsverzeichnis 10 A – EINLEITUNG 13 1 Hintergrund und Motivation 13 2 Beitrag und Aufbau der Arbeit 16 B – THEORIE 20 B0 – Digital Intelligence 20 3 Herleitung und Definition der Digital Intelligence 21 4 Abgrenzung zur Business Intelligence 23 5 Übersicht über unterschiedliche Textsorten 24 6 Informetrie: Bibliometrie, Szientometrie, Webometrie 29 7 Informationssysteme im Kontext der Digital Intelligence 31 B1 – Betriebswirtschaftliche Grundlagen der Digital Intelligence 36 8 Strategische Frühaufklärung 37 8.1 Facetten und historische Entwicklung 37 8.2 Methoden 41 8.3 Prozess 42 8.4 Bestimmung wiederkehrender Termini 44 8.5 Grundlagen der Innovations- und Diffusionsforschung 49 B2 – Informatik-Grundlagen der Digital Intelligence 57 9 Von Zeit, Daten, Text, Metadaten zu multidimensionalen zeitorientierten (Text)Daten 59 9.1 Zeit – eine Begriffsbestimmung 59 9.1.1 Zeitliche Grundelemente und Operatoren 59 9.1.2 Lineare, zyklische und verzweigte Entwicklungen 62 9.1.3 Zeitliche (Un)Bestimmtheit 62 9.1.4 Zeitliche Granularität 63 9.2 Text 63 9.2.1 Der Text und seine sprachlich-textuellen Ebenen 63 9.2.2 Von Signalen und Daten zu Information und Wissen 65 9.3 Daten 65 9.3.1 Herkunft 65 9.3.2 Datengröße 66 9.3.3 Datentyp und Wertebereich 66 9.3.4 Datenstruktur 67 9.3.5 Dimensionalität 68 9.4 Metadaten 69 9.5 Zusammenfassung und multidimensionale zeitorientierte Daten 70 10 Zeitorientierte Datenexplorationsmethoden 73 10.1 Zeitorientierte Datenbankabfragen und OLAP 76 10.2 Zeitorientiertes Information Retrieval 78 10.3 Data Mining und Temporal Data Mining 79 10.3.1 Repräsentationen zeitorientierter Daten 81 10.3.2 Aufgaben des Temporal Data Mining 86 10.4 Text Mining und Temporal Text Mining 91 10.4.1 Grundlagen des Text Mining 98 10.4.2 Entwickelte, genutzte und lizensierte Anwendungen des Text Mining 107 10.4.3 Formen des Temporal Text Mining 110 10.4.3.1 Entdeckung kausaler und zeitorientierter Regeln 110 10.4.3.2 Identifikation von Abweichungen und Volatilität 111 10.4.3.3 Identifikation und zeitorientierte Organisation von Themen 112 10.4.3.4 Zeitorientierte Analyse auf Basis konzeptueller Strukturen 116 10.4.3.5 Zeitorientierte Analyse von Frequenz, Vernetzung und Hierarchien 117 10.4.3.6 Halbautomatische Identifikation von Trends 121 10.4.3.7 Umgang mit dynamisch aktualisierten Daten 123 10.5 Web Mining und Temporal Web Mining 124 10.5.1 Web Content Mining 125 10.5.2 Web Structure Mining 126 10.5.3 Web Usage Mining 127 10.5.4 Temporal Web Mining 127 10.6 Informationsvisualisierung 128 10.6.1 Visualisierungstechniken 130 10.6.1.1 Visualisierungstechniken nach Datentypen 130 10.6.1.2 Visualisierungstechniken nach Darstellungsart 132 10.6.1.3 Visualisierungstechniken nach Art der Interaktion 137 10.6.1.4 Visualisierungstechniken nach Art der visuellen Aufgabe 139 10.6.1.5 Visualisierungstechniken nach Visualisierungsprozess 139 10.6.2 Zeitorientierte Visualisierungstechniken 140 10.6.2.1 Statische Repräsentationen 141 10.6.2.2 Dynamische Repräsentationen 145 10.6.2.3 Ereignisbasierte Repräsentationen 147 10.7 Zusammenfassung 152 11 Konzeptuelle Strukturen 154 12 Synopsis für die zeitorientierte Datenexploration 163 C – UMSETZUNG EINES DIGITAL-INTELLIGENCESYSTEMS 166 13 Bestimmung textbasierter Indikatoren 167 14 Anforderungen an ein Digital-Intelligence-System 171 15 Beschreibung der Umsetzung eines Digital-Intelligence-Systems 174 15.1 Konzept einer Dienstleistung der Digital Intelligence 175 15.1.1 Portalnutzung 177 15.1.2 Steckbriefe 178 15.1.3 Tiefenanalysen 180 15.1.4 Technologiescanning 185 15.2 Relevante Daten für die Digital Intelligence (Beispiel) 187 15.3 Frühaufklärungs-Plattform 188 15.4 WCTAnalyze und automatische Extraktion themenspezifischer Ereignisse 197 15.5 SemanticTalk 200 15.6 Halbautomatische Identifikation von Trends 204 15.6.1 Zeitreihenkorrelation 205 15.6.2 HD-SOM-Scanning 207 D – ZUSAMMENFASSUNG 217 Anhang A: Prozessbilder entwickelter Anwendungen des (Temporal) Text Mining 223 Anhang B: Synopsis der zeitorientierten Datenexploration 230 Literaturverzeichnis 231 Selbstständigkeitserklärung 285 Wissenschaftlicher Werdegang des Autors 286 Veröffentlichungen 28

Qucosa - Publikationsserver der Universität Leipzig

Energiediskurse in der Schweiz : anwendungsorientierte Erforschung eines mehrsprachigen Kommunikationsfelds mittels digitaler Daten

Author: Dreesen Philipp
Ehrensberger-Dow Maureen
Stücheli-Herlach Peter
Publication venue: ZHAW Zürcher Hochschule für Angewandte Wissenschaften
Publication date: 01/01/2018
Field of study

Öffentliche Diskurse über Energiepolitik spielen eine entscheidende Rolle, wenn es darum geht, die «Energiestrategie 2050» der Schweizer Regierung erfolgreich umzusetzen. Das interdisziplinäre Forschungsprojekt «Energiediskurse in der Schweiz» untersucht Muster des öffentlichen Sprachgebrauchs zum Thema. Solche Muster bilden die Grundlage für das öffentliche Verständnis der Themen und Kontroversen im demokratischen Dialog und in der vernetzten Innovation. Das vorliegende «Working Paper» präsentiert das dreijährige Projekt in seinen theoretischen und methodischen Grundzügen ebenso wie ausgewählte Ergebnisse des ersten Projektjahrs. Dazu gehören der Aufbau und die Annotation des digitalen Swiss-AL-Textkorpus ebenso wie Vergleiche zwischen dem Sprachgebrauch in den drei Landessprachen Deutsch, Französisch und Italienisch. So kann beispielsweise der Einfluss von Ereignissen wie der Nuklearkatastrophe in Fukushima Daiichi nachgezeichnet werden, in dem die Hinweise auf das Ereignis über die Jahre hinweg gemessen werden. Zudem gibt es erste Hinweise und Belege dafür, dass die verschiedenen Sprachen den öffentlichen Diskurs über Energiefragen auch unterschiedlich gestalten. Bestimmte Wortkombinationen stehen für Konzepte wie «erneuerbare», «Wind-», «Solar-», «Nuklear-» oder «fossile» Energien, wobei diese Konzepte in den verschiedenen Sprachen unterschiedlich gewichtet sind. Argumentationsstrategien beispielsweise in Bezug auf die «erneuerbaren Energien» scheinen sich ebenfalls zu unterscheiden, so dass es angezeigt ist, in der Fortsetzung des Projekts die nationalen und regionalen Diskurse je für sich und detaillierter zu untersuchen. Im Fokus der nächsten Projektphasen werden systematische Analysen zu diskursiven Kontroversen und Koalitionen stehen, um Diskursnetzwerke zwischen relevanten Akteuren zu identifizieren.Public discourse about energy policies plays a key role in the successful implementation of the Swiss energy strategy. The interdisciplinary research project Energy Discourses in Switzerland focuses on the patterns of language use related to energy policy. Patterns of language use are understood and analyzed as drivers or constraints of democratic dialogue and collective innovation in the field. This working paper outlines exemplary results of the project work in the first year of the 3-year project, including exploratory analyses of the Swiss-AL corpus and comparisons of the discourses typical of actors whose public communication is in one of the Swiss national languages or some combination of them. The influence of events such as the Fukushima Daiichi nuclear disaster on public discourse were traced by mapping the frequency of references to that event in texts. The changes over time of terms associated with energy issues also provided indications of the development of public discourses. Initial analyses of the multilingual Swiss-AL corpus indicate that the way that energy in its various forms is discussed seems to differ depending on the language of the texts. The most frequent word combinations represent concepts such as renewable, hydro, wind, solar, nuclear, and fossil-fueled energy but the order of importance differs for German, French, Italian, and English. Argumentation strategies also seem to vary not only between languages but also between multilingual and monolingual sources in the Swiss-AL corpus, suggesting that national and local discourses need to be examined separately and in more detail. The focus of the next phase of the project will be on systematically analysing discourse controversies and coalitions in order to identify discursively linked actor networks

ZHAW digitalcollection

AIFB Jahresbericht 09/10. Institut für Angewandte Informatik und Formale Beschreibungsverfahren, Karlsruher Institut für Technologie KIT

Author: Oberweis A.
Schmeck H.
Seese D.
Stude R.
Tai S.
Publication venue: Karlsruher Institut für Technologie
Publication date: 01/01/2010
Field of study

KITopen

Aktueller Stand von Prozess Mining als Methode zur Unterstützung der Prozessautomatisierung

Author: Ackfeld Jill Ann
Publication venue
Publication date: 01/01/2023
Field of study

Prozess Mining ist eine Technologie, die Unternehmen bei der Verbesserung der Prozesse durch verschiedene Anwendungen wie Process Discovery, Conformance Checking oder Predictive Process Mining unterstützt. Prozessautomatisierung ist eine verbreitete Variante der Prozessverbesserung, da sie einen bedeutenden Wettbewerbsvorteil verspricht. Diese Studie untersucht anhand einer Literaturanalyse wie geeignet Prozess Mining für die Unterstützung der Prozessautomatisierung ist. Die Analyse bedient sich einer Systematisierung nach dem BPM-Lebenszyklus und der Level of Automation Taxonomie. Prozess Mining weist viel Potential für die Unterstützung der Automatisierung auf, aber es bleibt unklar, inwieweit dieses Potential in der Praxis umgesetzt werden kann. Die Stärken von Prozess Mining liegen im Diagnostischen Bereich, doch die Umsetzung wird kaum unterstützt. Die größten Hürden bildet hierbei die fehlende Limitation des Anwendungsbereichs von PM und das benötigte Expertenwissen für die Anwendung

Digitale Bibliothek Thüringen

AIFB Jahresbericht 10/11. Institut für Angewandte Informatik und Formale Beschreibungsverfahren, Karlsruher Institut für Technologie KIT

Author: Oberweis Andreas
Schmeck Hartmut
Seese Detlef
Stude Rudi
Tai Stefan
Publication venue: Karlsruher Institut für Technologie
Publication date: 01/01/2011
Field of study

KITopen

Definitionen in Wörterbuch und Text

Author: Cramer Irene
Publication venue
Publication date
Field of study

Obwohl gute Suchmaschinen heute bereits den Zugang zu Dokumenten erleichtern, bleibt das Bedürfnis nach intelligenten, zielgerichteten Suchfunktionen innerhalb von Dokumenten. Die große Zahl der Dokumente und vor allem die rasche Zunahme und geringe Halbwertszeit der Daten verbietet die rein manuelle Auszeichnung. Alternativ entwickeln Computerlinguisten Methoden, die auf der Grundlage eines kleinen Ausschnitts manuell aufbereiteter Daten Verfahren zur automatischen Extraktion implementieren. Gegenstand der vorliegenden Dissertation ist es, den Begriff der Definition im Sinn von Annotationsrichtlinien zu operationalisieren sowie Ressourcen und Methoden zur automatischen Extraktion definitorischer Textsegmenten zu untersuchen. Auf der Basis eines mit diesen Annotationsrichtlinien manuell aufbereiteten Korpus wurden Merkmale zum Aufspüren und Auszeichnen von definitorischen Textsegmenten abgeleitet. Diese Merkmale wurden in einem System implementiert, das zur automatischen Extraktion von Definitionen eingesetzt werden und z. B. als Hilfsmittel für die lexikographische Arbeit dienen kann. Im Zusammenhang mit den verschiedenen Extraktionsexperimenten wurde zudem eine Sammlung von mehr als 3.000 Textsegmenten zusammengetragen, die entsprechend der in den Annotationsrichtlinien erarbeiteten Operationalisierung als Definitionen interpretiert und als eigenständiges Korpus verwendet werden können. Die verschiedenen Experimente des Dissertationsprojekts zeigen allerdings, dass es sich bei Definitionen häufig um syntaktisch, semantisch und pragmatisch äußerst komplexe Textsegmente handelt, die nicht nur schwer zu extrahieren, sondern vor allem schwer zu annotieren sind. Ob also ein Textsegment von einem Rezipienten als Definition interpretiert und genutzt wird, hängt daher von individuellen Faktoren wie der Bildung und teilweise auch der Einstellung ab

Eldorado - Ressourcen aus und für Lehre, Studium und Forschung

Präsenz und Sichtbarkeit von Meeresforschungsinstituten im World Wide Web : eine Fallstudie zum Potential der Webometrie zur Untersuchung der internationalen Einbettung wissenschaftlicher Einrichtungen

Author: Ruschenburg Tina
Publication venue: Bielefeld University
Publication date: 01/01/2010
Field of study

Ruschenburg T. Präsenz und Sichtbarkeit von Meeresforschungsinstituten im World Wide Web : eine Fallstudie zum Potential der Webometrie zur Untersuchung der internationalen Einbettung wissenschaftlicher Einrichtungen. Bielefeld (Germany): Bielefeld University; 2010.Das World Wide Web hat in den 20 Jahren seit seiner Entstehung die Vernetzung und den Austausch von Informationen innerhalb der wissenschaftlichen Gemeinschaft enorm erleichtert. In der quantitativen Wissenschaftsforschung sowie der Informationswissenschaft wird seit Mitte der 90er Jahre darüber diskutiert, inwiefern das World Wide Web Aufschluss über die sozialen Strukturen der Wissenschaft gegeben kann. Vorbild war dabei zunächst die etablierte quantitative Methode der Wissenschaftsforschung: die Bibliometrie. Auf der Grundlage von Publikations-, Zitations- und Koautorenschaftsdaten lassen sich mit bibliometrischen Verfahren beispielsweise Erkenntnisse über den Stellenwert und die Vernetzung einzelner ForscherInnen, Gruppen, Forschungseinrichtungen oder Nationen gewinnen. In Anlehnung daran werden nun unter dem Begriff "Webometrie" Daten zur Größe von Websites und ihrer Vernetzung durch Links analysiert, um die virtuelle Präsenz und Vernetzung verschiedener wissenschaftlicher Entitäten zu bestimmen. Neben oberflächlichen Parallelen zur Bibliometrie wurden jedoch schnell auch fundamentale Unterschiede deutlich. Sie resultieren aus spezifischen Eigenschaften des World Wide Webs, das anderen Zwecken dient als Fachzeitschriften und das - anders als Publikationsdatenbanken - keine retrospektiven Untersuchungen zulässt, das kaum formal standardisiert ist und in dem eine systematische Qualitätskontrolle fehlt, wie sie in wissenschaftlichen Zeitschriften mit der Peer-Review fest verankert ist. Folglich befasst sich ein großer Teil der webometrischen Literatur mit der Entwicklung neuer Verfahren und Indikatoren sowie mit der Prüfung ihrer Aussagekraft. Dies gilt auch für die vorliegende Dissertation, die sich mit der Frage befasst, inwiefern webometrische Verfahren dazu geeignet sind, internationale Zusammenhänge in der Wissenschaft zu untersuchen. Diese Frage ist bislang nicht systematisch betrachtet worden. Um sie beantworten zu können, wurden auf der Grundlage zweier literaturbasierter Kapitel - zur Entwicklung der Webometrie sowie zur webometrischen Untersuchung internationaler Zusammenhänge in der Wissenschaft - drei Leitfragen entwickelt: 1. Wie aussagekräftig sind Top-Level-Domains als Indikatoren der nationalen Verortung? 2. Inwieweit ähneln sich die Bilder, die webometrische und bibliometrische Indikatoren von der internationalen Einbettung von Forschungseinrichtungen zeigen? 3. Hängen Präsenz und Vernetzung wissenschaftlicher Einrichtungen im World Wide Web (bzw. im Web of Science) mit dem Entwicklungsstand ihrer Sitzländer zusammen? Die drei Leitfragen wurden im Rahmen einer empirischen Fallstudie geklärt. Gegenstand der Fallstudie waren zehn Meeresforschungseinrichtungen in deutsch- und englischsprachigen Ländern. Die Ergebnisse dieser Dissertation sprechen dafür, dass die Webometrie eher eine Ergänzung als ein Ersatz für die Bibliometrie darstellt. Beide befassen sich mit sehr unterschiedlichen Datenquellen, die ihre eigenen Anforderungen an die Methode stellen. Im Hinblick auf internationale Fragestellungen hat eine Limitierung in der Reichweite webometrischer Anwendungen gezeigt: Da keine zuverlässigen, automatisiert auszuwertenden Indikatoren für die nationale Zuordnung von Webseiten zur Verfügung stehen, muss die Webometrie internationale Fragestellungen weiterhin anhand ausgewählter Websites durchführen, deren nationale Verortung bekannt ist. Darüber hinaus zeigte sich ein eher negatives Bild, was die Einbindung von Forschungseinrichtungen in Entwicklungsländern in Webstrukturen betrifft: Durch die global digital divide im Internetzugang weisen die untersuchten Meeresforschungseinrichtungen in englischsprachigen Entwicklungsländern - im Verhältnis zu ihrer personellen Größe - deutlich kleinere Websites auf als diejenigen in Deutschland und den USA. Sie sind zudem wesentlich schwächer verlinkt. Im Gegensatz dazu stellte sich heraus, dass die Publikationen der Forschungsinstitute durchgängig zu hohen Teilen im Web of Science erfasst werden. Das Einrichten und Pflegen einer Webpräsenz ist offensichtlich eine Anforderung, die Forschungseinrichtungen in Industrieländern - u.a. mit Hilfe von spezialisiertem Personal - besser bewältigen und für sich nutzen können als solche in Entwicklungsländern. Dort belastet diese zusätzliche, wissenschaftsfremde Aufgabe die ohnehin knappen Forschungsressourcen. Bisher verschärft das World Wide Web somit die bestehende Ungleichheit in der globalen Forschungslandschaft eher, als dass es sie mildert. Es ist anzunehmen, dass Forschungseinrichtungen, die nicht die Möglichkeit haben, ihre Existenz und ihre Aktivitäten im World Wide Web darzustellen, Chancen - beispielsweise auf neue Kooperationen - entgehen

Publications at Bielefeld University

Beiträge zu Business Intelligence und IT-Compliance

Author: Kehlenbeck Matthias
Publication venue: Hannover : Gottfried Wilhelm Leibniz Universität Hannover
Publication date: 01/01/2011
Field of study

[no abstract

Institutionelles Repositorium der Leibniz Universität Hannover