1,055 research outputs found

    Navigation Behaviour On The Internet - A Qualitative Analysis Of Typical Search Strategies Of Users Of The German Education Server

    Get PDF
    Aufgabe von Bildungsportalen ist es, den „Normalnutzern“ den Zugang zu den gewünschten Informationen zu erleichtern. Die bisher vorliegenden empirischen Untersuchungen über das reale Suchverhalten von Internetnutzern beziehen sich im wesentlichen auf allgemeine Suchmaschinen. Ziel der vorliegenden Studie ist es, das Suchverhalten und die typischen Suchanfragen von Normalnutzern von Bildungsportalen in einer qualitativen Analyse zu untersuchen. Grundlage dafür waren Logfiles des Deutschen Bildungsservers aus dem Zeitraum Oktober 2001 bis April 2002. Diese wurden bearbeitet und zum einen auf typische Suchanfragen hin untersucht, zum anderen wurden Erkenntnisse über individuelle Suchstrategien herausgearbeitet und qualitativ analysiert. Diese Ergebnisse werden mit den Resultaten anderer empirischer Untersuchungen verglichen. Einige Schlussfolgerungen für die Weiterentwicklung von Bildungsportalen bilden den Abschluss der Untersuchung.The task of education portals is to make it easier for "normal users" to access the desired information. The empirical studies available so far on the real search behaviour of Internet users mainly refer to general search engines. The aim of the present study is to investigate the search behaviour and typical search queries of normal users of educational portals in a qualitative analysis. The basis for this were log files of the German Education Server from the period October 2001 to April 2002. These were processed and, on the one hand, examined for typical search queries and, on the other hand, insights into individual search strategies were worked out and qualitatively analysed. These results are compared with the results of other empirical studies. Some conclusions for the further development of education portals form the conclusion of the study

    Spurensuche: Nutzerverhalten auf der Site-Suche einer Hochschul-Website : Exemplarische Analyse der Suchanfragen auf der Website der ZHAW

    Get PDF
    Die Suchbegriffe, die Nutzer bei einer Site-Suche (nicht Internet-Suche wie Google etc.) eintippen, sind unbeabsichtigte, aber explizite Indizien für konkrete Informationsbedürfnisse der Nutzer und somit für die Website-Betreiber nutzbar zur Optimierung des Informationsangebots. Die vorliegende Studie analysiert als Pilotprojekt das Korpus der mit einem Nutzungsmonitor ausgewerteten Suchanfragen auf der Hochschulwebsite der ZHAW als Problem von Suchstrategie und Formulierstrategie. Dazu wird das Suchverhaltens der Nutzer auf der Site-Suche mit dem Suchverhalten auf Internet-Suchen vergleichen und die Suchanfragen bezüglich nachgefragter Themen und Anfragetypen als Grundlage für die Erfassung möglicher Informationsbedürfnisse analysiert. Der Untersuchungsgegenstand wird transdisziplinär betrachtet und Erkenntnisse aus der Informationswissenschaft (Information Retrieval, Nutzerverhalten), Kommunikationswissenschaft, Linguistik und Organisationskommunikation (Website als Kommunikations- und Marketinginstrument) verarbeitet. Die Auswertungen zeigen einen sehr hohen Anteil an Ein-Wort- Anfragen mit mehrheitlich Concrete Information Needs und zu mehrheitlich studienadministrativen Themen. Dies lässt auf einen hohen Anteil an Suchende mit Kenntnissen der Organisation schliessen. Die linguistische Analyse belegt auch, dass intuitiv und ohne Suchstrategie gesucht wird, gleichzeitig sind die Treffererwartungen von Suchenden mit Kenntnissen der Organisation aber hoch. Diese ersten Ergebnisse bestätigen, dass die retrieval-technologischen und die kommunikativen Anforderungen an eine Site-Suche eigentlich höher und komplexer sind als bei der Internet-Suche

    Vermitteln Suchmaschinen vollständige Bilder aktueller Themen? Untersuchung der Gewichtung inhaltlicher Aspekte von Suchmaschinenergebnissen in Deutschland und den USA

    Get PDF
    Objective — The goal was to identify potential search engine content bias by comparing pictures of selected current and international events, from Google and Bing across Germany and the US. Criteria were developed for (1) completeness, (2) coverage, and (3) weighting of the particular content aspects. Methods — Empirical analysis was conducted using a hybrid / cross-functional methodology taken from the social sciences (content analysis) and information science (retrieval tests). Results — Both Google and Bing (1) do not provide complete coverage in neither Germany nor the US, (2) both do not cover the three most important content aspects on the first three result positions, and (3) there do not seem to be significant differences regarding the weighting of the content aspects. However, these results are somewhat limited, due to the methodology and the evaluation. Conclusions — The findings indicate that search engine content bias indeed exists. This could have an effect on how public opinions are formed. The topic should be further analyzed, especially in the light of effort required for obtaining results of high quality

    Verteiltes Information-Retrieval für nicht-kooperative Suchserver im WWW

    Get PDF
    Ziel der Arbeit war es, neue Techniken zur Erschließung und Selektion von Web- basierten Suchservern zu entwickeln und zu evaluieren, um hieraus eine integrierte Architektur für nicht-kooperative Suchserver im WWW abzuleiten. Dabei konnte gezeigt werden, daß die im Sichtbaren Web vorhandene Informationsmenge dazu geeignet ist, um eine effektive Erschließung des Unsichtbaren Webs zu unterstützen. Existierende Strategien für verteiltes Information Retrieval setzen eine explizite Kooperation von Seiten der Suchserver voraus. Insbesondere Verfahren zur Selektion von Suchservern basieren auf der Auswertung von umfangreichen Termlisten bzw. Termhäufigkeiten, um eine Auswahl der potentiell relevantesten Suchserver zu einer gegebenen Suchanfrage vornehmen zu können (z. B. CORI [26] und GlOSS [54]). Allerdings werden derartige Informationen von realen Suchservern des WWW in der Regel nicht zu Verfügung gestellt. Die meisten Web-basierten Suchserver verhalten sich nicht kooperativ gegenüber hierauf aufsetzenden Metasuchsystemen, was die Übertragbarkeit der Selektionsverfahren auf das WWW erheblich erschwert. Außerdem erfolgt die Evaluierung der Selektionsstrategien in der Regel in Experimentumgebungen, die sich aus mehr oder weniger homogenen, künstlich partitionierten Dokumentkollektionen zusammensetzen und somit das Unsichtbare Web und dessen inhärente Heterogenität nur unzureichend simulieren. Dabei bleiben Daten unberücksichtigt, die sich aus der Einbettung von Suchservern in die Hyperlinkstruktur des WWW ergeben. So bietet z. B. die systematische Auswertung von Backlink-Seiten ­ also jener Seiten die einen Hyperlink auf die Start- oder Suchseite eines Suchservers enthalten ­ die Möglichkeit, die im WWW kollektiv geleistete Indexierungsarbeit zu nutzen, um die Erschließung von Suchservern effektiv zu unterstützen. Eine einheitliche Systematik zur Beschreibung von Suchservern Zunächst ist es notwendig alle Informationen, die über einen Suchserver erreichbar sind, in ein allgemeingültiges Beschreibungsmodell zu integrieren. Dies stellt eine Grundvorraussetzung dar, um die einheitliche Intepretierbarkeit der Daten zu gewährleisten, und somit die Vergleichbarkeit von heterogenen Suchservern und den Aufbau komplexer Metasuchsysteme zu erlauben. Ein solche Beschreibung soll auch qualitative Merkmale enthalten, aus denen sich Aussagen über die Reputation einer Ressource ableiten lassen. Existierende Beschreibungen von Suchservern bzw. Dokumentkollektionen wie STARTS-CS [53] oder RSLP-CD [93] realisieren ­ wenn überhaupt ­ nur Teilaspekte hiervon. Ein wichtiger Beitrag dieser Arbeit besteht somit in der Identifizierung und Klassifizierung von suchserverbeschreibenden Metadaten und hierauf aufbauend der Spezifikation eines als Frankfurt Core bezeichneten Metadatensatzes für web-basierte Suchserver, der die genannten Forderungen erfüllt. Der Frankfurt Core berücksichtigt Metadaten, deren Erzeugung eine explizite Kooperation von Seiten der Suchserver voraussetzt, als auch Metadaten, die sich automatisiert ­ z. B. durch linkbasierte Analyseverfahren ­ aus dem sichtbaren Teil des WWW generieren lassen. Integration von Wissensdarstellungen in Suchserver-Beschreibungen Ein wichtige Forderung an Suchserver-Beschreibungen besteht in der zusätzlichen Integration von wissens- bzw. ontologiebasierten Darstellungen. Anhand einer in Description Logic spezifizierten Taxonomie von Suchkonzepten wurde in der Arbeit exemplarisch eine Vorgehensweise aufgezeigt, wie die Integration von Wissensdarstellungen in eine Frankfurt Core Beschreibung praktisch umgesetzt werden kann. Dabei wurde eine Methode entwickelt, um unter Auswertung einer Suchkonzept-Taxonomie Anfragen an heterogene Suchschnittstellen verschiedener Suchserver zu generieren, ohne die Aussagekraft von kollektionsspezifischen Suchfeldern einzuschränken. Durch die Taxonomie wird die einheitliche Verwendung von syntaktisch und semantisch divergierenden Suchfeldern verschiedener Suchserver sowie deren einheitliche Verwendung auf der integrierten Suchschnittstelle eines Metasuchsystems sichergestellt. Damit kann diese Arbeit auch in Zusammenhang mit den Aktivitäten des Semantischen Webs betrachtet werden. Die Abstützung auf Description Logic zur Wissensrepräsentation sowie die Verwendung von RDF zur Spezifikation des Frankfurt Core verhält sich konform zu aktuellen Aktivitäten im Bereich Semantisches Web, wie beispielsweise der Ontology Inference Layer (OIL) [24]. Darüber hinaus konnte durch die Integration der Suchkonzept-Taxonomie in den Arbeitsablauf einer Metasuchmaschine, bereits eine konkrete Anwendung demonstriert werden. Entwicklung neuartiger Verfahren zur Erschließung von Suchservern Für einzelne Felder des Frankfurt Core wurden im Rahmen dieser Arbeit Strategien entwickelt, die aufzeigen, wie sich durch die systematische Auswertung von Backlink- Seiten Suchserver-beschreibende Metadaten automatisiert generieren lassen. Dabei konnte gezeigt werden, daß der Prozeß der automatisierten Erschließung von Suchservern durch die strukturelle und inhaltliche Analyse von Hyperlinks sinnvoll unterstützt werden kann. Zwar hat sich ein HITS-basiertes Clustering-Verfahren als wenig praktikabel erwiesen, um eine effiziente Erschließung von Suchservern zu unterstützen, dafür aber ein hyperlinkbasiertes Kategorisierungsverfahren. Das Verfahren erlaubt eine Zuordnung von Kategorien zu Suchservern und kommt ohne zusätzliche Volltextinformationen aus. Dabei wird das WWW als globale Wissenbasis verwendet: die Zuordnung von Kategorienbezeichnern zu Web-Ressourcen basiert ausschließlich auf der Auswertung von globalen Term- und Linkhäufigkeiten wie sie unter Verwendung einer generellen Suchmaschine ermittelt werden können. Der Grad der Ähnlichkeit zwischen einer Kategorie und einer Ressource wird durch die Häufigkeit bestimmt, mit der ein Kategoriebezeichner und ein Backlink auf die Ressource im WWW kozitiert werden. Durch eine Reihe von Experimenten konnte gezeigt werden, daß der Anteil korrekt kategorisierter Dokumente an Verfahren heranreicht, die auf Lerntechniken basieren. Das dargestellte Verfahren läßt sich leicht implementieren und ist nicht auf eine aufwendige Lernphase angewiesen, da die zu kategorisierenden Ressourcen nur durch ihren URL repräsentiert werden. Somit erscheint das Verfahren geeignet, um existierende Kategorisierungsverfahren für Web-Ressourcen zu ergänzen. Ein Verfahren zur Selektion von Suchservern Ein gewichtiges Problem, durch welches sich die Selektion von Suchservern im WWW erheblich erschwert, besteht in der Diskrepanz zwischen der freien Anfrageformulierung auf Benutzerseite und nur spärlich ausgezeichneten Suchserver-Beschreibungen auf Seiten des Metasuchsystems. Da auf der Basis der geringen Datenmenge eine Zuordnung der potentiell relevantesten Suchserver zu einer Suchanfrage kaum vorgenommen werden kann, wird oft auf zusätzliches Kontextwissen zurückgegriffen, um z. B. ein Anfragerweiterung durch verwandte Begriffe vornehmen zu können (siehe z. B. QPilot [110]). Eine solche Vorgehensweise erhöht allerdings nur die Wahrscheinlichkeit für Treffer von Anfragetermen in den Suchserver-Beschreibungen und liefert noch keine ausreichende Sicherheit. Deshalb wurde in der Arbeit ein Selektionsverfahren entwickelt, das sich auf die Auswertung von Ko-Zitierungs- und Dokumenthäufigkeiten von Termen in großen Dokumentsammlungen abstützt. Das Verfahren berechnet ein Gewicht zwischen einem Anfrageterm und einem Suchserver auf der Basis von einigen wenigen Deskriptortermen, wie sie z. B. aus der FC-Beschreibung eines Suchservers extrahiert werden können. Dies hat den Vorteil, daß die Suchbegriffe nicht explizit in den einzelnen Suchserver-Beschreibungen vorkommen müssen, um eine geeignete Selektion vornehmen zu können. Um die Anwendbarkeit des Verfahrens in einer realistischen Web-Umgebung zu demonstrieren, wurde eine geeignete Experimentumgebung von spezialisierten Suchservern aus dem WWW zusammengestellt. Durch anschließende Experimente konnte die Tauglichkeit des entwickelten Verfahrens aufgezeigt werden, indem es mit einem Verfahren verglichen wurde, das auf Probe-Anfragen basiert. Das heißt, daß eine erfolgreiche Selektion durchgeführt werden kann, ohne daß man explizit auf das Vorhandensein von lokalen Informationen angewiesen ist, die erst aufwendig durch das Versenden von Probe-Anfragen ¨uber die Web-Schnittstelle des Suchservers extrahiert werden müssten. Herleitung einer integrierten Architektur Um das Zusammenspiel der erarbeiteten Strategien und Techniken zur Erschließung, Beschreibung und Selektion in einer integrierten Architektur umzusetzen, wurde die Metasuchmaschine QUEST entwickelt und prototypisch implementiert. QUEST erweitert die Architektur einer traditionellen Metasuchmaschinenarchitektur, um Komponenten, die eine praktische Umsetzung der Konzepte und Techniken darstellen, die im Rahmen dieser Arbeit entwickelt wurden. QUEST bildet einen tragfähigen Ansatz zur Kombination von wissensbasierten Darstellungen auf der einen und eher heuristisch orientierten Methoden zur automatischen Metadatengenerierung auf der anderen Seite. Dabei stellt der Frankfurt Core das zentrale Bindeglied dar, um die einheitliche Behandlung der verfügbaren Daten zu gewährleisten

    Webbasierte linguistische Forschung: Möglichkeiten und Begrenzungen beim Umgang mit Massendaten

    Get PDF
    Over the past ten to fifteen years, web-based methods of sociological research have emerged alongside classical methods such as interviews, observations and experiments, and linguistic research is increasingly relying upon them as well. This paper provides an overview of three web-based approaches, i.e. online surveys, crowd-sourcing and web-based corpus analyses. Examples from specific projects serve to reflect upon these methods, address their potential and limitations, and make a critical appraisal. Internet-based empirical research produces vast and highly diverse quantities of (speaker-based or textual) data, presenting linguistic research with new opportunities and challenges. New procedures are required to make effective use of these resources

    The Freshness of Web search engines’ databases

    Get PDF
    This study measures the frequency in which search engines update their indices. Therefore, 38 websites that are updated on a daily basis were analysed within a time-span of six weeks. The analysed search engines were Google, Yahoo and MSN. We find that Google performs best overall with the most pages updated on a daily basis, but only MSN is able to update all pages within a time-span of less than 20 days. Both other engines have outliers that are quite older. In terms of indexing patterns, we find different approaches at the different engines: While MSN shows clear update patterns, Google shows some outliers and the update process of the Yahoo index seems to be quite chaotic. Implications are that the quality of different search engine indices varies and not only one engine should be used when searching for current content
    corecore