9 research outputs found

    Optimierung der Personalisierung im Internet durch Kollaboratives Filtern

    Get PDF
    Mit dem World Wide Web sind der Bestand und die VerfĂŒgbarkeit von Informationen rapide angewachsen. Der Einzelne hat Schwierigkeiten, der Menge an Informationen und Wissen Herr zu werden und so der InformationsĂŒberflutung zu begegnen. Dieses Problem wurde von Forschern und Technikern bereits frĂŒhzeitig erkannt und durch verschiedene Konzepte wie die intelligente Suche und die Klassifikation von Informationen zu lösen versucht. Ein weiteres Konzept ist die Personalisierung, die das bedarfsgerechte Zuschneiden von Informationen auf die BedĂŒrfnisse des einzelnen Anwenders zum Ziel hat. Diese Arbeit beschreibt dazu eine Reihe von Personalisierungstechniken und im Speziellen das Kollaborative Filtern als eine dieser Techniken. Bestehende SchwĂ€chen des Kollaborativen Filterns wie zu dĂŒnn besetzte Benutzerprofile und das mangelnde Erkennen von Änderungen im Benutzerinteresse im Verlauf der Zeit werden durch verschiedene AnsĂ€tze zu entschĂ€rfen versucht. Dazu wird eine Kombination mit Inhaltsbasierten Filtern und die Verbreiterung der Datenbasis bewerteter Ressourcen betrieben. Ziel ist die Optimierung der Personalisierung, so dass Anwender besser auf sie abgestimmte Informationen erhalten. Ein Teil der beschriebenen AnsĂ€tze wird zudem in einem prototypischen Informationssystem umgesetzt, um die Machbarkeit und den Nutzen zu prĂŒfen. Dazu werden der auf der Java 2 Enterprise Edition aufbauende WebSphere Applikationsserver von IBM und die relationale Datenbank DB2 UDB aus gleichem Hause eingesetzt.The World Wide Web led to an enormous growth of information available worldwide. Users today have difficulties managing the huge amount of data and knowledge presented by internet search engines and information portals. Scientists and technicians have investigated this problem, called information overkill, and have found solutions such as intelligent information search and classification. Personalization, another concept to reduce information overkill, tailors information to the needs of individual customers. This diploma thesis describes several technologies for personalization, all of them being wellestablished in both commercial and academic information systems. The main emphasis is put on collaborative filtering, a personalization technology that is widely used but still suffers from several weaknesses. The author discusses poorly equipped user profiles as well as poor recognition of changing user needs over time and shows different concepts to reduce the impact of these problems. The main goal is to further improve personalization efforts. Both combining collaborative and content-based filtering and broadening the available rating values are possible solutions. To prove feasibility and value selected concepts are implemented in an information system prototype that uses the IBM WebSphere Application Server based on Java 2 Enterprise Edition and the IBM DB2 UDB database

    Entwicklung eines Frameworks unter Verwendung von Kontextinformationen und kollektiver Intelligenz

    Get PDF
    Die Bedeutung von Daten, Informationen und Wissen als Faktor fĂŒr wirtschaftliches und gesellschaftliches Handeln ist enorm und wĂ€chst noch weiter an. Ihr Austausch kennzeichnet und bestimmt die Globalisierung und den digitalen Wandel weit mehr als der Austausch von Waren. Grundlage dieser Entwicklung sind in erster Linie die enormen Fortschritte der Informations- und Kommunikationstechnik, die inzwischen insbesondere die VerfĂŒgbarkeit von Daten und Informationen nahezu zu jedem Zeitpunkt und an jedem Ort ermöglichen. Allerdings fĂŒhrt die riesige, rasant weiterwachsende verfĂŒgbare Menge an Daten und Informationen zu einer Überflutung in dem Sinne, dass es immer schwieriger wird, die jeweils relevanten Daten und Informationen zu finden bzw. zu identifizieren. Insbesondere beim Einsatz von Softwaresystemen ergibt sich aber fĂŒr die Nutzer der Systeme hĂ€ufig situations‑/kontextabhĂ€ngig ein drĂ€ngender Informationsbedarf, u.a. deshalb, weil die Systeme in immer kĂŒrzeren Zyklen verĂ€ndert bzw. weiterentwickelt werden. Die entsprechende Suche nach Informationen zur Deckung des Informationsbedarfs ist jedoch hĂ€ufig zeitaufwendig und wird vielfach „suboptimal“ durchgefĂŒhrt. Michael Beul geht in seiner Arbeit der Frage nach, wie die Suche und Bereitstellung von relevanten Informationen erleichtert bzw. automatisiert durchgefĂŒhrt werden kann, um eine effektivere Nutzung von Anwendungssystemen zu ermöglichen. Er erarbeitet ein Framework, welches insbesondere mit Hilfe von Konzepten der kollektiven Intelligenz eine kontextabhĂ€ngige Echtzeit-Informationsbeschaffung fĂŒr Nutzer softwareintensiver Systeme in den verschiedenen AnwendungsdomĂ€nen ermöglicht

    Wissensbasierte Tagesrhythmenerfassung und -auswertung in ubiquitÀren Umgebungen

    Get PDF
    Ein an geregelte Tagesablaeufe angepasstes Leben erhoeht nicht nur das allgemeine Wohlbefinden, sondern wirkt proaktiv auf Gesundheit und Stresslevel. Feste Rhythmen in Aktivitaeten im Tagesverlauf bieten Menschen Sicherheit, Struktur und Orientierung im Alltag. Eine wiederholte oder permanente Missachtung dieser Rhythmen kann zu Schlafproblemen bis hin zu chronischer Depression fuehren. Personen, die ihren festen Rhythmen nachkommen, sind hingegen weniger von diesen Krankheiten betroffen. Um diese Folgen praeventiv zu vermeiden oder zu loesen, kann der eigene Tagesablauf manuell erfasst und ausgewertet werden. Dieser aufwendige Prozess erfolgt bislang nur mit wenig, automatisierter Assistenz und kann durch computergestuetzte Verfahren erleichtert werden. Dabei ist sowohl ein lueckenloser Datensatz an Aktivitaeten, als auch das Vorhandensein von moeglichst heterogener Sensorik von Bedeutung. Durch eine entsprechende automatisierte Erkennung von Tagesrhythmen kann der Tagesablauf assistiert komplettiert werden und die heterogene Sensorik macht Abweichungen in den Routinen des Nutzers deutlich. Diese Informationen werden dann zur aktiven Lebensunterstuetzung genutzt, indem Metriken aus diesen abgeleitet oder Anomalien erkannt werden. Einen moeglichen Loesungsansatz zur automatisierten Assistenz bieten dafuer sogenannte Human Activity Recognizer Algorithms (HARA) aus dem Bereich Ambient Assisted Living (AAL). Das Ziel dieser HARA ist es, auf Basis sensorischer Werte und individuellen Vergleichsmustern die aktuelle Aktivitaet eines Nutzers zu erkennen. Da diese Systeme haeufig im Bereich pflegebeduerftiger Personen eingesetzt werden, ist die Auswahl der erkannten Aktivitaeten jedoch sehr eingeschraenkt und bezieht sich im Regelfall auf nicht-erweiterbare, innerhaeusliche Aktivitaeten aus der Pflege. Darueber hinaus erfolgt bei diesen Systemen eine Auswertung unter der Voraussetzung, dass sich einzelne Tage in ihrem Ablauf nur wenig unterscheiden, was in anderen Anwendungsdomaenen zu Problemen fuehrt. Um zu einer weitergehenden Erfassung des Tagesablaufs zu kommen, muss neben der Auswertung sensorischer Werte auch weiteres Wissen einbezogen werden. Externe Wissensquellen maschinenauswertbar zu formalisieren, kombinieren und bestmoeglich auszuwerten, stellt eine Herausforderung dieser Arbeit dar, denn heterogene Datenquellen, unvollstaendige oder informationslose Daten erschweren dem HARA die Auswertung. Dazu muessen Methoden des maschinellen Lernens, semantischer Modellierung und Analyse untersucht und weiterentwickelt werden

    Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

    Get PDF
    In den vergangenen Jahren hat das neu entstandene Paradigma Infrastructure as a Service die IT-Welt massiv verĂ€ndert. Die Bereitstellung von Recheninfrastruktur durch externe Dienstleister bietet die Möglichkeit, bei Bedarf in kurzer Zeit eine große Menge von Rechenleistung, Speicherplatz und Bandbreite ohne Vorabinvestitionen zu akquirieren. Gleichzeitig steigt sowohl die Menge der frei verfĂŒgbaren als auch der in Unternehmen zu verwaltenden Daten dramatisch an. Die Notwendigkeit zur effizienten Verwaltung und Auswertung dieser Datenmengen erforderte eine Weiterentwicklung bestehender IT-Technologien und fĂŒhrte zur Entstehung neuer Forschungsgebiete und einer Vielzahl innovativer Systeme. Ein typisches Merkmal dieser Systeme ist die verteilte Speicherung und Datenverarbeitung in großen Rechnerclustern bestehend aus Standard-Hardware. Besonders das MapReduce-Programmiermodell hat in den vergangenen zehn Jahren zunehmend an Bedeutung gewonnen. Es ermöglicht eine verteilte Verarbeitung großer Datenmengen und abstrahiert von den Details des verteilten Rechnens sowie der Behandlung von Hardwarefehlern. Innerhalb dieser Dissertation steht die Nutzung des MapReduce-Konzeptes zur automatischen Parallelisierung rechenintensiver Entity Resolution-Aufgaben im Mittelpunkt. Entity Resolution ist ein wichtiger Teilbereich der Informationsintegration, dessen Ziel die Entdeckung von DatensĂ€tzen einer oder mehrerer Datenquellen ist, die dasselbe Realweltobjekt beschreiben. Im Rahmen der Dissertation werden schrittweise Verfahren prĂ€sentiert, welche verschiedene Teilprobleme der MapReduce-basierten AusfĂŒhrung von Entity Resolution-Workflows lösen. Zur Erkennung von Duplikaten vergleichen Entity Resolution-Verfahren ĂŒblicherweise Paare von DatensĂ€tzen mithilfe mehrerer Ähnlichkeitsmaße. Die Auswertung des Kartesischen Produktes von n DatensĂ€tzen fĂŒhrt dabei zu einer quadratischen KomplexitĂ€t von O(nÂČ) und ist deswegen nur fĂŒr kleine bis mittelgroße Datenquellen praktikabel. FĂŒr Datenquellen mit mehr als 100.000 DatensĂ€tzen entstehen selbst bei verteilter AusfĂŒhrung Laufzeiten von mehreren Stunden. Deswegen kommen sogenannte Blocking-Techniken zum Einsatz, die zur Reduzierung des Suchraums dienen. Die zugrundeliegende Annahme ist, dass DatensĂ€tze, die eine gewisse MindestĂ€hnlichkeit unterschreiten, nicht miteinander verglichen werden mĂŒssen. Die Arbeit stellt eine MapReduce-basierte Umsetzung der Auswertung des Kartesischen Produktes sowie einiger bekannter Blocking-Verfahren vor. Nach dem Vergleich der DatensĂ€tze erfolgt abschließend eine Klassifikation der verglichenen Kandidaten-Paare in Match beziehungsweise Non-Match. Mit einer steigenden Anzahl verwendeter Attributwerte und Ähnlichkeitsmaße ist eine manuelle Festlegung einer qualitativ hochwertigen Strategie zur Kombination der resultierenden Ähnlichkeitswerte kaum mehr handhabbar. Aus diesem Grund untersucht die Arbeit die Integration maschineller Lernverfahren in MapReduce-basierte Entity Resolution-Workflows. Eine Umsetzung von Blocking-Verfahren mit MapReduce bedingt eine Partitionierung der Menge der zu vergleichenden Paare sowie eine Zuweisung der Partitionen zu verfĂŒgbaren Prozessen. Die Zuweisung erfolgt auf Basis eines semantischen SchlĂŒssels, der entsprechend der konkreten Blocking-Strategie aus den Attributwerten der DatensĂ€tze abgeleitet ist. Beispielsweise wĂ€re es bei der Deduplizierung von ProduktdatensĂ€tzen denkbar, lediglich Produkte des gleichen Herstellers miteinander zu vergleichen. Die Bearbeitung aller DatensĂ€tze desselben SchlĂŒssels durch einen Prozess fĂŒhrt bei Datenungleichverteilung zu erheblichen Lastbalancierungsproblemen, die durch die inhĂ€rente quadratische KomplexitĂ€t verschĂ€rft werden. Dies reduziert in drastischem Maße die Laufzeiteffizienz und Skalierbarkeit der entsprechenden MapReduce-Programme, da ein Großteil der Ressourcen eines Clusters nicht ausgelastet ist, wohingegen wenige Prozesse den Großteil der Arbeit verrichten mĂŒssen. Die Bereitstellung verschiedener Verfahren zur gleichmĂ€ĂŸigen Ausnutzung der zur VerfĂŒgung stehenden Ressourcen stellt einen weiteren Schwerpunkt der Arbeit dar. Blocking-Strategien mĂŒssen stets zwischen Effizienz und DatenqualitĂ€t abwĂ€gen. Eine große Reduktion des Suchraums verspricht zwar eine signifikante Beschleunigung, fĂŒhrt jedoch dazu, dass Ă€hnliche DatensĂ€tze, z. B. aufgrund fehlerhafter Attributwerte, nicht miteinander verglichen werden. Aus diesem Grunde ist es hilfreich, fĂŒr jeden Datensatz mehrere von verschiedenen Attributen abgeleitete semantische SchlĂŒssel zu generieren. Dies fĂŒhrt jedoch dazu, dass Ă€hnliche DatensĂ€tze unnötigerweise mehrfach bezĂŒglich verschiedener SchlĂŒssel miteinander verglichen werden. Innerhalb der Arbeit werden deswegen Algorithmen zur Vermeidung solch redundanter Ähnlichkeitsberechnungen prĂ€sentiert. Als Ergebnis dieser Arbeit wird das Entity Resolution-Framework Dedoop prĂ€sentiert, welches von den entwickelten MapReduce-Algorithmen abstrahiert und eine High-Level-Spezifikation komplexer Entity Resolution-Workflows ermöglicht. Dedoop fasst alle in dieser Arbeit vorgestellten Techniken und Optimierungen in einem nutzerfreundlichen System zusammen. Der Prototyp ĂŒberfĂŒhrt nutzerdefinierte Workflows automatisch in eine Menge von MapReduce-Jobs und verwaltet deren parallele AusfĂŒhrung in MapReduce-Clustern. Durch die vollstĂ€ndige Integration der Cloud-Dienste Amazon EC2 und Amazon S3 in Dedoop sowie dessen VerfĂŒgbarmachung ist es fĂŒr Endnutzer ohne MapReduce-Kenntnisse möglich, komplexe Entity Resolution-Workflows in privaten oder dynamisch erstellten externen MapReduce-Clustern zu berechnen

    Ontologiebasierte Indexierung und Kontextualisierung multimedialer Dokumente fĂŒr das persönliche Wissensmanagement

    Get PDF
    Die Verwaltung persönlicher, multimedialer Dokumente kann mit Hilfe semantischer Technologien und Ontologien intelligent und effektiv unterstĂŒtzt werden. Dies setzt jedoch Verfahren voraus, die den grundlegenden Annotations- und Bearbeitungsaufwand fĂŒr den Anwender minimieren und dabei eine ausreichende DatenqualitĂ€t und -konsistenz sicherstellen. Im Rahmen der Dissertation wurden notwendige Mechanismen zur semi-automatischen Modellierung und Wartung semantischer Dokumentenbeschreibungen spezifiziert. Diese bildeten die Grundlage fĂŒr den Entwurf einer komponentenbasierten, anwendungsunabhĂ€ngigen Architektur als Basis fĂŒr die Entwicklung innovativer, semantikbasierter Lösungen zur persönlichen Dokumenten- und Wissensverwaltung.Personal multimedia document management benefits from Semantic Web technologies and the application of ontologies. However, an ontology-based document management system has to meet a number of challenges regarding flexibility, soundness, and controllability of the semantic data model. The first part of the dissertation proposes necessary mechanisms for the semi-automatic modeling and maintenance of semantic document descriptions. The second part introduces a component-based, application-independent architecture which forms the basis for the development of innovative, semantic-driven solutions for personal document and information management

    Zur individuell-sozialen IdentitÀtsformation junger Erwachsener: Selbstbildung und die Bedeutung der beruflichen IdentitÀt

    Get PDF
    Die IdentitĂ€tssuche junger Menschen in der SpĂ€tmoderne ist ein pĂ€dagogisches Thema von anhaltender Relevanz und Brisanz zugleich. Notwendiger Ausgangspunkt fĂŒr ein VerstĂ€ndnis und damit fĂŒr einen Zugang zur innerprozessualen IdentitĂ€tszielstruktur ist die Entwicklung eines dynamischen IdentitĂ€tsmodells. Am Beispiel einer empirischen Re-Analyse von qualitativen Interviews junger Erwachsener kristallisieren sich mit Hilfe eines spezifischen methodisch-technischen Verfahrens spĂ€tmoderne plurale IdentitĂ€tsmuster heraus, die insbesondere die hohe Bedeutung der beruflichen IdentitĂ€t betonen und konzeptionelle Schlussfolgerungen erlauben

    Grundlagen der Informationswissenschaft

    Get PDF

    Ähnlichkeitsbestimmung fĂŒr Musik Vergleiche und Kombinationen von Systemen

    No full text
    corecore