Search CORE

9 research outputs found

Optimierung der Personalisierung im Internet durch Kollaboratives Filtern

Author: Klossek Martin
Publication venue
Publication date: 01/01/2003
Field of study

Mit dem World Wide Web sind der Bestand und die Verfügbarkeit von Informationen rapide angewachsen. Der Einzelne hat Schwierigkeiten, der Menge an Informationen und Wissen Herr zu werden und so der Informationsüberflutung zu begegnen. Dieses Problem wurde von Forschern und Technikern bereits frühzeitig erkannt und durch verschiedene Konzepte wie die intelligente Suche und die Klassifikation von Informationen zu lösen versucht. Ein weiteres Konzept ist die Personalisierung, die das bedarfsgerechte Zuschneiden von Informationen auf die Bedürfnisse des einzelnen Anwenders zum Ziel hat. Diese Arbeit beschreibt dazu eine Reihe von Personalisierungstechniken und im Speziellen das Kollaborative Filtern als eine dieser Techniken. Bestehende Schwächen des Kollaborativen Filterns wie zu dünn besetzte Benutzerprofile und das mangelnde Erkennen von Änderungen im Benutzerinteresse im Verlauf der Zeit werden durch verschiedene Ansätze zu entschärfen versucht. Dazu wird eine Kombination mit Inhaltsbasierten Filtern und die Verbreiterung der Datenbasis bewerteter Ressourcen betrieben. Ziel ist die Optimierung der Personalisierung, so dass Anwender besser auf sie abgestimmte Informationen erhalten. Ein Teil der beschriebenen Ansätze wird zudem in einem prototypischen Informationssystem umgesetzt, um die Machbarkeit und den Nutzen zu prüfen. Dazu werden der auf der Java 2 Enterprise Edition aufbauende WebSphere Applikationsserver von IBM und die relationale Datenbank DB2 UDB aus gleichem Hause eingesetzt.The World Wide Web led to an enormous growth of information available worldwide. Users today have difficulties managing the huge amount of data and knowledge presented by internet search engines and information portals. Scientists and technicians have investigated this problem, called information overkill, and have found solutions such as intelligent information search and classification. Personalization, another concept to reduce information overkill, tailors information to the needs of individual customers. This diploma thesis describes several technologies for personalization, all of them being wellestablished in both commercial and academic information systems. The main emphasis is put on collaborative filtering, a personalization technology that is widely used but still suffers from several weaknesses. The author discusses poorly equipped user profiles as well as poor recognition of changing user needs over time and shows different concepts to reduce the impact of these problems. The main goal is to further improve personalization efforts. Both combining collaborative and content-based filtering and broadening the available rating values are possible solutions. To prove feasibility and value selected concepts are implemented in an information system prototype that uses the IBM WebSphere Application Server based on Java 2 Enterprise Edition and the IBM DB2 UDB database

Hochschulschriftenserver - Universität Frankfurt am Main

Entwicklung eines Frameworks unter Verwendung von Kontextinformationen und kollektiver Intelligenz

Author: Beul Michael
Publication venue
Publication date: 21/04/2017
Field of study

Die Bedeutung von Daten, Informationen und Wissen als Faktor für wirtschaftliches und gesellschaftliches Handeln ist enorm und wächst noch weiter an. Ihr Austausch kennzeichnet und bestimmt die Globalisierung und den digitalen Wandel weit mehr als der Austausch von Waren. Grundlage dieser Entwicklung sind in erster Linie die enormen Fortschritte der Informations- und Kommunikationstechnik, die inzwischen insbesondere die Verfügbarkeit von Daten und Informationen nahezu zu jedem Zeitpunkt und an jedem Ort ermöglichen. Allerdings führt die riesige, rasant weiterwachsende verfügbare Menge an Daten und Informationen zu einer Überflutung in dem Sinne, dass es immer schwieriger wird, die jeweils relevanten Daten und Informationen zu finden bzw. zu identifizieren. Insbesondere beim Einsatz von Softwaresystemen ergibt sich aber für die Nutzer der Systeme häufig situations‑/kontextabhängig ein drängender Informationsbedarf, u.a. deshalb, weil die Systeme in immer kürzeren Zyklen verändert bzw. weiterentwickelt werden. Die entsprechende Suche nach Informationen zur Deckung des Informationsbedarfs ist jedoch häufig zeitaufwendig und wird vielfach „suboptimal“ durchgeführt. Michael Beul geht in seiner Arbeit der Frage nach, wie die Suche und Bereitstellung von relevanten Informationen erleichtert bzw. automatisiert durchgeführt werden kann, um eine effektivere Nutzung von Anwendungssystemen zu ermöglichen. Er erarbeitet ein Framework, welches insbesondere mit Hilfe von Konzepten der kollektiven Intelligenz eine kontextabhängige Echtzeit-Informationsbeschaffung für Nutzer softwareintensiver Systeme in den verschiedenen Anwendungsdomänen ermöglicht

Duisburg-Essen Publications Online

Wissensbasierte Tagesrhythmenerfassung und -auswertung in ubiquitären Umgebungen

Author: Franke Martin
Publication venue
Publication date: 06/04/2016
Field of study

Ein an geregelte Tagesablaeufe angepasstes Leben erhoeht nicht nur das allgemeine Wohlbefinden, sondern wirkt proaktiv auf Gesundheit und Stresslevel. Feste Rhythmen in Aktivitaeten im Tagesverlauf bieten Menschen Sicherheit, Struktur und Orientierung im Alltag. Eine wiederholte oder permanente Missachtung dieser Rhythmen kann zu Schlafproblemen bis hin zu chronischer Depression fuehren. Personen, die ihren festen Rhythmen nachkommen, sind hingegen weniger von diesen Krankheiten betroffen. Um diese Folgen praeventiv zu vermeiden oder zu loesen, kann der eigene Tagesablauf manuell erfasst und ausgewertet werden. Dieser aufwendige Prozess erfolgt bislang nur mit wenig, automatisierter Assistenz und kann durch computergestuetzte Verfahren erleichtert werden. Dabei ist sowohl ein lueckenloser Datensatz an Aktivitaeten, als auch das Vorhandensein von moeglichst heterogener Sensorik von Bedeutung. Durch eine entsprechende automatisierte Erkennung von Tagesrhythmen kann der Tagesablauf assistiert komplettiert werden und die heterogene Sensorik macht Abweichungen in den Routinen des Nutzers deutlich. Diese Informationen werden dann zur aktiven Lebensunterstuetzung genutzt, indem Metriken aus diesen abgeleitet oder Anomalien erkannt werden. Einen moeglichen Loesungsansatz zur automatisierten Assistenz bieten dafuer sogenannte Human Activity Recognizer Algorithms (HARA) aus dem Bereich Ambient Assisted Living (AAL). Das Ziel dieser HARA ist es, auf Basis sensorischer Werte und individuellen Vergleichsmustern die aktuelle Aktivitaet eines Nutzers zu erkennen. Da diese Systeme haeufig im Bereich pflegebeduerftiger Personen eingesetzt werden, ist die Auswahl der erkannten Aktivitaeten jedoch sehr eingeschraenkt und bezieht sich im Regelfall auf nicht-erweiterbare, innerhaeusliche Aktivitaeten aus der Pflege. Darueber hinaus erfolgt bei diesen Systemen eine Auswertung unter der Voraussetzung, dass sich einzelne Tage in ihrem Ablauf nur wenig unterscheiden, was in anderen Anwendungsdomaenen zu Problemen fuehrt. Um zu einer weitergehenden Erfassung des Tagesablaufs zu kommen, muss neben der Auswertung sensorischer Werte auch weiteres Wissen einbezogen werden. Externe Wissensquellen maschinenauswertbar zu formalisieren, kombinieren und bestmoeglich auszuwerten, stellt eine Herausforderung dieser Arbeit dar, denn heterogene Datenquellen, unvollstaendige oder informationslose Daten erschweren dem HARA die Auswertung. Dazu muessen Methoden des maschinellen Lernens, semantischer Modellierung und Analyse untersucht und weiterentwickelt werden

Technische Universität Dresden: Qucosa

Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

Author: Kolb Lars
Publication venue
Publication date: 08/12/2014
Field of study

In den vergangenen Jahren hat das neu entstandene Paradigma Infrastructure as a Service die IT-Welt massiv verändert. Die Bereitstellung von Recheninfrastruktur durch externe Dienstleister bietet die Möglichkeit, bei Bedarf in kurzer Zeit eine große Menge von Rechenleistung, Speicherplatz und Bandbreite ohne Vorabinvestitionen zu akquirieren. Gleichzeitig steigt sowohl die Menge der frei verfügbaren als auch der in Unternehmen zu verwaltenden Daten dramatisch an. Die Notwendigkeit zur effizienten Verwaltung und Auswertung dieser Datenmengen erforderte eine Weiterentwicklung bestehender IT-Technologien und führte zur Entstehung neuer Forschungsgebiete und einer Vielzahl innovativer Systeme. Ein typisches Merkmal dieser Systeme ist die verteilte Speicherung und Datenverarbeitung in großen Rechnerclustern bestehend aus Standard-Hardware. Besonders das MapReduce-Programmiermodell hat in den vergangenen zehn Jahren zunehmend an Bedeutung gewonnen. Es ermöglicht eine verteilte Verarbeitung großer Datenmengen und abstrahiert von den Details des verteilten Rechnens sowie der Behandlung von Hardwarefehlern. Innerhalb dieser Dissertation steht die Nutzung des MapReduce-Konzeptes zur automatischen Parallelisierung rechenintensiver Entity Resolution-Aufgaben im Mittelpunkt. Entity Resolution ist ein wichtiger Teilbereich der Informationsintegration, dessen Ziel die Entdeckung von Datensätzen einer oder mehrerer Datenquellen ist, die dasselbe Realweltobjekt beschreiben. Im Rahmen der Dissertation werden schrittweise Verfahren präsentiert, welche verschiedene Teilprobleme der MapReduce-basierten Ausführung von Entity Resolution-Workflows lösen. Zur Erkennung von Duplikaten vergleichen Entity Resolution-Verfahren üblicherweise Paare von Datensätzen mithilfe mehrerer Ähnlichkeitsmaße. Die Auswertung des Kartesischen Produktes von n Datensätzen führt dabei zu einer quadratischen Komplexität von O(n²) und ist deswegen nur für kleine bis mittelgroße Datenquellen praktikabel. Für Datenquellen mit mehr als 100.000 Datensätzen entstehen selbst bei verteilter Ausführung Laufzeiten von mehreren Stunden. Deswegen kommen sogenannte Blocking-Techniken zum Einsatz, die zur Reduzierung des Suchraums dienen. Die zugrundeliegende Annahme ist, dass Datensätze, die eine gewisse Mindestähnlichkeit unterschreiten, nicht miteinander verglichen werden müssen. Die Arbeit stellt eine MapReduce-basierte Umsetzung der Auswertung des Kartesischen Produktes sowie einiger bekannter Blocking-Verfahren vor. Nach dem Vergleich der Datensätze erfolgt abschließend eine Klassifikation der verglichenen Kandidaten-Paare in Match beziehungsweise Non-Match. Mit einer steigenden Anzahl verwendeter Attributwerte und Ähnlichkeitsmaße ist eine manuelle Festlegung einer qualitativ hochwertigen Strategie zur Kombination der resultierenden Ähnlichkeitswerte kaum mehr handhabbar. Aus diesem Grund untersucht die Arbeit die Integration maschineller Lernverfahren in MapReduce-basierte Entity Resolution-Workflows. Eine Umsetzung von Blocking-Verfahren mit MapReduce bedingt eine Partitionierung der Menge der zu vergleichenden Paare sowie eine Zuweisung der Partitionen zu verfügbaren Prozessen. Die Zuweisung erfolgt auf Basis eines semantischen Schlüssels, der entsprechend der konkreten Blocking-Strategie aus den Attributwerten der Datensätze abgeleitet ist. Beispielsweise wäre es bei der Deduplizierung von Produktdatensätzen denkbar, lediglich Produkte des gleichen Herstellers miteinander zu vergleichen. Die Bearbeitung aller Datensätze desselben Schlüssels durch einen Prozess führt bei Datenungleichverteilung zu erheblichen Lastbalancierungsproblemen, die durch die inhärente quadratische Komplexität verschärft werden. Dies reduziert in drastischem Maße die Laufzeiteffizienz und Skalierbarkeit der entsprechenden MapReduce-Programme, da ein Großteil der Ressourcen eines Clusters nicht ausgelastet ist, wohingegen wenige Prozesse den Großteil der Arbeit verrichten müssen. Die Bereitstellung verschiedener Verfahren zur gleichmäßigen Ausnutzung der zur Verfügung stehenden Ressourcen stellt einen weiteren Schwerpunkt der Arbeit dar. Blocking-Strategien müssen stets zwischen Effizienz und Datenqualität abwägen. Eine große Reduktion des Suchraums verspricht zwar eine signifikante Beschleunigung, führt jedoch dazu, dass ähnliche Datensätze, z. B. aufgrund fehlerhafter Attributwerte, nicht miteinander verglichen werden. Aus diesem Grunde ist es hilfreich, für jeden Datensatz mehrere von verschiedenen Attributen abgeleitete semantische Schlüssel zu generieren. Dies führt jedoch dazu, dass ähnliche Datensätze unnötigerweise mehrfach bezüglich verschiedener Schlüssel miteinander verglichen werden. Innerhalb der Arbeit werden deswegen Algorithmen zur Vermeidung solch redundanter Ähnlichkeitsberechnungen präsentiert. Als Ergebnis dieser Arbeit wird das Entity Resolution-Framework Dedoop präsentiert, welches von den entwickelten MapReduce-Algorithmen abstrahiert und eine High-Level-Spezifikation komplexer Entity Resolution-Workflows ermöglicht. Dedoop fasst alle in dieser Arbeit vorgestellten Techniken und Optimierungen in einem nutzerfreundlichen System zusammen. Der Prototyp überführt nutzerdefinierte Workflows automatisch in eine Menge von MapReduce-Jobs und verwaltet deren parallele Ausführung in MapReduce-Clustern. Durch die vollständige Integration der Cloud-Dienste Amazon EC2 und Amazon S3 in Dedoop sowie dessen Verfügbarmachung ist es für Endnutzer ohne MapReduce-Kenntnisse möglich, komplexe Entity Resolution-Workflows in privaten oder dynamisch erstellten externen MapReduce-Clustern zu berechnen

Qucosa - Publikationsserver der Universität Leipzig

Ontologiebasierte Indexierung und Kontextualisierung multimedialer Dokumente für das persönliche Wissensmanagement

Author: Mitschick Annett
Publication venue
Publication date: 26/02/2010
Field of study

Die Verwaltung persönlicher, multimedialer Dokumente kann mit Hilfe semantischer Technologien und Ontologien intelligent und effektiv unterstützt werden. Dies setzt jedoch Verfahren voraus, die den grundlegenden Annotations- und Bearbeitungsaufwand für den Anwender minimieren und dabei eine ausreichende Datenqualität und -konsistenz sicherstellen. Im Rahmen der Dissertation wurden notwendige Mechanismen zur semi-automatischen Modellierung und Wartung semantischer Dokumentenbeschreibungen spezifiziert. Diese bildeten die Grundlage für den Entwurf einer komponentenbasierten, anwendungsunabhängigen Architektur als Basis für die Entwicklung innovativer, semantikbasierter Lösungen zur persönlichen Dokumenten- und Wissensverwaltung.Personal multimedia document management benefits from Semantic Web technologies and the application of ontologies. However, an ontology-based document management system has to meet a number of challenges regarding flexibility, soundness, and controllability of the semantic data model. The first part of the dissertation proposes necessary mechanisms for the semi-automatic modeling and maintenance of semantic document descriptions. The second part introduces a component-based, application-independent architecture which forms the basis for the development of innovative, semantic-driven solutions for personal document and information management

Technische Universität Dresden: Qucosa

Zur individuell-sozialen Identitätsformation junger Erwachsener: Selbstbildung und die Bedeutung der beruflichen Identität

Author: Never Peggy (gnd: 140193960)
Publication venue: Universität Rostock Rostock
Publication date
Field of study

Die Identitätssuche junger Menschen in der Spätmoderne ist ein pädagogisches Thema von anhaltender Relevanz und Brisanz zugleich. Notwendiger Ausgangspunkt für ein Verständnis und damit für einen Zugang zur innerprozessualen Identitätszielstruktur ist die Entwicklung eines dynamischen Identitätsmodells. Am Beispiel einer empirischen Re-Analyse von qualitativen Interviews junger Erwachsener kristallisieren sich mit Hilfe eines spezifischen methodisch-technischen Verfahrens spätmoderne plurale Identitätsmuster heraus, die insbesondere die hohe Bedeutung der beruflichen Identität betonen und konzeptionelle Schlussfolgerungen erlauben

Rostocker Dokumentenserver