1 research outputs found
Efficient Similarity Search in Structured Data
Modern database applications are characterized by two major aspects: the use of complex data types
with internal structure and the need for new data analysis methods. The focus of database users has shifted from
simple queries to complex analyses of the data, known as knowledge discovery in databases. Important
tasks in this area are the grouping of data objects (clustering), the classification of new data objects or the
detection of exceptional data objects (outlier detection). Most algorithms for solving those problems are based on
similarity search in databases. This makes efficient similarity search in large databases of structured objects
an important basic operation for modern database applications.
In this thesis we develop efficient methods for similarity search in large databases of
structured data and improve the efficiency of existing query processing techniques.
For the data objects, only a tree or graph structure is assumed which can be extended with arbitrary attribute
information.
Starting with an analysis of the demands from two example applications, several important requirements for
similarity measures are identified. One aspect is the adaptability of the similarity search method to the
requirements of the user and the application domain. This can even imply a change of the similarity measure
between two successive queries of the same user. An explanation component which makes clear why objects are considered
similar by the system is a necessary precondition for a purposeful adaption of the measure. Consequently,
the edit distance, well-known from string processing, is a common similarity measure for graph structured
objects. Its feature to allow a visualization of corresponding substructures and the possibility to weight
single operations are the reason for this popularity.
But it turns out that the edit distance and similar measures for tree structures are computationally extremely
complex which makes them unsuitable for today's large and even growing databases. Therefore, we develop a
multi-step query processing architecture which reduces the number of necessary distance calculations significantly.
This is achieved by employing suitable filter methods.
Furthermore, we show that by easing certain restrictions
on the similarity measure, a significant performance gain can be obtained without reducing the quality of the
measure. To achieve this, matchings of substructures (vertices or edges) of the data objects are determined.
An additional cost function for those matchings allows to derive a similarity measure for structured data, called
the edge matching distance, from
the cost optimal matching of the substructures. But even for this new similarity measure, efficiency can be improved
significantly by using a multi-step query processing approach. This allows the use of the edge matching distance for
knowledge discovery applications in large databases. Within the thesis, the properties of our new similarity search methods
are proved both theoretically and through experiments.Moderne Datenbankanwendungen werden vor allem durch zwei wesentliche Aspekte charakterisiert. Dies ist zum einen die
Verwendung
komplexer Datentypen mit interner Struktur und zum anderen die Notwendigkeit neuer Recherchemöglichkeiten. Der Fokus
bei der Datenbankbenutzung hat sich von einfachen Anfragen hin zu komplexen Analysen des Datenbestandes, dem
sogenannten
Knowledge-Discovery in Datenbanken, entwickelt. Wichtige Analysetechniken in diesem Bereich sind unter anderem die
Gruppierung der Daten in Teilmengen (Clustering), die Klassifikation neuer Datenobjekte im Bezug auf den vorhandenen
Datenbestand und das Erkennen von Ausreißern in den Daten (Outlier-Identifikation). Die Basis für die
meisten Verfahren
zur Lösung dieser Aufgaben bildet dabei die Bestimmung der Ähnlichkeit von Datenbankobjekten. Die effiziente
Ähnlichkeitssuche in großen Datenbanken strukturierter Objekte ist daher eine wichtige Basisoperation für moderne
Datenbankanwendungen.
In dieser Doktorarbeit werden daher effiziente Verfahren für die Ähnlichkeitssuche in großen Mengen strukturierter
Objekte entwickelt, bzw. die Effizienz vorhandener Verfahren deutlich zu verbessert. Dabei wird lediglich eine baum-
oder allgemein graphartige innere Struktur der Datenobjekte vorausgesetzt, die durch beliebige Attribute erweitert wird.
Ausgehend von einer Analyse der Anforderungen an Ähnlichkeitssuchverfahren in zwei Beispielsanwendungen aus
dem Bereich
der Bildsuche und des Proteindockings, wurden mehrere wichtige Aspekte der Ähnlichkeitssuche identifiziert. Ein erster
Aspekt ist, das Maß für die Ähnlichkeit für den Benutzer anpassbar zu gestalten, da der zugrundeliegende
Ähnlichkeitsbegriff
sowohl benutzer- als auch situationsabhängig ist, was bis hin zur Änderung des Ähnlichkeitsbegriffs zwischen zwei
aufeinanderfolgenden Anfragen gehen kann. Voraussetzung für eine zielgerichtete Anpassung des Ähnlichkeitsbegriffs
ist dabei eine Erklärungskomponente, welche dem Benutzer das Zustandekommen eines Ähnlichkeitswertes verdeutlicht.
Die aus der Stringverarbeitung bekannte Edit-Distanz ist deshalb ein weit verbreitetes Maß für die Ähnlichkeit von
graphstrukturierten Objekten, da sie eine Gewichtung einzelner Operationen erlaubt und durch eine Zuordnung von
Teilobjekten aus den zu vergleichenden Strukturen eine Erklärungskomponente liefert.
Es zeigt sich jedoch, dass die Bestimmung der Edit-Distanz und vergleichbarer Ähnlichkeitsmaße für Baum- oder
Graphstrukturen extrem zeitaufwendig ist. Es wird daher zunächst ein mehrstufiges Anfragebearbeitungsmodell entwickelt,
welches durch geeignete Filterschritte die Anzahl der notwendigen Distanzberechnungen massiv reduziert und so die
Geschwindigkeit der Anfragebearbeitung deutlich steigert bzw. erst für große Datenmengen akzeptabel macht. Im nächsten
Schritt wird aufgezeigt, wie sich durch Lockerung einiger Bedingungen für das Ähnlichkeitsmaß deutliche
Geschwindigkeitssteigerungen erreichen lassen, ohne Einbußen bezüglich der Qualität der Anfrageergebnisse
hinnehmen zu müssen. Dazu werden Paarungen von Teilstrukturen (Knoten oder Kanten) der zu vergleichenden Objekte
bestimmt, die zusätzlich mittels einer Kostenfunktion gewichtet werden. Eine bezüglich dieser Kostenfunktion optimale
Paarung aller Teilstrukturen stellt dann ein Maß für die Ähnlichkeit der Vergleichsobjekte dar, die sogenannte "edge
matching distance". Es zeigt sich jedoch,
dass auch für dieses neue Ähnlichkeitsmaß eine mehrstufige Anfragebearbeitung zusammen mit entsprechenden, neuartigen
Filtermethoden eine erhebliche Performanzsteigerung erlaubt. Diese stellt die Voraussetzung für die Anwendung der Verfahren
im Rahmen des Knowledge-Discovery in großen Datenbanken dar. Dabei werden die genannten Eigenschaften der neu
entwickelten Verfahren sowohl theoretisch als auch mittels praktischer Experimente belegt