40 research outputs found

    Intelligente Bildersuche durch den Einsatz inhaltsbasierter Techniken

    Get PDF
    Käster T. Intelligente Bildersuche durch den Einsatz inhaltsbasierter Techniken. Bielefeld (Germany): Bielefeld University; 2005.Heutzutage spielt die einfache Verwaltung großer Bestände von digitalen Bildern in vielen Anwendungsbereichen eine wichtige Rolle. Werbeleute, Journalisten und Designer benötigen den schnellen Zugang zu umfangreichen Bildkatalogen, um Werbungen, Artikel und Entwürfe durch entsprechende Bilder oder Bildelemente visuell hervorzuheben. Aber nicht nur im industriellen Bereich besteht die Anforderung einer organisierten Datenhaltung. Durch die Fortschritte in der Entwicklung elektronischer Geräte, wie z.B. digitale Fotokameras oder Scanner, nimmt die Menge an digitalen Bildern in privaten Haushalten tagtäglich zu. Anwender dieser Geräte werden zunehmend vor die Aufgabe gestellt, die zahlreichen Bilder strukturiert zu verwalten, um einfach in der gespeicherten Bildmenge navigieren zu können. Seit den 70er Jahren haben sich textbasierte Bilddatenbanksysteme zur Verwaltung digitaler Bilder etabliert. Ihre Grundlage bildet die aufwändige manuelle Erfassung von Bildinhalten; die sogenannte Verschlagwortung. Obwohl textbasierte Bilddatenbanksysteme einen einfachen semantischen Zugang zu einer Menge von digitalen Bildern bieten, erfordern die verschiedenen Nachteile dieses Ansatzes, dass innovative Bildsuchsysteme entwickelt werden. Nachteile eines textbasierten Systems sind beispielsweise die subjektive Prägung der Verschlagwortung sowie der mangelnde visuelle Zugang zur gespeicherten Datenmenge. Motiviert durch die Probleme verschlagworteter Systeme wurde seit Anfang der 90er Jahre verstärkt die Entwicklung sogenannter inhaltsbasierter Bildsuchsysteme vorangetrieben. Die rein inhaltsbasierte Bildersuche verzichtet auf die Verwendung von textuellen Annotationen und versucht einzig und allein auf der Grundlage visueller Bildmerkmale, die für eine Anfrage relevanten Bilder der Datenbank zu finden. Da die inhaltsbasierte Bildersuche eine vielversprechende Alternative zur verschlagworteten Bildersuche darstellt, wurde sich in dieser Arbeit ausführlich mit diesem Thema beschäftigt. Den Mittelpunkt bildet dabei das im Rahmen eines BMB+F Verbundprojekts entwickelte Bildsuchsystem INDI. Das Ziel der vorliegenden Arbeit war die Entwicklung der für das INDI System benötigten inhaltsbasierten Suchmechanismen, sodass ein Anwender auf der Grundlage automatisch extrahierter Bildinhalte in der gespeicherten Bildmenge navigieren kann. Entsprechend den Eigenschaften moderner Bildsuchsysteme sollte das zu entwickelnde System dabei lernfähig sein und sich innerhalb des Suchprozesses an einen Anwender adaptieren können. Dazu wurde ein Suchverfahren entwickelt, das aus verschiedenen Komponenten besteht, die eine Adaption an die Suchintention eines Benutzers ermöglichen. Da in dem Entwurf unterschiedliche Aspekte und Ansätze berücksichtigt wurden, war es Ziel einer ausführlichen Evaluation, die Systemkonfiguration zu bestimmen, mit der das INDI System am leistungsfähigsten ist. Um in dieser Arbeit auch der Fragestellung nachgehen zu können, inwieweit das Suchverfahren und adaptive Techniken im Allgemeinen skalierbar sind, wurde außerdem ein Verfahren zur Einschränkung des Suchraumes entwickelt. Ausgehend von der multidimensionalen Indizierung des gespeicherten Datenbestandes können somit auch für umfangreiche Bildmengen kurze Systemantwortzeiten erzielt werden

    Computergestützte Inhaltsanalyse von digitalen Videoarchiven

    Full text link
    Der Übergang von analogen zu digitalen Videos hat in den letzten Jahren zu großen Veränderungen innerhalb der Filmarchive geführt. Insbesondere durch die Digitalisierung der Filme ergeben sich neue Möglichkeiten für die Archive. Eine Abnutzung oder Alterung der Filmrollen ist ausgeschlossen, so dass die Qualität unverändert erhalten bleibt. Zudem wird ein netzbasierter und somit deutlich einfacherer Zugriff auf die Videos in den Archiven möglich. Zusätzliche Dienste stehen den Archivaren und Anwendern zur Verfügung, die erweiterte Suchmöglichkeiten bereitstellen und die Navigation bei der Wiedergabe erleichtern. Die Suche innerhalb der Videoarchive erfolgt mit Hilfe von Metadaten, die weitere Informationen über die Videos zur Verfügung stellen. Ein großer Teil der Metadaten wird manuell von Archivaren eingegeben, was mit einem großen Zeitaufwand und hohen Kosten verbunden ist. Durch die computergestützte Analyse eines digitalen Videos ist es möglich, den Aufwand bei der Erzeugung von Metadaten für Videoarchive zu reduzieren. Im ersten Teil dieser Dissertation werden neue Verfahren vorgestellt, um wichtige semantische Inhalte der Videos zu erkennen. Insbesondere werden neu entwickelte Algorithmen zur Erkennung von Schnitten, der Analyse der Kamerabewegung, der Segmentierung und Klassifikation von Objekten, der Texterkennung und der Gesichtserkennung vorgestellt. Die automatisch ermittelten semantischen Informationen sind sehr wertvoll, da sie die Arbeit mit digitalen Videoarchiven erleichtern. Die Informationen unterstützen nicht nur die Suche in den Archiven, sondern führen auch zur Entwicklung neuer Anwendungen, die im zweiten Teil der Dissertation vorgestellt werden. Beispielsweise können computergenerierte Zusammenfassungen von Videos erzeugt oder Videos automatisch an die Eigenschaften eines Abspielgerätes angepasst werden. Ein weiterer Schwerpunkt dieser Dissertation liegt in der Analyse historischer Filme. Vier europäische Filmarchive haben eine große Anzahl historischer Videodokumentationen zur Verfügung gestellt, welche Anfang bis Mitte des letzten Jahrhunderts gedreht und in den letzten Jahren digitalisiert wurden. Durch die Lagerung und Abnutzung der Filmrollen über mehrere Jahrzehnte sind viele Videos stark verrauscht und enthalten deutlich sichtbare Bildfehler. Die Bildqualität der historischen Schwarz-Weiß-Filme unterscheidet sich signifikant von der Qualität aktueller Videos, so dass eine verlässliche Analyse mit bestehenden Verfahren häufig nicht möglich ist. Im Rahmen dieser Dissertation werden neue Algorithmen vorgestellt, um eine zuverlässige Erkennung von semantischen Inhalten auch in historischen Videos zu ermöglichen

    Ein modulares optisches Trackingsystem für medizintechnische Anwendungen: integrierte Datenflussarchitektur in Hard- und Software und Applikationsframework

    Get PDF
    Die vorliegende Arbeit beschreibt die Entwicklung eines modularen optischen Trackingsystems, ausgerichtet auf die speziellen Anforderungen im medizintechnischen Umfeld. Das Spektrum der vorgestellten Anwendungen des Systems reicht dabei von der Erfassung der Benutzerinteraktion in verschiedenen medizinischen Simulatoren (z.B. für Ophthalmochirurgie, Ophthalmoskopie und Neurochirurgie) bis hin zur Positionserfassung eines handgehaltenen Operationsroboters. Im Unterschied zu verfügbaren kommerziellen Trackingsystemem mit ihren eng umrissenen Anwendungsbereichen wird ein universell ausgelegtes Baukastensystem vorgestellt, das sich mit geringem Entwicklungsaufwand an die speziellen Anforderungen der jeweiligen Anwendungen anpassen lässt (so u.a. sehr kleine Geometrien, deformierbare Objekte, Einsatz von Originalinstrumenten, geringe Ressourcenverfügbarkeit im Simulator-PC). Zu diesem Zweck wird ein modulares Systemkonzept entwickelt, welches von der spezialisierten Datenverarbeitung gängiger Trackingsysteme abstrahiert und auf einer generalisierten, modularen Systemarchitektur für den Einsatz aller Arten von Markern mit drei Freiheitsgraden aufbaut. Neben den verbreiteten infrarotbasierten Signaliserungstechniken werden dabei auch passive Farbmarker zur Objektsignalisierung unterstützt. Die Implementierung von Bildverarbeitungsaufgaben in spezialisierter Hardware (FPGAs) direkt auf dem Kameradatenstrom ermöglicht eine frühzeitige Datenreduktion und damit niedrige Latenzzeiten. Der Entwicklungsprozess für neuartige Trackinglösungen wird vereinfacht durch die enge Integration der Hard- und Softwaremodule in einer einheitlichen durchgängigen Datenflussarchitektur, die flexibel an die jeweilige Aufgabenstellung anpassbar ist. Ein erweiterbares graphisches Frontend schließlich unterstützt bei Betrieb und Konfiguration und erlaubt auch die Simulation ganzer Systeme während der Entwicklung

    Videobasierte Wahrnehmung markierter Kreuzungen mit lokalem Markierungstest und Bayes\u27scher Modellierung

    Get PDF
    Im Rahmen der Arbeit werden Fahrstreifen durch eine Verkettung von Segmenten modelliert. Ein Beobachtungsmodell verknüpft die Bildsignalinhalte mit den Hypothesen. Eine Bayes\u27sche zeitliche Verfolgung stellt die Berücksichtigung des zeitlichen Zusammenhangs sicher. Für die Umsetzung des Beobachtungsmodells wird ein Testverfahren entwickelt, das einen gegebenen Bildbereich auf die Präsenz einer Markierung hin untersucht

    Ansichtsbasierte 6 DoF Objekterkennung mit lokalen kovarianten Regionen

    Get PDF
    Diese Arbeit präsentiert einen neuen Ansatz zur Detektion und Lokalisation von Objekten, welcher die lokale Deformation korrespondierender, kovarianter Regionen nutzt, um die 6 Freiheitsgrade (DoF) einer Starrkörpertransformation zwischen einer Menge registrierter Modell- und Kameraansichten zu schätzen. Dazu werden Algorithmen entworfen, die es erlauben, aus jeder einzelnen Regionenkorrespondenz eine unabhängige 6 DoF Lagehypothese abzuleiten, falls die Oberflächennormale und Tiefe eines Regionenzentrums bekannt ist. Cluster dieser lokalen Hypothesen werden als grobe Lokalisierung und robuste Segmentierung bzw. Ausreißereliminierung für eine nachfolgende globale Lageerkennung genutzt. Dieses Vorgehen erlaubt eine integrierte Verarbeitung aller vorhandener Modell- und Kameraansichten und erlaubt die Fusion unterschiedlicher kovarianter Regionentypen, inkl. Regionen auf Basis von Tiefenbildern. Die nachfolgende Auswertung ermittelt die 6 DoF Objektlage, welche am besten den 2D-3D oder 3D-3D Korrespondenzen der Regionenzentren innerhalb eines Clusters entspricht. Die Kombination von lokaler und globaler Auswertung erlaubt selbst bei starken Beleuchtungsstörungen, großen Blickwinkeländerungen, Verdeckungen, Mehrdeutigkeiten und komplexen Szenen eine akkurate und robuste Lokalisation. Dies wurde anhand 6 Bauteilen und ausführlichen Experimenten verifiziert, wobei Genauigkeiten der Lage unter 1mm und 1° erreicht werden konnten. Nahezu alle Algorithmen sind fein granular parallelisierbar und ermöglichen daher eine Auswertezeit auf moderner Hardware unter 0.4s. Das Einlernen eines Objektmodells erfolgt mit Hilfe eines Industrieroboters und einer darauf montierten Stereokamera vollständig autonom

    Jahresbericht 2009 / Institut für Angewandte Informatik (KIT Scientific Reports ; 7554)

    Get PDF
    Das Institut für Angewandte Informatik (IAI) ist eine Organisationseinheit der Forschungszentrum Karlsruhe GmbH (seit 01.Oktober 2009 Karlsruher Institut für Technologie "KIT", Campus Nord), die ihrerseits Mitglied der Hermann von Helmholtz-Gemeinschaft Deutscher Forschungszentren e. V. ist. Das Institut betreibt Forschung und Entwicklung auf dem Gebiet innovativer, anwendungsorientierter Informations-, Automatisierungs- und Systemtechnik

    Rekonstruktion und Verarbeitung von Objekten und Szenen aus Kamerabildern

    Get PDF
    In Computerspielen, Animationsfilmen und anderen interaktiven Rendering-Applikationen werden für gewöhnlich 3D-Modelle verarbeitet. Die Modelle entsprechen dabei meistens einem realen Vorbild, welches mithilfe eines Laserscanners abgetastet wurde. Da moderne Laserscanner teuer und unhandlich sind, werden Alternativen benötigt, mit denen virtuelle Abbilder kostengünstig und effizient erzeugt werden können. Neben den Methoden zur Rekonstruktion dreidimensionaler Objekte sind Verfahren erforderlich, mit deren Hilfe die 3D-Modelle modifiziert werden können. In diesem Kontext spielt die Multiskalen-Modellierung (engl. multi resolution modeling) bei der Durchführung des Editiervorgangs in Echtzeit eine wichtige Rolle, um zum Beispiel komplexe Bewegungsabläufe simulieren zu können. Diese Dissertation beschäftigt sich mit den Möglichkeiten zur Rekonstruktion von Objekten und Szenen aus Kamerabildern und präsentiert neue Techniken, mit denen ein als Polygonnetz vorliegendes 3D-Modell editiert werden kann. Für die 3D-Rekonstruktion werden reziproke Bildpaare verwendet, auf deren Grundlage die Korrespondenzen zwischen den einzelnen Bildpunkten aufgedeckt und eine Tiefenanalyse vollzogen wird. Die daraus resultierenden Tiefenwerte werden in einer Tiefenkarte (engl. depth map) gespeichert, aus denen letztlich ein dreidimensionales Dreiecksnetz generiert werden kann. Während der Umsetzung des Verfahrens wurde großer Wert auf die Parallelisierung der einzelnen Berechnungsschritte gelegt. In Bezug auf die Modellierung von 3D-Modellen wurde zunächst ein hoch-qualitativer, paralleler Simplifizierungsalgorithmus entworfen, der in der Lage ist, in Echtzeit mehrere zu einem 3D-Objekt gehörende Detailstufen zu erzeugen. Auf Basis des Simplifizierungsverfahrens wurde schließlich ein parallel auf der Grafikkarte ausführbares Programm zur Multiskalen-Modellierung realisiert, mit welchem die Möglichkeit geschaffen wurde ein Modell auf verschiedenen Detailstufen zu editieren und die vorgenommenen Modifikationen über die erstellten Detailstufen hinweg in Echtzeit und unter Berücksichtigung der bestehenden Oberflächendetails zu verarbeiten. Die für das Editieren notwendige Datenstruktur wird dabei während der Simplifizierungsphase parallel auf der Grafikkarte innerhalb weniger Sekunden erzeugt
    corecore