8 research outputs found

    Surgical video retrieval using deep neural networks

    Get PDF
    Although the amount of raw surgical videos, namely videos captured during surgical interventions, is growing fast, automatic retrieval and search remains a challenge. This is mainly due to the nature of the content, i.e. visually non-consistent tissue, diversity of internal organs, abrupt viewpoint changes and illumination variation. We propose a framework for retrieving surgical videos and a protocol for evaluating the results. The method is composed of temporal shot segmentation and representation based on deep features, and the protocol introduces novel criteria to the field. The experimental results prove the superiority of the proposed method and highlight the path towards a more effective protocol for evaluating surgical videos

    A systemic approach to automatic metadata extraction from multimedia content

    Get PDF
    There is a need for automatic processing and extracting of meaningful metadata from multimedia information, especially in the audiovisual industry. This higher level information is used in a variety of practices, such as enriching multimedia content with external links, clickable objects and useful related information in general. This paper presents a system for efficient multimedia content analysis and automatic annotation within a multimedia processing and publishing framework. This system is comprised of three modules: the first provides detection of faces and recognition of known persons; the second provides generic object detection, based on a deep convolutional neural network topology; the third provides automated location estimation and landmark recognition based on state-of-the-art technologies. The results are exported in meaningful metadata that can be utilized in various ways. The system has been successfully tested in the framework of the EC Horizon 2020 Mecanex project, targeting advertising and production markets

    a-shapes for local feature detection

    Get PDF
    Local image features are routinely used in state-of-the-art methods to solve many computer vision problems like image retrieval, classification, or 3D registration. As the applications become more complex, the research for better visual features is still active. In this paper we present a feature detector that exploits the inherent geometry of sampled image edges using α-shapes. We propose a novel edge sampling scheme that exploits local shape and investigate different triangulations of sampled points. We also introduce a novel approach to represent the anisotropy in a triangulation along with different feature selection methods. Our detector provides a small number of distinctive features that is ideal for large scale applications, while achieving competitive performance in a series of matching and retrieval experiments

    Local feature detection for visual information retrieval

    No full text
    Low-level image analysis offers an intermediate image representation that is used by high-level computer vision algorithms (e.g. object detection and recognition, image and video retrieval, image matching). Local features extracted as regions of interest, or spatio-temporal interest points extracted from videos, combined with local descriptors, as well as global descriptors, offer a compact representation of visual information. Despite the fact that many local feature detectors have been proposed recently, this field of research is still open to new methods, as new and more complex application fields are introduced. Lately, the interest of the computer vision community has focused on deep neural networks, based on recent results in image classification tasks.We propose an new local feature detector, based on geometric constructions. In particular, we propose using α-shapes to describe the shape of a set of points sampled on an image. Given the point set, α-shapes describe image objects in different scales and with different level of detail.For image sampling, we propose two different approaches: sampling on image edges and sampling using error diffusion. For sampling image edges, we propose a method that exploits the local affine shape in order to adapt sampling density, as well as a baseline method that uses fixed density sampling. We also propose sampling using error diffusion on two different functions of image intensity. The first one is based on first-order derivatives of image intensity (gradient strength), while the second one is based on second-order derivatives (Hessian response).We use different triangulations of the samples and different α-shapes, and propose the anisotropically weighted α-shapes that exploit the local shape of each simplex of the triangulation. For selecting regions of interest, we propose different importance measures for the connected components of α-shapes. We qualitatively and quantitatively evaluate the proposed local feature extraction algorithm, under all proposed variations for each algorithm step. Our detector extracts a relatively small number of features from image regions that correspond to highly repeatable object parts. Its performance exceeds the state-of-the-art in most cases.We also propose an efficient method for describing video clips, using deep neural networks.We segment videos in shots, using a novel method that exploits a global “objectness” measure.For describing video frames, we exploit neural networks feature maps, and then aggregate the responses to create a single descriptor for the video shot. We evaluate the proposed method on a surgical video retrieval experiment, where other methods based on local features are outperformed.Η ανάλυση εικόνων και βίντεο βασίζεται στην ανάπτυξη τεχνικών που εξάγουν οπτικά χαρακτηριστικά και δημιουργούν ενδιάμεσες αναπαραστάσεις, για την επίλυση της ανίχνευσης και αναγνώρισης αντικειμένων, της αναζήτησης και ανάκτησης εικόνων και άλλων σύνθετων προβλημάτων. Η εξαγωγή τοπικών χαρακτηριστικών για τον εντοπισμό περιοχών ενδιαφέροντος σε στατικές εικόνες και χωρο-χρονικών σημείων ενδιαφέροντος σε ακολουθίες εικόνων (βίντεο), καθώς και η περιγραφή με τοπικούς ή καθολικούς περιγραφείς, δημιουργούν συμπαγείς αναπαραστάσεις της οπτικής πληροφορίας και χρησιμοποιούνται σήμερα ευρύτατα στην περιοχή της όρασης υπολογιστών. Παρά το γεγονός ότι τα τελευταία χρόνια έχουν προταθεί πολλοί αλγόριθμοι εξαγωγής τοπικών χαρακτηριστικών, το πεδίο έρευνας είναι ανοιχτό στην ανάπτυξη και χρησιμοποίηση νέων μεθόδων που μπορούν να παράγουν αποτελεσματικές αναπαραστάσεις και καλύτερες αποδόσεις. Επίσης, η ραγδαία ανάπτυξη και οι πολύ καλές αποδόσεις βαθιών αρχιτεκτονικών νευρωνικών δικτύων τα τελευταία χρόνια οδήγησε σε ακόμη πιο αποδοτικές εφαρμογές των περιγραφέων σε εικόνες και βίντεο.Στην παρούσα διατριβή περιγράφονται νέοι αλγόριθμοι εξαγωγής τοπικών χαρακτηριστικών για στατικές εικόνες, οι οποίοι βασίζονται σε γεωμετρικές ιδιότητες των εικόνων. Συγκεκριμένα, χρησιμοποιούνται τα α-σχήματα για την περιγραφή ενός συνόλου σημείων που εξάγονται από την εικόνα. Δεδομένου του συνόλου σημείων, τα α-σχήματα περιγράφουν αντικείμενα της εικόνας σε διάφορες κλίμακες και με διαφορετικό βαθμό λεπτομέρειας. Για την δειγματοληψία σημείων της εικόνας προτείνονται κατ' αρχήν δύο οικογένειες μεθόδων: δειγματοληψία επί ακμών και δειγματοληψία με διάχυση σφάλματος. Για τη δειγματοληψία επί ακμών, πέρα από μια βασική προσέγγιση ομοιόμορφης δειγματοληψίας που εξάγει δείγματα με σταθερή πυκνότητα, προτείνεται μια μέθοδος ανομοιόμορφης δειγματοληψίας που με εξαγωγή τοπικού αφινικού σχήματος μεταβάλει τοπικά την πυκνότητα δειγματοληψίας. Για τη δειγματοληψία με διάχυση σφάλματος προτείνονται δύο διαφορετικές προσεγγίσεις με χρήση συνεχών συναρτήσεων της φωτεινότητας της εικόνας. Η πρώτη βασίζεται στη χρήση πρώτων παραγώγων της φωτεινότητας (μέτρο κλίσης), ενώ η δεύτερη στη χρήση δεύτερων παραγώγων (απόκριση Hessian).Στο πλαίσιο της ανάπτυξης του προτεινόμενου ανιχνευτή WαSH, εξετάζεται η χρήση διαφορετικών τριγωνοποιήσεων και α-σχημάτων και προτείνονται ανισοτροπικά σταθμισμένα α-σχήματα που εκμεταλλεύονται το τοπικό σχήμα της κάθε περιοχής της τριγωνοποίησης. Για την επιλογή περιοχών ενδιαφέροντος, παρουσιάζονται νέα μέτρα αξιολόγησης των διαφορετικών συνεκτικών συνιστωσών των α-σχημάτων. Ο αλγόριθμος εξαγωγής τοπικών χαρακτηριστικών αξιολογείται ποιοτικά και ποσοτικά, εξετάζοντας όλες τις προτεινόμενες παραλλαγές σε κάθε βήμα του αλγορίθμου. Ο προτεινόμενος ανιχνευτής εξάγει συγκριτικά μικρό αριθμό χαρακτηριστικών από περιοχές της εικόνας που αντιστοιχούν σε τμήματα αντικειμένων που επαναλαμβάνονται συχνά. Η απόδοσή του συγκρίνεται με αυτή των μεθόδων της αιχμής της τεχνολογίας, ξεπερνώντας τις στις περισσότερες περιπτώσεις.Στη συνέχεια της διατριβής, προτείνουμε έναν αλγόριθμο εξαγωγής εύρωστων αναπαραστάσεων από ακολουθίες εικόνων (βίντεο), με χρήση βαθιών νευρωνικών δικτύων. Αρχικά γίνεται κατάτμηση των βίντεο σε πλάνα, με μια νέα μέθοδο που βασίζεται σε αλγορίθμους πρότασης περιοχών που έχουν αυξημένη πιθανότητα να περιλαμβάνουν αντικείμενα. Εξάγουμε ένα καθολικό μέτρο της πιθανότητας εμφάνισης αντικειμένων σε καρέ βίντεο, και σηματοδοτούμε την αλλαγή πλάνου στα καρέ που εμφανίζεται μεγάλη διακύμανση του εξεταζόμενου μέτρου. Ο αλγόριθμος χρησιμοποιεί τους χάρτες χαρακτηριστικών που εξάγονται από βαθιά νευρωνικά δίκτυα που έχουν χρησιμοποιηθεί για αναγνώριση αντικειμένων σε εικόνες για την περιγραφή των καρέ. Έπειτα εξάγεται ένας καθολικός και συμπαγής περιγραφέας για όλο το πλάνο, συναθροίζοντας τις μέγιστες αποκρίσεις των περιγραφέων. Η επίδοση του αλγορίθμου αποτιμάται σε ένα πείραμα ανάκτησης ιατρικών βίντεο, όπου επιτυγχάνεται βελτίωση της απόδοσης έναντι μεθόδων που χρησιμοποιούν τοπικά χαρακτηριστικά

    Compound document analysis by fusing evidence across media

    No full text
    In this paper a cross media analysis scheme for the semantic interpretation of compound documents is presented. It is essentially a late-fusion mechanism that operates on top of single-media extractors output and it’s main novelty relies on using the evidence extracted from heterogeneous media sources to perform probabilistic inference on a bayesian network that incorporates knowledge about the domain. Experiments performed on a set of 54 compound documents showed that the proposed scheme is able to exploit the existing cross media relations and achieve performance improvements.
    corecore