12 research outputs found

    Implementasi Multidimesional Database (MDB) Pada Bidang E-Commerce dan Aplikasi Berbasis Image processing Computer Vision (open CV)

    Get PDF
    Sebuah database menjadi sebuah hal yang penting agar sebuah aplikasi atau sistem memiliki kemampuan untuk menyimpan dan mengindentifikasi data, semakin berkembang sebuah sistem yang awalnya hanya sistem informasi biasa menjadi lebih inovatif interaktif dengan adanya sistem database ini, sejalan dengan perkembangan aplikasi yang banyak dikembangkan dengan metode AI (artificial intelegence) dan image processing secara tidak langsung berevolusi pula sistem penyimpanan data, sehingga sebuah database tidak hanya menyimpan sebuah data text tapi mampu menyimpan data dalam bentuk image, sistem ini memerlukan pula ketepatan dan sistem yang akurat maka dikembangkan sebuah sistem database multidimensional yang bekerja pada berbagai platform dan bisa meyimpan data secara otomatis, data tersebut kemudian bisa diolah dengan metode serta algoritma tertentu pada bidang e-commerce dan dengan metode computer vision jika data tersebut berbentuk image, dari hosil percobaan database multidimensional mampu merekap sebuah data dan menentukan sendiri paramater data tersebut, pada sistem informasi e-commerce menjadikan sebuah website mempu memberikan informasi data katalog barang yang paling banyak dibeli dan jika dalam bentuk portal berita mampu memberikan informasi berita yang paling banyak dilihat oleh user, sedangkan pada bidang image processing database multidimensional mampu menyimpan data berulang kali dan kemudian menampilkan data gambar yang paling jelas dan sempurna sehingga memiliki tingkat akurasi pembacaan yang tinggi hingga 98%, kelebihan dari database ini adalah mampu bekerja pada semua bahasa pemograman dan bersifat multiplatform.Sebuah database menjadi sebuah hal yang penting agar sebuah aplikasi atau sistem memiliki kemampuan untuk menyimpan dan mengindentifikasi data, semakin berkembang sebuah sistem yang awalnya hanya sistem informasi biasa menjadi lebih inovatif interaktif dengan adanya sistem database ini, sejalan dengan perkembangan aplikasi  yang banyak dikembangkan dengan metode AI (artificial intelegence) dan image processing secara tidak langsung berevolusi pula sistem penyimpanan data, sehingga sebuah database tidak hanya menyimpan sebuah data text tapi mampu menyimpan data dalam bentuk image, sistem ini memerlukan pula ketepatan dan sistem yang akurat maka dikembangkan sebuah sistem database multidimensional yang bekerja pada berbagai platform dan bisa meyimpan data secara otomatis, data tersebut kemudian bisa diolah dengan metode serta algoritma tertentu pada bidang e-commerce dan dengan metode computer vision jika data tersebut berbentuk image, dari hosil percobaan database multidimensional mampu merekap sebuah data dan menentukan sendiri paramater data tersebut, pada sistem informasi e-commerce menjadikan sebuah website mempu memberikan informasi data katalog barang yang paling banyak dibeli dan jika dalam bentuk portal berita mampu memberikan informasi berita yang paling banyak dilihat oleh user, sedangkan pada bidang image processing database multidimensional mampu menyimpan data berulang kali dan kemudian menampilkan data gambar yang paling jelas dan sempurna sehingga memiliki tingkat akurasi pembacaan yang tinggi hingga 98%, kelebihan dari database ini adalah mampu bekerja pada semua  bahasa pemograman dan bersifat multiplatform

    Multi-model SAR image despeckling

    Get PDF
    A multi-model despeckling approach for SAR image is presented. The chi-squared test is used to segment the image into homogeneous and heterogeneous regions. Then, the heterogeneous regions are separated into subregions, each of which consists of the points with same edge orientations. Homogeneous regions and the separated subregions are despeckled according to their characteristics. Experimental results are reported

    Multifeature analysis and semantic context learning for image classification

    Get PDF
    This article introduces an image classification approach in which the semantic context of images and multiple low-level visual features are jointly exploited. The context consists of a set of semantic terms defining the classes to be associated to unclassified images. Initially, a multiobjective optimization technique is used to define a multifeature fusion model for each semantic class. Then, a Bayesian learning procedure is applied to derive a context model representing relationships among semantic classes. Finally, this ..

    A KERNEL-BASED MULTI-FEATURE IMAGE REPRESENTATION FOR HISTOPATHOLOGY IMAGE CLASSIFICATION Una representación multi-características de imágenes basada en kernels para clasificación de imágenes de histopatología

    Get PDF
    ABSTRACT This paper presents a novel strategy for building a high-dimensional feature space to represent histopathology image contents. Histogram features, related to colors, textures and edges, are combined together in a unique image representation space using kernel functions. This feature space is further enhanced by the application of Latent Semantic Analysis, to model hidden relationships among visual patterns. All that information is included in the new image representation space. Then, Support Vector Machine classifiers are used to assign semantic labels to images. Processing and classification algorithms operate on top of kernel functions, so that, the structure of the feature space is completely controlled using similarity measures and a dual representation. The proposed approach has shown a successful performance in a classification task using a dataset with 1,502 real histopathology images in 18 different classes. The results show that our approach for histological image classification obtains an improved average performance of 20.6% when compared to a conventional classification approach based on SVM directly applied to the original kernel. Key words: Automatic image annotation, machine learning. RESUMEN Este trabajo presenta una estrategia nueva para la construcción de un espacio de características de gran dimensionalidad para la representación del contenido de imágenes de histopatología. Histogramas de características, relacionados con colores, texturas y bordes, son combinados para obtener una única representación de la imagen utilizando funciones de kernels. Este espacio de características es mejorado mediante la aplicación de Análisis de Semántica Latente, para modelar relaciones ocultas entre los patrones visuales. Esta información es incluida en la representación de la imagen en el nuevo esActa biol. Colomb., Vol. 15 N.º 3, 2010 251 -260 pacio. Luego, un clasificador de Máquinas de Vectores de Soporte es utilizado para asignar etiquetas semánticas a las imágenes. Algoritmos de procesamiento y de clasificación son utilizados en las funciones del kernel, por lo que la estructura del espacio de características es completamente controlada mediante medidas de similitud y la representación dual. El enfoque propuesto mostró un desempeño exitoso en la tarea de clasificación con un conjunto de datos de 1.502 imágenes reales de histopatología en 18 clases diferentes. Los resultados muestran que nuestro enfoque para la clasificación de imágenes histológicas obtiene una mejora promedio en el rendimiento del 20,6% en comparación con un método de clasificación convencional, basado en la aplicación de una Máquina de Vectores de Soporte sobre la función de kernel original. Palabras clave: anotación automática de imágenes, aprendizaje máquina

    Pattern recognition in spaces of probability distributions for the analysis of edge-localized modes in tokamak plasmas

    Get PDF
    Magnetically confined fusion plasmas provide several data analysis challenges due to the occurrence of massive data sets, substantial measurement uncertainty, stochasticity and data dimensionality, and often nonlinear interactions between measured quantities. Recently, methods from the fields of machine learning and probability theory - some standard, some more advanced - have come to play an increasingly important role in analyzing data from fusion experiments. The capabilities offered by such methods to efficiently extract, possibly in real time, additional information from the data that is not immediately apparent to human experts, has attracted attention from an increasing number of researchers. In addition, innovative methods for real-time data processing can play an important role in plasma control, in order to ensure safe and reliable operation of the machine. Pattern recognition is a discipline within the information sciences that concerns the exploration of structure in (multidimensional) data sets using computer-based methods and algorithms. In this doctoral work, pattern recognition techniques are developed and applied to data from tokamak plasmas, in order to contribute to a systematic analysis of edge-localized modes (ELMs). ELMs are magnetohydrodynamic (MHD) instabilities occurring in the edge region of high-confinement (H-mode) fusion plasmas. The type I ELMy H-mode is the reference scenario for operation of the next-step fusion device ITER. On the one hand, ELMs have a beneficial effect on plasma operation through their role in impurity control. On the other hand, ELMs eject energy and particles from the plasma and, in ITER, large unmitigated ELMs are expected to cause intolerable heat loads on the plasma-facing components (PFCs). In interpreting experiments focused on ELM understanding and control, a significant challenge lies in handling the measurement uncertainties and the inherent stochasticity of ELM properties. In this work, we employ probabilistic models (distributions) for a quantitative data description geared towards an enhanced systematization of ELM phenomenology. Hence, we start from the point of view that the fundamental object resulting from the observation of a system is a probability distribution, with every single measurement providing a sample from this distribution. We argue that, particularly for richly stochastic phenomena like ELMs, the probability distribution of physical quantities contain significantly more information compared to mere averages. Consequently, in exploring the patterns emerging from the various ELM regimes and relations, we need methods that can handle the intrinsic probabilistic nature of the data. The original contributions of this work are twofold. First, several novel pattern recognition methods in non-Euclidean spaces of probability distribution functions (PDFs) are developed and validated. The second main contribution lies in the application of these and other techniques to a systematic analysis of ELMs in tokamak plasmas. In regard to the methodological aims of the work, we employ the framework of information geometry to develop pattern visualization and classification methods in spaces of probability distributions. In information geometry, a family of probability distributions is considered as a Riemannian manifold. Every point on the manifold represents a single PDF and the distribution parameters provide local coordinates on the manifold. The Fisher information plays the role of a Riemannian metric tensor, enabling calculation of geodesic curves on the surface. The length of such curves yields the geodesic distance (GD) on probabilistic manifolds, which is a natural similarity (distance) measure between PDFs. Equipped with a suitable distance measure, we extrapolate several distance-based pattern recognition methods to the manifold setting. This includes k-nearest neighbor (kNN) and conformal predictor (CP) methods for classification, as well as multidimensional scaling (MDS) and landmark multidimensional scaling (LMDS) for data visualization (dimensionality reduction). Furthermore, two new classification schemes are developed: a distance-to-centroid classifier (D2C) and a principal geodesic classifier (PGC). D2C classifies on the basis of the minimum GD to the class centroids and PGC considers the shape of the class on the manifold by determining the minimum distance to the principal geodesic of each class. The methods are validated by their application to the classification and retrieval of colored texture images represented in the wavelet domain. Both methods prove to be computationally efficient, yield high accuracy and also clearly exhibit the adequacy of the GD and its superiority over the Euclidean distance, for comparing PDFs. This also aids in demonstrating the utility and adaptability of the developed methods to a wide range of applications other than ELMs, which are the prime focus of analysis in this work. The second main goal of the work targets ELM analysis at three fronts, using pattern recognition and probabilistic modeling : i). We first concentrate on visualization of ELM characteristics by creating maps containing projections of multidimensional ELM data, as well as the corresponding probabilistic models. Such maps can provide physicists and machine operators with a convenient means and a useful tool for plasma monitoring and for studying data patterns reflecting key regimes and their underlying physics. In particular, GD-based MDS is used for representing the complete distributions of the multidimensional data characterizing the operational space of ELMs onto two-dimensional maps. Clusters corresponding to type I and type III ELMs are identified and the maps enable tracking of trends in plasma parameters across the operational space. It is shown that the maps can also be used with reasonable accuracy for predicting the values of the plasma parameters at a certain point in the operational space. ii). Our second application concerns fast, standardized and automated classification of ELM types. ELM types have so far been identified and characterized on an empirical and phenomenological basis. The presented classification schemes are aimed at complementing the phenomenological characterization using standardized methods that are less susceptible to subjective interpretation, while considerably reducing the effort of ELM experts in identifying ELM types. To this end, different classification paradigms (parametric and non-parametric) are explored and put to use. Discriminant analysis (DA) is used for determining a linear separation boundary between type I and III ELMs in terms of global plasma parameters, which can then be used for the prediction of ELM types as well as the study of ELM occurrence boundaries and ELM physics. However, DA makes an assumption about the underlying class distribution and presently cannot be applied in spaces of probability distributions, leading to a sub-optimal treatment of stochasticity. This is circumvented by the use of GD-based CP and kNN classifiers. CP provides estimates of its own accuracy and reliability and kNN is a simple, yet powerful classifier of ELM types. It is shown that a classification based on the distribution of ELM properties, namely inter-ELM time intervals and the distribution of global plasma parameters, is more informative and accurate than the classification based on average parameter values. iii). Finally, the correlation} between ELM energy loss (ELM size) and ELM waiting times (inverse ELM frequency) is studied for individual ELMs in a set of plasmas from the JET tokamak upgraded with the ITER-like wall (ILW). Typically, ELM control methods rely on the empirically observed inverse dependence of average ELM energy loss on average ELM frequency, even though ELM control is targeted at reducing the size of individual ELMs and not the average ELM loss. The analysis finds that for individual ELMs the correlation between ELM energy loss and waiting times varies from zero to a moderately positive value. A comparison is made with the results from a set of carbon-wall (CW) JET plasmas and nitrogen-seeded ILW JET plasmas. It is found that a high correlation between ELM energy loss and waiting time comparable to CW plasmas is only found in nitrogen-seeded ILW plasmas. Furthermore, most of the unseeded JET ILW plasmas have ELMs that are followed by a second phase referred to as the slow transport event (STE). The effect of the STEs on the distribution of ELM durations is studied, as well as their influence on the correlation between ELM energy loss and waiting times. This analysis has a clear outcome for the optimization of ELM control methods, while presenting insights for an improved physics understanding of ELMs.Die Analyse von experimentellen Daten magnetisch eingeschlossener Fusionsplasmen stellt wegen der großen Datenmengen, der hohen Dimensionalität, der Messunsicherheiten und auch der oft nichtlinearen Beziehungen untereinander eine große Herausforderung dar. Methoden der Datenanalyse aus den Feldern des maschinellen Lernens sowie der Wahrscheinlichkeitstheorie spielen daher in letzter Zeit eine immer größere Rolle bei der Analyse von Daten aus Fusionsexperimenten. Dabei interessiert vor allem die Möglichkeit, zusätzliche Information welche dem menschlichen Beobachter verborgen bleiben, systematisch zu extrahieren. Zusätzlich können innovative Methoden der Echtzeit-Datenverarbeitung eine wichtige Rolle für Kontrollanwendungen in Fusionsexperimenten spielen. Mustererkennung ist eine Disziplin der Informationstheorie welche sich mit der Erforschung von Strukturen in multidimensionalen Datensätzen durch computergestützte Methoden und Algorithmen beschäftigt. In dieser Doktorarbeit werden Methoden der Mustererkennung auf Daten von Tokamakexperimenten für eine systematische Analyse von edge-localized modes (ELMs) angewendet. ELMs sind magnetohydrodynamische (MHD) Instabilitäten die am Plasmarand in ‘high-confinement‘ (H-mode) Fusionsplasmen auftreten. Die ‘Typ I ELMy H-mode' ist das Referenz-Betriebsszenario für das zukünftige ITER Experiment. ELMs spielen einerseits eine positive Rolle für den Plasmabetrieb da sie zur Verunreinigungskontrolle beitragen. Andererseits werfen ELMs Teilchen und Energie aus dem Plasma und könnten daher in ITER die Integrität der ersten Wand gefährden. Eine signifikante Herausforderung bei der Interpretation von Experimenten welche sich mit dem Verständnis und der Kontrolle von ELMs beschäftigen liegt in der Behandlung der Messunsicherheiten sowie der inhärenten Stochastizität der ELM Parameter. In der vorliegenden Arbeit werden probabilistische Modelle (Verteilungen) zur quantitativen Beschreibung der Daten mit dem Ziel einer verbesserten systematischen Einteilung der ELM-Phänomenologie verwendet. Dabei wird davon ausgegangen, dass die fundamentale Größe eines Systems eine Wahrscheinlichkeitsverteilung ist, wobei jede Einzelmessung eine Stichprobe dieser Verteilung darstellt. Dabei wird angenommen dass, im Besonderen für stark stochastische Ereignisse wie ELMs, die Wahrscheinlichkeitsverteilung der physikalischen Parameter deutlich mehr Information enthält als deren Mittelwerte. Folglich erfordert die Erforschung der Struktur der unterschiedlichen ELM Regimes Methoden, welche die intrinsisch stochastische Natur der Daten berücksichtigen kann. Diese Arbeit liefert zwei grundsätzlich neue Beiträge: zunächst werden neuartige Strukturerkennungs-Methoden in nicht-euklidischen Räumen von Wahrscheinlichkeitsverteilungen entwickelt und validiert. Der zweite grundsätzliche Beitrag liegt in der Anwendung dieser und anderer Methoden auf eine systematische Analyse von ELMs in Tokamakplasmen. Aus methodologischer Sicht wird in dieser Arbeit die Informationsgeometrie angewendet um Methoden zur Mustererkennung und –klassifizierung in Räumen von Wahrscheinlichkeitsverteilungen zu entwickeln. In der Informationsgeometrie wird eine Familie von Wahrscheinlichkeitsverteilungen als eine Riemannsche Mannigfaltigkeit aufgefasst. Jeder Punkt auf der Mannigfaltigkeit stellt eine Wahrscheinlichkeitsverteilung dar und die Verteilungsparameter sind lokale Koordinaten auf der Mannigfaltigkeit. Die Fisher Information spielt dabei die Rolle des Riemannschen metrischen Tensors und erlaubt es, geodätische Kurven auf der Fläche zu berechnen. Die Länge einer solchen Kurve ergibt den geodätischen Abstand auf der Mannigfaltigkeit, welcher ein natürliches Maß für den Abstand zwischen Verteilungsfunktionen ist. Mit diesem geeigneten Abstandsmaß werden mehrere Mustererkennungsmethoden welche auf dem Abstand basieren auf die Mannigfaltigkeit angewandt. Diese schließen die ‘k-nearest neighbor’ (kNN) und ‘conformal predictor’ (CP) Klassifikationsmethoden ein sowie ‘multidimensional scaling’ (MDS) und ‘landmark multidimensional scaling‘ (LMDS) zur Datenvisualisierung mit dem Ziel der Dimensionsreduktion. Desweitern werden zwei neue Klassifikationsmethoden entwickelt: ein ‘distance-to-centroid classifier’ (D2C) und ein ‘principal geodesic classifier’ (PGC). D2C klassifiziert auf Basis des minimalen geodätischen Abstands vom Schwerpunkt der Daten und PGC berücksichtigt die Form der Klasse auf der Mannigfaltigkeit indem der Abstand zur Hauptgeodätischen jeder Klasse bestimmt wird. Diese Methoden werden durch Anwendung auf die Klassifizierung und Rekonstruktion von farbigen Texturbildern in der Waveletdarstellung validiert. Beide Methoden stellen sich als effizient im Rechenaufwand heraus und liefern hohe Genauigkeit, wobei der geodätische Abstand dem euklidischen Abstand deutlich überlegen ist und somit als angemessen für den Vergleich von Verteilungsfunktionen bestätigt wird. Dies dient auch dem Nachweis der Eignung der entwickelten Methoden für eine Vielzahl von Anwendungen über das in dieser Arbeit vorrangig behandelte Feld der ELMs hinaus. Das zweite Hauptziel der Arbeit ist die Analyse von ELMs mit den Methoden der Mustererkennung und der wahrscheinlichkeitstheoretischen Modellierung auf drei Gebieten: i). Zunächst wird die Visualisierung von ELM Eigenschaften durch Erstellung von Abbildungen behandelt welche multidimensionale ELM Daten projizieren. Solche Abbildungen können für Physiker und Experimentatoren ein nützliches Werkzeug zur Überwachung der Plasmaentladung darstellen und dienen darüber hinaus zu Studien von Datenmustern, welche prinzipielle Regimes und deren zugrundeliegende Physik charakterisieren. Im speziellen wird die GD-basierte MDS zur Darstellung der gesamten Verteilung der multidimensionalen Daten, welche das Auftreten von ELMs beschreiben in zweidimensionalen Abbildungen verwendet. Cluster in welchen ‘Typ I’ und ‘Typ III’ ELMs auftreten werden identifiziert und die Abbildung ermöglicht es, Trends in der Veränderung von Plasmaparametern im Parameterraum zu erkennen. Es wird gezeigt, dass diese Abbildungen auch dazu verwendet werden können, die Plasmaparameter für einen bestimmten Punkt im Betriebsbereich vorherzusagen. ii). Eine zweite Anwendung beschäftigt sich mit einer schnellen, standardisierten Klassifizierung des ELM Typs. ELM Typen wurden bisher auf einer empirisch-phänomenologischen Basis identifiziert. Die hier vorgestellten Klassifizierungs-Schemata dienen der Ergänzung der phänomenologischen Beschreibung durch standardisierte Methoden welche weniger anfällig für subjektive Wahrnehmung und Interpretation sind und sollen auch den Aufwand bei der Bestimmung des ELM Typs verringern. Verschiedene Klassifizierungsmethoden, parametrisch und nicht-parametrisch, werden untersucht und eingesetzt. Discriminant Analysis (DA) wird für die Bestimmung einer linearen Grenze zwischen Typ I und Typ III ELMs in globalen Plasmaparametern eingesetzt, die dann sowohl zur Vorhersage des ELM Typs als auch zur Untersuchung der Bereiche, in denen die unterschiedlichen ELM Typen auftreten, verwendet wird. Dabei basiert die DA allerdings auf einer Annahme über die zugrunde liegende Verteilung der Klassen und kann nach derzeitigem Stand nicht auf Räume von Verteilungsfunktionen angewendet werden, was zu einer unzureichenden Behandlung der Stochastizität führt. Dies wird durch die Verwendung von GD-basierter CP und von kNN Klassifikatoren behoben. CP liefert eine Abschätzung ihrer Genauigkeit und Zuverlässigkeit und kNN ist ein einfacher, aber leistungsstarker Klassifikator für ELM-Typen. Es wird gezeigt dass eine Klassifizierung basierend auf der Verteilung der ELM Eigenschaften, namentlich der inter-ELM Zeitintervalle und der Verteilung der globalen Plasmaparameter, mehr Information enthält als eine Klassifizierung welche auf gemittelten Werten basiert. iii).Schließlich wird die Korrelation zwischen ELM Energieverlust (ELM Größe) und ELM Wartezeiten (inverse ELM Frequenz) für individuelle ELMs aus einer Datenbasis von Plasmaentladungen des JET Tokamaks in der ‚ITER-like wall‘ (ILW) Konfiguration untersucht. ELM Kontrollmethoden basieren typischerweise auf dem empirisch beobachteten inversen Zusammenhang zwischen mittlerem ELM-Verlust und mittlerer ELM-Frequenz, obwohl ELM Kontrolle die Reduktion der Größe individueller ELMs zum Ziel hat. Die Analyse zeigt, dass für individuelle ELMs die Korrelation zwischen ELM-Energieverlust und Wartezeit generell niedrig ist. Dieses Ergebnis wird mit einem Datensatz von JET in der ‚carbon-wall‘ (CW) Konfiguration sowie einem Datensatz von Stickstoff-gekühlten ILW JET Plasmen verglichen. Es zeigt sich, dass eine hohe Korrelation zwischen ELM-Energieverlust und Wartezeit, vergleichbar zu CW Plasmen, nur in Stickstoff-gekühlten ILW Plasmen auftritt. Darüber hinaus treten in den meisten JET ILW Plasmen ohne Stickstoffkühlung ELMs auf, welche von einer zweiten Phase, slow transport event (STE) genannt, begleitet werden. Der Effekt der STEs auf die Verteilung der ELM Dauer sowie deren Einfluss auf die Korrelation zwischen ELM-Energieverlust und Wartezeit wird untersucht. Diese Untersuchung hat einerseits eine starke Relevanz für die Optimierung von Methoden zur ELM Kontrolle, andererseits trägt sie zum tieferen Einblick in die den ELMs zugrunde liegende Physik bei

    AXMEDIS 2008

    Get PDF
    The AXMEDIS International Conference series aims to explore all subjects and topics related to cross-media and digital-media content production, processing, management, standards, representation, sharing, protection and rights management, to address the latest developments and future trends of the technologies and their applications, impacts and exploitation. The AXMEDIS events offer venues for exchanging concepts, requirements, prototypes, research ideas, and findings which could contribute to academic research and also benefit business and industrial communities. In the Internet as well as in the digital era, cross-media production and distribution represent key developments and innovations that are fostered by emergent technologies to ensure better value for money while optimising productivity and market coverage

    Multimodal information spaces for content-based image retrieval

    Get PDF
    Abstract. Image collections today are increasingly larger in size, and they continue to grow constantly. Without the help of image search systems these abundant visual records collected in many different fields and domains may remain unused and inaccessible. Many available image databases often contain complementary modalities, such as attached text resources, which can be used to build an index for querying with keywords. However, sometimes users do not have or do not know the right words to express what they need, and, in addition, keywords do not express all the visual variations that an image may contain. Using example images as queries can be viewed as an alternative in different scenarios such as searching images using a mobile phone with a coupled camera, or supporting medical diagnosis by searching a large medical image collection. Still, matching only visual features between the query and image databases may lead to undesirable results from the user's perspective. These conditions make the process of finding relevant images for a specific information need very challenging, time consuming or even frustrating. Instead of considering only a single data modality to build image search indexes, the simultaneous use of both, visual and text data modalities, has been suggested. Non-visual information modalities may provide complementary information to enrich the image representation. The goal of this research work is to study the relationships between visual contents and text terms to build useful indexes for image search. A family of algorithms based on matrix factorization are proposed for extracting the multimodal aspects from an image collection. Using this knowledge about how visual features and text terms correlate, a search index is constructed, which can be searched using keywords, example images or combinations of both. Systematic experiments were conducted on different data sets to evaluate the proposed indexing algorithms. The experimental results showed that multimodal indexing is an effective strategy for designing image search systems.Las colecciones de imágenes hoy en día son muy grandes y crecen constantemente. Sin la ayuda de sistemas para la búsqueda de imágenes esos abundantes registros visuales que han sido recolectados en diferentes areas del conocimiento pueden permanecer aislados sin uso. Muchas bases de datos de imágenes contienen modalidades de datos complementarias, como los recursos textuales que pueden ser utilizados para crear índices de búsqueda. Sin embargo, algunas veces los usuarios no tienen o no saben qué palabras utilizar para encontrar lo que necesitan, y adicionalmente, las palabras clave no expresan todas las variaciones visuales que una imagen puede tener. Utilizar imágenes de ejemplo para expresar la consulta puede ser visto como una alternativa, por ejemplo buscar imágenes con teléfonos móviles, o dar soporte al diagnóstico médico con las imágenes de los pacientes. Aún así, emparejar correctamente las características visuales de la consulta y las imágenes en la base de datos puede llevar a resultados semánticamente incorrectos. Estas condiciones hacen que el proceso de buscar imágenes relevantes para una necesidad de información particular sea una tarea difícil, que consume mucho tiempo o que incluso puede ser frustrante. En lugar de considerar solo una modalidad de datos para construir índices de búsqueda para imágenes, el uso simultáneo de las modalidades visual y textual ha sido sugerido. Las modalidades no visuales pueden proporcionar información complementaria para enriquecer la representación de las imágenes. El objetivo de este trabajo de investigación es estudiar las relaciones entre los contenidos visuales y los términos textuales, para construir índices de búsqueda útiles. Este trabajo propone una familia de algoritmos basados en factorización de matrices para extraer los aspectos multimodales de una colección de imágenes. Utilizando este conocimiento acerca de cómo las características visuales se correlacionan con los términos textuales, se construye un índice que puede ser consultado con palabras clave, imágenes de ejemplo o por combinaciones de estas dos. Se realizaron experimentos sistemáticos en diferentes conjuntos de datos para evaluar los algoritmos de indexamiento propuestos. Los resultados muestran que el indexamiento multimodal es una estrategia efectiva para diseñar sistemas de búsqueda de imágenes.Doctorad
    corecore