41 research outputs found

    Nou mètode de cerca de paraules en imatges i manuscrits

    Get PDF
    Investigadors del Centre de Visió per Computador i del Departament de Ciències de la Computació de la UAB proposen un nou mètode que permet cercar paraules en col·leccions digitals de documents sense haver d'utilitzar un programari de reconeixement òptic de caràcters(OCR). Els principals avantatges del mètode són que es pot aplicar tan en documents manuscrits com mecanografiats, és robust a degradacions dels documents, i no està limitat a l'alfabet llatí sinó que es pot aplicar a qualsevol sistema d'escriptura. Aquest treball va obtenir el premi al millor article presentat a l'onzè congrés internacional sobre l'anàlisi i el reconeixement de documents celebrat a Pequín al Setembre del 2011.Investigadores del Centro de Visión por Computador y del Departamento de Ciencias de la Computación de la UAB proponen un nuevo método que permite buscar palabras en colecciones digitales de documentos sin tener que utilizar un software de reconocimiento óptico de caracteres(OCR). Las principales ventajas del método son que se puede aplicar tanto en documentos manuscritos como mecanografiados, es robusto a degradaciones de los documentos, y no está limitado al alfabeto latino sino que se puede aplicar a cualquier sistema de escritura. Este trabajo obtuvo el premio al mejor artículo presentado en el undécimo congreso internacional sobre el análisis y el reconocimiento de documentos celebrado en Pekín en Septiembre de 2011

    Comparing Combinations of Feature Regions for Panoramic VSLAM

    Get PDF
    Invariant (or covariant) image feature region detectors and descriptors are useful in visual robot navigation because they provide a fast and reliable way to extract relevant and discriminative information from an image and, at the same time, avoid the problems of changes in illumination or in point of view. Furthermore, complementary types of image features can be used simultaneously to extract even more information. However, this advantage always entails the cost of more processing time and sometimes, if not used wisely, the performance can be even worse. In this paper we present the results of a comparison between various combinations of region detectors and descriptors. The test performed consists in computing the essential matrix between panoramic images using correspondences established with these methods. Different combinations of region detectors and descriptors are evaluated and validated using ground truth data. The results will help us to find the best combination to use it in an autonomous robot navigation system.This work has been partially supported by the FI grant from the Generalitat de Catalunya, the European Social Fund and the MID-CBR project grant TIN2006-15140-C03-01 and FEDER funds.Peer reviewe

    Obstacle Detection and Alignment using an Stereo Camera Pair

    Get PDF
    An autonomous mobile robot must face the correspondence or data association problem in order to carry out tasks like place recognition or unknown environment mapping. In order to put into correspondence two maps, most correspondence methods first extract descriptors of salient features from robot sensor data, then matches between features are searched and finally the transformation that relates the maps is estimated from such matches. However, finding explicit matches between features is a challenging and computationally expensive task. In this paper, we propose a new method to align obstacle maps without searching explicit matches between features. The maps are obtained from a stereo pair. Then, we use a bag of features approach to identify putative corresponding maps followed by a Gauss-Newton algorithm to find the transformation that relates both maps. The proposed method is evaluated on a typical office dataset showing good performance.This work has been partially funded by TIN 2006-15308-C02-02 project grant of the Ministry of Education of Spain

    Evaluation of the SIFT Object Recognition Method in Mobile Robots

    Get PDF
    CCIA 2009. 12th International Conference of the Catalan Association for Artificial Intelligence, Cardona, Spain, 21-23 October, 2009General object recognition in mobile robots is of primary importance in order to enhance the representation of the environment that robots will use for their reasoning processes. Therefore, we contribute reduce this gap by evaluating the SIFT Object Recognition method in a challenging dataset, focusing on issues relevant to mobile robotics. Resistance of the method to the robotics working conditions was found, but it was limited mainly to well-textured objects.This work was supported by the FI grant from the Generalitat de Catalunya, the European Social Fund, and the MID-CBR project grant TIN2006-15140-C03-01 and FEDER funds and the grant 2005-SGR-00093 and the MIPRCV Consolider Imagennio 2010.Peer reviewe

    Efficient and Scalable Handwritten Word Spotting on Historical Documents using Bag of Visual Words

    Get PDF
    La localització de paraules en el camp de anàlisis de documents es pot definir com el reconeixement de patrons encarregat de localitzar i recuperar una paraula específica dins d'una col·lecció d'imatges sense transcriure explícitament el corpus sencer. El seu ús és particularment interessant quan s'aplica a escenaris on el reconeixement òptic de caràcters funciona malament o no es pot utilitzar en absolut. Aquesta tesi se centra en un escenari d'aquest tipus, detectar paraules en documents manuscrits històrics que han estat escrits per un sol autor o per diversos autors amb una cal·ligrafia similar. Aquest problema requereix d'una signatura visual que sigui robusta contra artefactes de les imatges, flexible per adaptar-se a les variacions del traç i que sigui eficient per recuperar la informació de manera ràpida. Per a això, hem desenvolupat un conjunt de mètodes de localització de paraules que, en la seva base, utilitzen la coneguda representació Bag-of-Visual-Words (BoVW). Aquesta representació ha guanyat popularitat entre la comunitat d'anàlisi d'imatges de documents per caracteritzar paraules manuscrites en tasques no supervisades. Tanmateix, la majoria d'enfocaments en aquest camp es basen en una configuració bàsica de BoVW i ignoren les codificacions complexes i les representacions espacials. Determinem quines configuracions de BoVW proporcionen el millor increment de rendiment. A continuació, estenem la localització de paraules de sistemes on aquestes estan pre-segmentades a un on no utilitzem cap tipus de segmentació. L'enfocament proposat selecciona regions sobreposades del document com a candidates i les caracteritza amb una signatura BoVW. La localització s'aconsegueix comparant la imatge de consulta amb les signatures dels candidats i retornant les ubicacions que tenen un consens més alt. Aquest és un enfocament senzill però potent que requereix una signatura compacta. Primer projectem la signatura BoVW en un espai de temes semàntics i després la comprimim encara més mitjançant un producte de quantificadors. La signatura resultant requereix només unes dotzenes de bytes, cosa que ens permet indexar milers de pàgines en un ordinador de sobretaula estàndard. També estudiem com combinar diferents modalitats d'informació per tal de crear un sistema on les paraules s'indexa mitjançant una modalitat d'informació i les consultes mitjançant una altra. Considerem tres modalitats d'informació diferents: visual, textual i àudio. La nostra proposta és crear un espai de característiques latents on les característiques relacionades semànticament es projectin sobre els mateixos temes latents. Creant així un nou espai on la informació de diferents modalitats es pugui comparar. Els diccionaris que s'utilitzen per codificar les signatures BoVW es creen generalment mitjançant un algorisme de no supervisat i requereixen provar diversos paràmetres per determinar quina configuració és la millor per a una col·lecció de documents determinada. Proposem un algorisme d'agrupament semàntic que permet estimar els paràmetres a partir de dades. Atès que la recopilació de dades anotades és costosa, fem servir imatges de paraules generades sintèticament. El diccionari resultant proporciona un bon rendiment a les col·leccions de documents que utilitzen el mateix estil de text. També proposem l'ús d'un diccionari addicional per aproximar els descriptors i reduir la complexitat de codificació del descriptor a sub-lineal. Finalment, ens centrem en el problema de la dimensionalitat de les signatures. Proposem una nova signatura on cada element representa la probabilitat que un determinat símbol tingui una determinada ubicació dins la imatge de la paraula. Aquesta signatura és extremadament compacta i combinada amb tècniques de compressió, pot representar la imatge d'una paraula amb només uns quants bytes.La detección de palabras se puede definir como el reconocimiento de patrones cuyo objetivo es localizar y recuperar una palabra clave específica dentro de una colección de imágenes de documentos sin transcribir explícitamente todo el corpus. Su uso es particularmente interesante cuando se aplica en escenarios donde el reconocimiento óptico de caracteres funciona mal o no se puede utilizar en absoluto. Esta tesis se centra en tal escenario, la detección de palabras en documentos históricos escritos a mano que han sido escritos por un solo autor o por varios autores con una caligrafía similar. Este problema requiere una signatura visual que sea robusta a los artefactos de la imagen, flexible para adaptarse a las variaciones del trazo y eficiente para recuperar información de manera rápida. Para ello, hemos desarrollado un conjunto de métodos de detección de palabras que, en su base, utilizan la conocida representación de Bag-of-Visual-Words (BoVW). Esta representación ha ganado popularidad entre la comunidad de análisis de imágenes de documentos para caracterizar palabras escritas a mano en tareas de detección no supervisadas. Sin embargo, la mayoría de los enfoques en este campo se basan en una configuración básica de BoVW y no tienen en cuenta la codificación compleja y las representaciones espaciales. Determinamos qué configuraciones de BoVW proporcionan el mejor impulso de rendimiento al sistema de detección. Luego, ampliamos la detección de palabras de sistemas donde estas están pre-segmentadas a uno sin segmentación. El enfoque propuesto selecciona regiones solapadas del documento como candidatas y las caracteriza con BoVW. La localización se logra comparando la imagen de consulta con las regiones candidatas y y devolviendo las ubicaciones que proporcionan un mayor consenso. Este es un enfoque simple pero poderoso que requiere una signatura compacta. Primero proyectamos la signatura BoVW en un espacio de temas semánticos y luego lo comprimimos aún más usando un producto de cuantificadores. La signatura resultante solo requiere unas pocas docenas de bytes, lo que nos permite indexar miles de páginas en una ordenador de sobremesa común. También estudiamos cómo combinar diferentes modalidades de información para crear un sistema donde las palabras se indexa usando una modalidad de información y las consultas se usando otra. Consideramos tres modalidades de información diferentes: visual, textual y audio. Nuestra propuesta es crear un espacio de características latentes donde las características que están relacionadas semánticamente se proyectan sobre los mismos temas. Creando así un nuevo espacio de características donde la información procedente de diferentes modalidades se puede comparar. Los diccionarios utilizados para codificar las signaturas BoVW se crean generalmente utilizando un algoritmo de agrupación no supervisado y requieren probar múltiples parámetros para determinar qué configuración es la mejor para una determinada colección de documentos. Proponemos un algoritmo de agrupamiento semántico que permite estimar el mejor parámetro a partir de los datos. Dado que recopilar datos anotados es costoso, utilizamos imágenes de palabras generadas sintéticamente. El diccionario resultante ofrece un buen rendimiento en colecciones de documentos que utilizan el mismo estilo de escritura. También proponemos el uso de un diccionario adicional para aproximar descriptores y reducir la complejidad de codificación del descriptor a sub-lineal. Finalmente, nos enfocamos en el problema de la dimensionalidad de las signaturas. Proponemos una nueva signatura de probabilidad de símbolo donde cada elemento representa la probabilidad de que un determinado símbolo esté presente en una determinada ubicación de la imagen de la palabra. Esta signatura es extremadamente compacta y combinada con técnicas de compresión puede representar la imágenes de una palabras usando solo unos pocos bytes.Word spotting can be defined as the pattern recognition tasked aimed at locating and retrieving a specific keyword within a document image collection without explicitly transcribing the whole corpus. Its use is particularly interesting when applied in scenarios where Optical Character Recognition performs poorly or can not be used at all. This thesis focuses on such a scenario, word spotting on historical handwritten documents that have been written by a single author or by multiple authors with a similar calligraphy. This problem requires a visual signature that is robust to image artifacts, flexible to accommodate script variations and efficient to retrieve information in a rapid manner. For this, we have developed a set of word spotting methods that on their foundation use the well known Bag-of-Visual-Words (BoVW) representation. This representation has gained popularity among the document image analysis community to characterize handwritten words in unsupervised manner. However, most approaches on this field rely on a basic BoVW configuration and disregard complex encoding and spatial representations. We determine which BoVW configurations provide the best performance boost to the spotting system. Then, we extend the segmentation-based word spotting, where word candidates are given a priori, to segmentation-free spotting. The proposed approach seeds the document images with overlapping word location candidates and characterizes them with a BoVW signature. Retrieval is achieved comparing the query and candidate signatures and returning the locations that provide a higher consensus. This is a simple but powerful approach that requires a more compact signature than in a segmentation-based scenario. We first project the BoVW signature into a reduced semantic topics space and then compress it further using Product Quantizers. The resulting signature only requires a few dozen bytes, allowing us to index thousands of pages on a common desktop computer. The final system still yields a performance comparable to the state-of-the-art despite all the information loss during the compression phases. We also study how to combine different modalities of information in order to create a query-by-X spotting system where, words are indexed using an information modality and queries are retrieved using another. We consider three different information modalities: visual, textual and audio. Our proposal is to create a latent feature space where features which are semantically related are projected onto the same topics. Creating thus a new feature space where information from different modalities can be compared. The codebooks used to encode the BoVW signatures are usually created using an unsupervised clustering algorithm and, they require to test multiple parameters to determine which configuration is best for a certain document collection. We propose a semantic clustering algorithm which allows to estimate the best parameter from data. Since gather annotated data is costly, we use synthetically generated word images. The resulting codebook is database agnostic, i.e. a codebook that yields a good performance on document collections that use the same script. We also propose the use of an additional codebook to approximate descriptors and reduce the descriptor encoding complexity to sub-linear. Finally, we focus on the problem of signatures dimensionality. We propose a new symbol probability signature where each bin represents the probability that a certain symbol is present a certain location of the word image. This signature is extremely compact and combined with compression techniques can represent word images with just a few bytes per signature

    Combining invariant features and the ALV homing method for autonomous robot navigation based on panoramas

    Get PDF
    Biologically inspired homing methods, such as the Average Landmark Vector, are an interesting solution for local navigation due to its simplicity. However, usually they require a modification of the environment by placing artificial landmarks in order to work reliably. In this paper we combine the Average Landmark Vector with invariant feature points automatically detected in panoramic images to overcome this limitation. The proposed approach has been evaluated first in simulation and, as promising results are found, also in two data sets of panoramas from real world environments. © 2011 Springer Science+Business Media B.V.This work was partially supported by the FI grant from the Generalitat de Catalunya, the European Social Fund, the MID-CBR project grant TIN2006-15140- C03-01 and FEDER funds, the grant 2005-SGR-00093, the MIPRCV Consolider Imagennio 2010 and the Marco Polo fund from the University of Groningen.Peer Reviewe

    Real-Time Object Segmentation Using a Bag of Features Approach

    Get PDF
    In this paper, we propose an object segmentation framework, based on the popular bag of features (BoF), which can process several images per second while achieving a good segmentation accuracy assigning an object category to every pixel of the image. We propose an efficient color descriptor to complement the information obtained by a typical gradient-based local descriptor. Results show that color proves to be a useful cue to increase the segmentation accuracy, specially in large homogeneous regions. Then, we extend the Hierarchical K-Means codebook using the recently proposed Vector of Locally Aggregated Descriptors method. Finally, we show that the BoF method can be easily parallelized since it is applied locally, thus the time necessary to process an image is further reduced. The performance of the proposed method is evaluated in the standard PASCAL 2007 Segmentation Challenge object segmentation dataset.Peer Reviewe
    corecore