6 research outputs found

    Real-time Selection of Video Streams for Live TV Broadcasting Based on Query-by-Example Using a 3D Model

    Get PDF
    The emergence of low-cost cameras with nearly professional features in the consumer market represents a new important source of video information. For example, using an increasing number of these cameras in live TV broadcastings enables obtaining varied contents without affecting the production costs. However, searching for interesting shots (e.g., a certain view of a specific car in a race) among many video sources in real-time can be difficult for a Technical Director (TD). So, TDs require a mechanism to easily and precisely represent the kind of shot they want to obtain abstracting them from the need to be aware of all the views provided by the cameras. In this paper we present our proposal to help a TD to visually define, using an interface for the definition of 3D scenes, an interesting sample view of one or more objects in the scenario. We recreate the views of the cameras in a 3D engine and apply 3D geometric computations on their virtual view, instead of analyzing the real images they provide, to enable an efficient and precise real-time selection. Specifically, our system computes a similarity measure to rank the candidate cameras. Moreover, we present a prototype of the system and an experimental evaluation that shows the interest of our proposal

    Recuperação multimodal e interativa de informação orientada por diversidade

    Get PDF
    Orientador: Ricardo da Silva TorresTese (doutorado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: Os métodos de Recuperação da Informação, especialmente considerando-se dados multimídia, evoluíram para a integração de múltiplas fontes de evidência na análise de relevância de itens em uma tarefa de busca. Neste contexto, para atenuar a distância semântica entre as propriedades de baixo nível extraídas do conteúdo dos objetos digitais e os conceitos semânticos de alto nível (objetos, categorias, etc.) e tornar estes sistemas adaptativos às diferentes necessidades dos usuários, modelos interativos que consideram o usuário mais próximo do processo de recuperação têm sido propostos, permitindo a sua interação com o sistema, principalmente por meio da realimentação de relevância implícita ou explícita. Analogamente, a promoção de diversidade surgiu como uma alternativa para lidar com consultas ambíguas ou incompletas. Adicionalmente, muitos trabalhos têm tratado a ideia de minimização do esforço requerido do usuário em fornecer julgamentos de relevância, à medida que mantém níveis aceitáveis de eficácia. Esta tese aborda, propõe e analisa experimentalmente métodos de recuperação da informação interativos e multimodais orientados por diversidade. Este trabalho aborda de forma abrangente a literatura acerca da recuperação interativa da informação e discute sobre os avanços recentes, os grandes desafios de pesquisa e oportunidades promissoras de trabalho. Nós propusemos e avaliamos dois métodos de aprimoramento do balanço entre relevância e diversidade, os quais integram múltiplas informações de imagens, tais como: propriedades visuais, metadados textuais, informação geográfica e descritores de credibilidade dos usuários. Por sua vez, como integração de técnicas de recuperação interativa e de promoção de diversidade, visando maximizar a cobertura de múltiplas interpretações/aspectos de busca e acelerar a transferência de informação entre o usuário e o sistema, nós propusemos e avaliamos um método multimodal de aprendizado para ranqueamento utilizando realimentação de relevância sobre resultados diversificados. Nossa análise experimental mostra que o uso conjunto de múltiplas fontes de informação teve impacto positivo nos algoritmos de balanceamento entre relevância e diversidade. Estes resultados sugerem que a integração de filtragem e re-ranqueamento multimodais é eficaz para o aumento da relevância dos resultados e também como mecanismo de potencialização dos métodos de diversificação. Além disso, com uma análise experimental minuciosa, nós investigamos várias questões de pesquisa relacionadas à possibilidade de aumento da diversidade dos resultados e a manutenção ou até mesmo melhoria da sua relevância em sessões interativas. Adicionalmente, nós analisamos como o esforço em diversificar afeta os resultados gerais de uma sessão de busca e como diferentes abordagens de diversificação se comportam para diferentes modalidades de dados. Analisando a eficácia geral e também em cada iteração de realimentação de relevância, nós mostramos que introduzir diversidade nos resultados pode prejudicar resultados iniciais, enquanto que aumenta significativamente a eficácia geral em uma sessão de busca, considerando-se não apenas a relevância e diversidade geral, mas também o quão cedo o usuário é exposto ao mesmo montante de itens relevantes e nível de diversidadeAbstract: Information retrieval methods, especially considering multimedia data, have evolved towards the integration of multiple sources of evidence in the analysis of the relevance of items considering a given user search task. In this context, for attenuating the semantic gap between low-level features extracted from the content of the digital objects and high-level semantic concepts (objects, categories, etc.) and making the systems adaptive to different user needs, interactive models have brought the user closer to the retrieval loop allowing user-system interaction mainly through implicit or explicit relevance feedback. Analogously, diversity promotion has emerged as an alternative for tackling ambiguous or underspecified queries. Additionally, several works have addressed the issue of minimizing the required user effort on providing relevance assessments while keeping an acceptable overall effectiveness. This thesis discusses, proposes, and experimentally analyzes multimodal and interactive diversity-oriented information retrieval methods. This work, comprehensively covers the interactive information retrieval literature and also discusses about recent advances, the great research challenges, and promising research opportunities. We have proposed and evaluated two relevance-diversity trade-off enhancement work-flows, which integrate multiple information from images, such as: visual features, textual metadata, geographic information, and user credibility descriptors. In turn, as an integration of interactive retrieval and diversity promotion techniques, for maximizing the coverage of multiple query interpretations/aspects and speeding up the information transfer between the user and the system, we have proposed and evaluated a multimodal learning-to-rank method trained with relevance feedback over diversified results. Our experimental analysis shows that the joint usage of multiple information sources positively impacted the relevance-diversity balancing algorithms. Our results also suggest that the integration of multimodal-relevance-based filtering and reranking was effective on improving result relevance and also boosted diversity promotion methods. Beyond it, with a thorough experimental analysis we have investigated several research questions related to the possibility of improving result diversity and keeping or even improving relevance in interactive search sessions. Moreover, we analyze how much the diversification effort affects overall search session results and how different diversification approaches behave for the different data modalities. By analyzing the overall and per feedback iteration effectiveness, we show that introducing diversity may harm initial results whereas it significantly enhances the overall session effectiveness not only considering the relevance and diversity, but also how early the user is exposed to the same amount of relevant items and diversityDoutoradoCiência da ComputaçãoDoutor em Ciência da ComputaçãoP-4388/2010140977/2012-0CAPESCNP

    Using contextual spaces for image re-ranking and rank aggregation

    No full text
    Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)This article presents two novel re-ranking approaches that take into account contextual information defined by the K-Nearest Neighbours (KNN) of a query image for improving the effectiveness of CBIR systems. The main contributions of this article are the definition of the concept of contextual spaces for encoding contextual information of images; the definition of two new re-ranking algorithms that exploit contextual information encoded in contextual spaces; and the evaluation of the proposed algorithms in several CBIR tasks related to the combination of image descriptors; combination of visual and textual descriptors; and combination of post-processing (re-ranking) methods. We conducted a large evaluation protocol involving visual descriptors (considering shape, color, and texture) and textual descriptors, various datasets, and comparisons with other post-processing methods. Experimental results demonstrate the effectiveness of our approaches.693689716AMDFAEPEX [2007/-52015-0, 2009/-18438-7]Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)DGA/-UNICAMPCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)FAEPEX [2007/-52015-0, 2009/-18438-7

    Um arcabouço multimodal para geocodificação de objetos digitais

    Get PDF
    Orientador: Ricardo da Silva TorresTese (doutorado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: Informação geográfica é usualmente encontrada em objetos digitais (como documentos, imagens e vídeos), sendo de grande interesse utilizá-la na implementação de diferentes serviços. Por exemplo, serviços de navegação baseados em mapas e buscas geográficas podem se beneficiar das localizações geográficas associadas a objetos digitais. A implementação destes serviços, no entanto, demanda o uso de coleções de dados geocodificados. Este trabalho estuda a combinação de conteúdo textual e visual para geocodificar objetos digitais e propõe um arcabouço de agregação de listas para geocodificação multimodal. A informação textual e visual de vídeos e imagens é usada para definir listas ordenadas. Em seguida, elas são combinadas e a nova lista ordenada resultante é usada para definir a localização geográfica de vídeos e imagens. Uma arquitetura que implementa essa proposta foi projetada de modo que módulos específicos para cada modalidade (e.g., textual ou visual) possam ser aperfeiçoados independentemente. Outro componente é o módulo de fusão responsável pela combinação das listas ordenadas definidas por cada modalidade. Outra contribuição deste trabalho é a proposta de uma nova medida de avaliação da efetividade de métodos de geocodificação chamada Weighted Average Score (WAS). Ela é baseada em ponderações de distâncias que permitem avaliar a efetividade de uma abordagem, considerando todos os resultados de geocodificação das amostras de teste. O arcabouço proposto foi validado em dois contextos: desafio Placing Task da iniciativa MediaEval 2012, que consiste em atribuir, automaticamente, coordenadas geográficas a vídeos; e geocodificação de fotos de prédios da Virginia Tech (VT) nos EUA. No contexto do desafio Placing Task, os resultados mostram como nossa abordagem melhora a geocodificação em comparação a métodos que apenas contam com uma modalidade (sejam descritores textuais ou visuais). Nós mostramos ainda que a proposta multimodal produziu resultados comparáveis às melhores submissões que também não usavam informações adicionais além daquelas disponibilizadas na base de treinamento. Em relação à geocodificação das fotos de prédios da VT, os experimentos demostraram que alguns dos descritores visuais locais produziram resultados efetivos. A seleção desses descritores e sua combinação melhoraram esses resultados quando a base de conhecimento tinha as mesmas características da base de testeAbstract: Geographical information is often enclosed in digital objects (like documents, images, and videos) and its use to support the implementation of different services is of great interest. For example, the implementation of map-based browser services and geographic searches may take advantage of geographic locations associated with digital objects. The implementation of such services, however, demands the use of geocoded data collections. This work investigates the combination of textual and visual content to geocode digital objects and proposes a rank aggregation framework for multimodal geocoding. Textual and visual information associated with videos and images are used to define ranked lists. These lists are later combined, and the new resulting ranked list is used to define appropriate locations. An architecture that implements the proposed framework is designed in such a way that specific modules for each modality (e.g., textual and visual) can be developed and evolved independently. Another component is a data fusion module responsible for combining seamlessly the ranked lists defined for each modality. Another contribution of this work is related to the proposal of a new effectiveness evaluation measure named Weighted Average Score (WAS). The proposed measure is based on distance scores that are combined to assess how effective a designed/tested approach is, considering its overall geocoding results for a given test dataset. We validate the proposed framework in two contexts: the MediaEval 2012 Placing Task, whose objective is to automatically assign geographical coordinates to videos; and the task of geocoding photos of buildings from Virginia Tech (VT), USA. In the context of Placing Task, obtained results show how our multimodal approach improves the geocoding results when compared to methods that rely on a single modality (either textual or visual descriptors). We also show that the proposed multimodal approach yields comparable results to the best submissions to the Placing Task in 2012 using no additional information besides the available development/training data. In the context of the task of geocoding VT building photos, performed experiments demonstrate that some of the evaluated local descriptors yield effective results. The descriptor selection criteria and their combination improved the results when the used knowledge base has the same characteristics of the test setDoutoradoCiência da ComputaçãoDoutora em Ciência da Computaçã

    Image Segmentation Through Combined Methods: Watershed Transform, Unsupervised Distance Learning And Normalized Cut

    No full text
    Research on image processing has shown that combining segmentation methods may lead to a solid approach to extract semantic information from different sort of images. Within this context, the Normalized Cut (NCut) is usually used as a final partitioning tool for graphs modeled in some chosen method. This work explores the Watershed Transform as a modeling tool, using different criteria of the hierarchical Watershed to convert an image into an adjacency graph. The Watershed is combined with an unsupervised distance learning step that redistributes the graph weights and redefines the Similarity matrix, before the final segmentation step using NCut. Adopting the Berkeley Segmentation Data Set and Benchmark as a background, our goal is to compare the results obtained for this method with previous work to validate its performance. © 2014 IEEE.153156IEEE Computer Society,The Institute of Electrical and Electronics Engineers (IEEE)Arbelaez, P., Maire, M., Fowlkes, C., Malik, J., Contour detection and hierarchical image segmentation (2011) IEEE Trans. Pattern Anal. Mach. Intell., 33 (5), pp. 898-916. , http://dx.doi.org/10.1109/TPAMI.2010.161, MayCour, T., Benezit, F., Shi, J., Spectral segmentation with multiscale graph decomposition (2005) Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, 2, pp. 1124-1131. , vol. 2De Bock, J., De Smet, P., Philips, W., A fast sequential rainfalling watershed segmentation algorithm (2005) Proceedings of the 7th International Conference on Advanced Concepts for Intelligent Vision Systems, pp. 476-482. , ACIVS'05, Springer-Verlag, Berlin, HeidelbergJegou, H., Schmid, C., Harzallah, H., Verbeek, J., Accurate image search using the contextual dissimilarity measure (2010) IEEE Transactions on Pattern Analysis and Machine Intelligence, 32 (1), pp. 2-11Jiang, J., Wang, B., Tu, Z., Unsupervised metric learning by selfsmoothing operator (2011) IEEE International Conference on Computer Vision (ICCV'2011), pp. 794-801Monteiro, F., Campilho, A., Watershed framework to region-based image segmentation (2008) Pattern Recognition, 2008. ICPR 2008. 19th International Conference on, pp. 1-4Pedronette, D.C.G., Da S Torres, R., Exploiting contextual spaces for image re-ranking and rank aggregation (2011) ACM International Conference on Multimedia Retrieval (ICMR'11), pp. 13:1-13:8Pedronette, D.C.G., Da S Torres, R., Tripodi, R.C., Using contextual spaces for image re-ranking and rank aggregation (2012) Multimedia Tools and Applications, , to appear, On-LineShi, J., Malik, J., Normalized cuts and image segmentation (2000) Pattern Analysis and Machine Intelligence, IEEE Transactions on, 22 (8), pp. 888-905Yang, X., Prasad, L., Latecki, L., Affinity learning with diffusion on tensor product graph (2013) Pattern Analysis and Machine Intelligence, IEEE Transactions on, 35 (1), pp. 28-3

    Multimedia Multimodal Geocoding

    No full text
    This work is developed in the context of the placing task of the MediaEval 2011 initiative. The objective is to geocode (or geotag) a set of videos, i.e., automatically assign geographical coordinates to them. This paper presents an architecture for multimodal geocoding that exploits both visual and textual descriptions associated with videos. This work also describes our efforts regarding the implementation of this architecture to demonstrate its applicability. Conducted experiments show how our multimodal approach enhances the results compared to relying on a single modality. © 2012 Authors.474477Google,Esri,Microsoft,Nokia,NVIDIAAlmeida, J., Leite, N.J., Torres, R.D.S., Comparison of video sequences with histograms of motion patterns (2011) ICIP, pp. 3673-3676Candeias, R., Martins, B., Associating relevant photos to georeferenced textual documents through rank aggregation Int. Semantic Web Conf. - Terra Cognita Workshop, 2011Choi, J., Lei, H., Friedland, G., The 2011 ICSI video location estimation system (2011) Working Notes Proc. MediaEval Workshop, 807Croft, W.B., Combining approaches to information retrieval (2002) Adv. in Inf. Retrieval, 7, pp. 1-36. , Springer USFaria, F.A., Veloso, A., De Almeida, H.M., Valle, E., Torres, R.D.S., Gonçalves, M.A., M Jr., W., Learning to rank for content-based image retrieval (2010) ACM MIR, pp. 285-294Friendly, M., Corrgrams: Exploratory displays for correlation matrices (2002) The American Statistician, 56 (4), pp. 316-324Hays, J., Efros, A.A., im2gps: Estimating geographic information from a single image (2008) CVPRJones, C.B., Purves, R.S., Geographical information retrieval (2008) Int. J. Geo. Info. Science, 22 (3), pp. 219-228Kalantidis, Y., Tolias, G., Avrithis, Y., Phinikettos, M., Spyrou, E., Mylonas, P., Kollias, S., Viral: Visual image retrieval and localization (2011) Mult. Tools and App., 51, pp. 555-592Kelm, P., Schmiedeke, S., Sikora, T., A hierarchical, multi-modal approach for placing videos on the map using millions of flickr photographs (2011) Workshop on Social and Behavioural Networked Media Access, pp. 15-20Larson, M., Soleymani, M., Serdyukov, P., Rudinac, S., Wartena, C., Murdock, V., Friedland, G., Jones, G.J.F., Automatic tagging and geotagging in video collections and communities (2011) ICMR, pp. 51:1-51:8Li, L.T., Almeida, J., Torres, R.D.S., RECOD working notes for placing task MediaEval 2011 (2011) Working Notes Proc. MediaEval Workshop, 807Luo, J., Joshi, D., Yu, J., Gallagher, A., Geotagging in multimedia and computer vision - A survey (2011) Mult. Tools and App., 51, pp. 187-211Manning, C.D., Raghavan, P., Schtze, H., (2008) Introduction to Information Retrieval, , Cambridge University Press, New York, NY, USAPedronette, D.C.G., Torres, R.D.S., Exploiting clustering approaches for image re-ranking (2011) J. Vis. Lang. and Comp., 22 (6), pp. 453-466Pedronette, D.C.G., Torres, R.D.S., Calumby, R.T., Using contextual spaces for image re-ranking and rank aggregation (2012) Mult. Tools and App., pp. 1-28Penatti, O.A.B., Li, L.T., Almeida, J., Torres, R.D.S., A Visual Approach for Video Geocoding using Bag-of-Scenes (2012) ICMRRae, A., Murdock, V., Serdyukov, P., Kelm, P., Working notes for the placing task at MediaEval 2011 (2011) Working Notes Proc. MediaEval Workshop, 807Van Laere, O., Schockaert, S., Dhoedt, B., Finding locations of flickr resources using language models and similarity search (2011) International Conference on Multimedia Retrieval, pp. 48:1-48:
    corecore