71 research outputs found

    PlaNet - Photo Geolocation with Convolutional Neural Networks

    Full text link
    Is it possible to build a system to determine the location where a photo was taken using just its pixels? In general, the problem seems exceptionally difficult: it is trivial to construct situations where no location can be inferred. Yet images often contain informative cues such as landmarks, weather patterns, vegetation, road markings, and architectural details, which in combination may allow one to determine an approximate location and occasionally an exact location. Websites such as GeoGuessr and View from your Window suggest that humans are relatively good at integrating these cues to geolocate images, especially en-masse. In computer vision, the photo geolocation problem is usually approached using image retrieval methods. In contrast, we pose the problem as one of classification by subdividing the surface of the earth into thousands of multi-scale geographic cells, and train a deep network using millions of geotagged images. While previous approaches only recognize landmarks or perform approximate matching using global image descriptors, our model is able to use and integrate multiple visible cues. We show that the resulting model, called PlaNet, outperforms previous approaches and even attains superhuman levels of accuracy in some cases. Moreover, we extend our model to photo albums by combining it with a long short-term memory (LSTM) architecture. By learning to exploit temporal coherence to geolocate uncertain photos, we demonstrate that this model achieves a 50% performance improvement over the single-image model

    Multimodal news article analysis

    Get PDF
    The intersection of Computer Vision and Natural Language Processing has been a hot topic of research in recent years, with results that were unthinkable only a few years ago. In view of this progress, we want to highlight online news articles as a potential next step for this area of research. The rich interrelations of text, tags, images or videos, as well as a vast corpus of general knowledge are an exciting benchmark for high-capacity models such as the deep neural networks. In this paper we present a series of tasks and baseline approaches to leverage corpus such as the BreakingNews dataset.Peer ReviewedPostprint (author's final draft

    Plat Nomor Kendaraan dengan Convolution Neural Network

    Get PDF
    The development of Deep Learning technology is very good at detecting Objects. One of them is detection on the vehicle number plate. This method can be applied to Computer Vision to process images using DensetNet121, NasNetLarge, VGG16 and VGG19 methods. The most basic difference between Machine Learning and Deep Learning is the inclusion of a Hidden Layer and what distinguishes the Deep Learning process using neurons as a process from input, process to output. Feature extraction is done directly with the Deep Learning process. In terms of time, training models with Deep Learning are very long, when compared to Machine Learning. The dataset comes from Kaggle, then training is carried out with four Deep Learning models, resulting in a model. There are differences in conducting the training process. Before carrying out the Training process, a pre-paration process from the Image Dataset is carried out. The dataset is divided into two parts, the Training Dataset and the Testing Dataset. After the training model is completed, it is continued with the Testing process and measuring the performance of the model's accuracy. The accuracy of the four models resulting from Deep Learning training is also presente

    Підвищення точності геолокації об’єкта на цифровому зображенні при використанні комбінованих технологій аналізу даних

    Get PDF
    The paper considers the problem of finding the location of an object based on the digital data of its image. In particular, attention is paid to estimating the GPS location of an image with a street background image by searching for relevant images in a reference image database and using comparison algorithms. Convolutional neural networks (CNN) are used for image classification and object detection for this task. The updated Faster R-CNN object detection network architecture is used to detect buildings in the query and reference images in the work. Next, for each building in the image, we extract k nearest neighbors from the benchmark using a Siamese Convolutional Neural Network, both positive image matching pairs and negative image matching pairs are considered. To find the correct NN for each query construction, a multiple nearest neighbor matching method based on the dominant set is developed. The proposed framework is evaluated on a new dataset consisting of pairs of «street view» and «bird's eye view» images. Experimental results show that the proposed method provides better geolocation accuracy than other approaches.У роботі розглянута проблема знаходження місцезнаходження об’єкта за цифровими даними його зображення. Зокрема, приділена увага оцінці GPS-розташування зображення з фоновим зображенням вулиць шляхом пошуку відповідних зображень у довідковій базі даних зображень та використання алгоритмів порівняння. Для поставленого завдання використовуються згорткові нейронні мережі (CNN) у класифікації зображень та виявлення об'єктів. Для виявлення будівель у запиті та еталонних зображення у роботі використовується оновлена архітектура мережі виявлення об’єктів Faster R-CNN. Далі для кожної будівлі на зображенні ми виймаємо k найближчих сусідів з еталона з використанням сіамської згорткової нейронної мережі, враховуються як позитивні пари зображень, що збігаються, так і негативні пари. Щоб знайти правильний NN для кожної побудови запиту, розроблено метод зіставлення кількох найближчих сусідів на основі домінуючого набору. Оцінено запропоновану структуру на новому наборі даних, який складається з пар зображень «з видом на вулицю» та «з видом з висоти пташиного польоту». Експериментальні результати показують, що запропонований метод забезпечує кращу точність геолокації, ніж інші підходи
    corecore