9 research outputs found

    A Bayesian Additive Model for Understanding Public Transport Usage in Special Events

    Get PDF
    Public special events, like sports games, concerts and festivals are well known to create disruptions in transportation systems, often catching the operators by surprise. Although these are usually planned well in advance, their impact is difficult to predict, even when organisers and transportation operators coordinate. The problem highly increases when several events happen concurrently. To solve these problems, costly processes, heavily reliant on manual search and personal experience, are usual practice in large cities like Singapore, London or Tokyo. This paper presents a Bayesian additive model with Gaussian process components that combines smart card records from public transport with context information about events that is continuously mined from the Web. We develop an efficient approximate inference algorithm using expectation propagation, which allows us to predict the total number of public transportation trips to the special event areas, thereby contributing to a more adaptive transportation system. Furthermore, for multiple concurrent event scenarios, the proposed algorithm is able to disaggregate gross trip counts into their most likely components related to specific events and routine behavior. Using real data from Singapore, we show that the presented model outperforms the best baseline model by up to 26% in R2 and also has explanatory power for its individual components.Comment: 14 pages, IEEE Transactions on Pattern Analysis and Machine Intelligence (Volume: 39 , Issue: 11 , Nov. 1 2017

    Image Retrieval in Digital Libraries - A Large Scale Multicollection Experimentation of Machine Learning techniques

    Get PDF
    International audienceWhile historically digital heritage libraries were first powered in image mode, they quickly took advantage of OCR technology to index printed collections and consequently improve the scope and performance of the information retrieval services offered to users. But the access to iconographic resources has not progressed in the same way, and the latter remain in the shadows: manual incomplete and heterogeneous indexation, data silos by iconographic genre. Today, however, it would be possible to make better use of these resources, especially by exploiting the enormous volumes of OCR produced during the last two decades, and thus valorize these engravings, drawings, photographs, maps, etc. for their own value but also as an attractive entry point into the collections, supporting discovery and serenpidity from document to document and collection to collection. This article presents an ETL (extract-transform-load) approach to this need, that aims to: Identify andextract iconography wherever it may be found, in image collections but also in printed materials (dailies, magazines, monographies); Transform, harmonize and enrich the image descriptive metadata (in particular with machine learning classification tools); Load it all into a web app dedicated to image retrieval. The approach is pragmatically dual, since it involves leveraging existing digital resources and (virtually) on-the-shelf technologies.Si historiquement, les bibliothèques numériques patrimoniales furent d’abord alimentées par des images, elles profitèrent rapidement de la technologie OCR pour indexer les collections imprimées afin d’améliorer périmètre et performance du service de recherche d’information offert aux utilisateurs. Mais l’accès aux ressources iconographiques n’a pas connu les mêmes progrès et ces dernières demeurent dans l’ombre : indexation manuelle lacunaire, hétérogène et non viable à grande échelle ; silos documentaires par genre iconographique ; recherche par le contenu (CBIR, content-based image retrieval) encore peu opérationnelle sur les collections patrimoniales. Aujourd’hui, il serait pourtant possible de mieux valoriser ces ressources, en particulier en exploitant les énormes volumes d’OCR produits durant les deux dernières décennies (tant comme descripteur textuel que pour l’identification automatique des illustrations imprimées). Et ainsi mettre en valeur ces gravures, dessins, photographies, cartes, etc. pour leur valeur propre mais aussi comme point d’entrée dans les collections, en favorisant découverte et rebond de document en document, de collection à collection. Cet article décrit une approche ETL (extract-transform-load) appliquée aux images d’une bibliothèque numérique à vocation encyclopédique : identifier et extraire l’iconographie partout où elle se trouve (dans les collections image mais aussi dans les imprimés : presse, revue, monographie) ; transformer, harmoniser et enrichir ses métadonnées descriptives grâce à des techniques d’apprentissage machine – machine learning – pour la classification et l’indexation automatiques ; charger ces données dans une application web dédiée à la recherche iconographique (ou dans d’autres services de la bibliothèque). Approche qualifiée de pragmatique à double titre, puisqu’il s’agit de valoriser des ressources numériques existantes et de mettre à profit des technologies (quasiment) mâtures

    Image Retrieval in Digital Libraries: A Large Scale Multicollection Experimentation of Machine Learning techniques

    Get PDF
    While historically digital heritage libraries were first powered in image mode, they quickly took advantage of OCR technology to index printed collections and consequently improve the scope and performance of the information retrieval services offered to users. But the access to iconographic resources has not progressed in the same way, and the latter remain in the shadows: manual incomplete and heterogeneous indexation, data silos by iconographic genre. Today, however, it would be possible to make better use of these resources, especially by exploiting the enormous volumes of OCR produced during the last two decades, and thus valorize these engravings, drawings, photographs, maps, etc. for their own value but also as an attractive entry point into the collections, supporting discovery and serenpidity from document to document and collection to collection. This article presents an ETL (extract-transform-load) approach to this need, that aims to: Identify and extract iconography wherever it may be found, in image collections but also in printed materials (dailies, magazines, monographies); Transform, harmonize and enrich the image descriptive metadata (in particular with machine learning classification tools); Load it all into a web app dedicated to image retrieval. The approach is pragmatically dual, since it involves leveraging existing digital resources and (virtually) on-the-shelf technologies.Si historiquement, les bibliothèques numériques patrimoniales furent d’abord alimentées par des images, elles profitèrent rapidement de la technologie OCR pour indexer les collections imprimées afin d’améliorer périmètre et performance du service de recherche d’information offert aux utilisateurs. Mais l’accès aux ressources iconographiques n’a pas connu les mêmes progrès et ces dernières demeurent dans l’ombre : indexation manuelle lacunaire, hétérogène et non viable à grande échelle ; silos documentaires par genre iconographique ; recherche par le contenu (CBIR, content-based image retrieval) encore peu opérationnelle sur les collections patrimoniales. Aujourd’hui, il serait pourtant possible de mieux valoriser ces ressources, en particulier en exploitant les énormes volumes d’OCR produits durant les deux dernières décennies (tant comme descripteur textuel que pour l’identification automatique des illustrations imprimées). Et ainsi mettre en valeur ces gravures, dessins, photographies, cartes, etc. pour leur valeur propre mais aussi comme point d’entrée dans les collections, en favorisant découverte et rebond de document en document, de collection à collection. Cet article décrit une approche ETL (extract-transform-load) appliquée aux images d’une bibliothèque numérique à vocation encyclopédique : identifier et extraire l’iconographie partout où elle se trouve (dans les collections image mais aussi dans les imprimés : presse, revue, monographie) ; transformer, harmoniser et enrichir ses métadonnées descriptives grâce à des techniques d’apprentissage machine – machine learning – pour la classification et l’indexation automatiques ; charger ces données dans une application web dédiée à la recherche iconographique (ou dans d’autres services de la bibliothèque). Approche qualifiée de pragmatique à double titre, puisqu’il s’agit de valoriser des ressources numériques existantes et de mettre à profit des technologies (quasiment) mâtures

    Identification des problèmes phytosanitaires de la vigne au sein de la parcelle : association de l’imagerie à ultra-haute résolution spatiale et de l’apprentissage profond

    Get PDF
    Notre époque est indéniablement marquée par les changements climatiques et la baisse drastique de la biodiversité, questionnant la durabilité de l'ensemble de nos systèmes productifs. En agriculture, la remise en cause des pratiques dites conventionnelles est de plus en plus prégnante. L'usage des pesticides est l'une des pratiques les plus controversées. Bien qu'ayant contribués à l'accroissement sans précédent des rendements agricoles dans les années 1970, ces produits inquiètent désormais par leur dangerosité, autant pour la santé humaine que pour celle de l'environnement. Ils impactent notamment de façon directe la santé des populations d'insectes, dont les pollinisateurs, et du microbiote des sols. Sur le long terme, si l'usage actuel persiste, un déséquilibre des écosystèmes est à craindre. Il y a donc une urgence à sortir du système actuel de gestion de problèmes phytosanitaires. Cette évolution ne va pas être du même niveau de simplicité pour toutes les cultures. La viticulture utilise des quantités importantes de pesticides. En France, en 2006, la vigne représentait 3,3 % de la surface agricole mais 14,4 % des pesticides utilisés. Réaliser des traitements adaptés à la situation phytosanitaire réelle de la parcelle contribuerait à réduire cette consommation. Cependant, connaître l'état de santé précis d'une parcelle donnée n'est pas une information facile à obtenir. Prospecter tout un vignoble prend beaucoup de temps, ce qui rend sa réalisation régulière difficile. Dans ce projet, nous souhaitons faciliter la prospection par son automatisation. Celle-ci pourrait se matérialiser par une caméra montée sur un robot, un tracteur ou un drone, dont les images seraient ensuite analysées automatiquement, permettant à l'agriculteur d'obtenir une carte de l'état de santé de ses parcelles. Toutefois, développer un tel outil est loin d'être simple du fait de la complexité des cultures. Celui-ci doit être capable de mener une analyse malgré la diversité des variétés, des stades phénologiques mais aussi des ravageurs, des maladies et de l'ensemble de leurs symptômes. La diversité des conditions d'acquisitions possibles et la complexité du feuillage et de l'arrière-plan constituent également des défis pour l'analyse, empêchant le développement d'un outil de prospection automatique fiable. Dans ce projet de doctorat, nous avons utilisé de l'apprentissage profond, et plus particulièrement des réseaux de neurones convolutifs, comme technique d'analyse d'images pour la reconnaissance de problèmes phytosanitaires de la vigne. Nous avons plus particulièrement étudié deux maladies : le mildiou et la flavescence dorée. Deux jeux de données conséquents et reflétant la complexité des cultures ont été bâtis à partir de photos Rouge-Vert-Bleu acquises dans des vignobles. L'objectif de ce projet était d'évaluer si les réseaux de neurones convolutifs sont adaptés à l'analyse d'images pour un outil de prospection automatique. Pour cela, tout au long de nos travaux, nous avons analysé la réponse des modèles entraînés à plusieurs scénarios. Tout d'abord, nous avons confronté les modèles à des images acquises en champ, donc possédant une complexité intrinsèque. Nous avons également évalué la capacité de ces réseaux à reconnaître une maladie possédant différents symptômes présents sur plusieurs organes, le mildiou. Nous avons ensuite évalué la robustesse de l'analyse face au changement de cépages et face au changement des conditions d'acquisition des images, dont un changement de la résolution spatiale et de la plateforme d'acquisition. Nos résultats montrent que les réseaux de neurones convolutifs sont tout à fait appropriés pour la reconnaissance de problèmes phytosanitaires, fournissant des analyses à la fiabilité inédite. Pour la reconnaissance du mildiou et de six autres classes, le modèle développé a obtenu 95,48 % de bonnes prédictions. Quant à celle de la flavescence dorée, le modèle développé a atteint un taux de vrais positifs de 98,48 % sur les images issues de notre propre acquisition, et de 100 % sur un ensemble réduit d'images provenant d'une source externe. Cependant, nous avons également pu identifier plusieurs limites qui restent à surmonter. Principalement, il s'agit de l'incapacité de nos modèles à analyser des images dont le contenu, bien que thématiquement proche, voire similaire, est trop éloigné de celui des images utilisées en entraînement. Néanmoins, plusieurs techniques innovantes, telles que l'apprentissage actif (active learning) ou auto-supervisé (self-supervised learning), peuvent être adoptées pour surmonter ce problème sans forcément passer par la constitution d'un ensemble d'entraînement annoté parfaitement exhaustif. Ainsi, bien que des améliorations soient nécessaires, le contexte actuel est des plus enthousiasmants pour mener à bien le développement d'un outil de reconnaissance de problèmes phytosanitaires, et par extension, d'outils de prospection automatique pour les vignes, mais aussi pour toutes les autres cultures.Abstract : Climate change and the severe decline in biodiversity undeniably mark our era, questioning the sustainability of all our production systems. In agriculture, the reconsideration of so-called conventional practices is more and more prevalent. Use of pesticides is one of the most controversial practices. Despite their contribution to the unprecedented increase in agricultural yields in the 1970s, these products are now a matter of concern because of their danger to both human health and the environment. In particular, they directly impact the health of insect populations, including pollinators, as well as soil microbiota. In the long term, if current use persists, imbalance in the ecosystems is to be expected. Therefore, urgent action is needed to move away from the current phytosanitary management system. This change will not be as simple for all crops. Viticulture uses significant quantities of pesticides. In France, in 2006, vineyards covered 3.3 % of the agricultural surface but accounted for 14.4 % of the pesticides used. Applying treatments according to the real health conditions of the field would reduce this consumption. However, it is not simple to know the precise health status of a given plot. Scouting an entire vineyard requires a significant amount of time, which makes it difficult to do so on a regular basis. In this project, we intend to facilitate scouting by its automation. It could be achieved by a camera mounted on a robot, a tractor or a drone, whose images would then be automatically analyzed, providing the farmer with a health map of his fields. However, developing such a tool is not easy given the crops complexity. It must be able to analyze images despite the diversity of varieties, phenological stages, as well as the diversity of pests, diseases and all their symptoms. The variety of acquisition conditions and the complexity of the foliage and background also constitute challenges for the analysis, hindering the development of a reliable automatic scouting tool. In this study, we used deep learning, more specifically convolutional neural networks, as a technique to analyze images for the recognition of grapevine phytosanitary problems. In particular, we studied two diseases: downy mildew and flavescence dorée. Two large datasets reflecting the complexity of the crops were built from Red-Green-Blue photos taken in vineyards. The goal of this project was to evaluate whether convolutional neural networks are suitable for image analysis for an automatic scouting tool. Therefore, throughout our studies, we analyzed the response of the trained models to several scenarios, firstly to images captured in the field but also to diseases with many symptoms affecting several organs. We also evaluated the robustness of the analysis to changes in grape varieties and to changes in image acquisition conditions, including a change in spatial resolution and acquisition platform. Our results show that convolutional neural networks are well suited for our application, providing unprecedented reliable analyses. For the recognition of downy mildew and six other classes, the developed model achieved 95.48 % of good predictions. Regarding flavescence dorée, the model developed reached a true positive rate of 98.48 % on images from our own acquisition and 100 % on a reduced set of images from an external source. However, we were also able to identify several limitations that still need to be overcome. Mainly, the inability of our models to analyze images whose content, although thematically close or even similar, is too far away from the images used in training. Nevertheless, several innovative techniques, such as active learning or self-supervised learning, could possibly overcome this problem without the need for a perfectly comprehensive training dataset. Therefore, although improvements are necessary, the current context is most exciting to carry out the development of a phytosanitary problem recognition tool, and by extension, of automatic prospecting tools for grapevines, as well as all other crops

    ReidentificaciĂłn de personas basada en aprendizaje de caracterĂ­sticas de partes del cuerpo mediante redes convolucionales en triplet loss

    Get PDF
    Reidentificación de personas consiste en reconocer si imágenes de dos personas obtenidas a través de un sistema de múltiples cámaras que no se superponen correspondan a la misma persona. A pesar de recientes avances en este campo, este problema aún permanece como un reto debido a que las imágenes en cámaras de viodevigilancia suelen ser de baja calidad, presentan cambios en la iluminación, así como variaciones en las poses de las personas. Métodos basados en aprendizaje profundo han alcanzado un notable avance en este tema, estos tienen como objetivo aprender las características que permitan discriminar de qué persona se trata dada una imagen. En esta tesis, proponemos un modelo diseñado desde cero que se apoya en la idea de función de perdida de tripletes (triplet loss) en redes neuronales convolucionales basados en partes del cuerpo en la reidentificación de personas, llamamos a nuestra arquitectura AETCNN. Nuestro modelo es capaz de aprender las características de las partes del cuerpo en imágenes de cámaras de vigilancia e integrar esas informaciones para producir las características finales. La eficacia de nuestro método se muestra al evaluar en diferentes bases de datos publica, siguiendo el mismo protocolo utilizado en el estado del arte comparando métricas como tiempo de entrenamiento de la red y capacidad de predicción. Experimentos muestran que nuestro enfoque alcanza resultados prometedores, obteniendo a una tasa de aciertos en ranking-1 de 81,20% ,65,50% y 34,40% en bases de datos como CUHK01, CUHK03 y PRID2011 respectivamente, contribuyendo así en el estado del arte.Trabajo de investigació

    Convolutional Neural Network in Pattern Recognition

    Get PDF
    Since convolutional neural network (CNN) was first implemented by Yann LeCun et al. in 1989, CNN and its variants have been widely implemented to numerous topics of pattern recognition, and have been considered as the most crucial techniques in the field of artificial intelligence and computer vision. This dissertation not only demonstrates the implementation aspect of CNN, but also lays emphasis on the methodology of neural network (NN) based classifier. As known to many, one general pipeline of NN-based classifier can be recognized as three stages: pre-processing, inference by models, and post-processing. To demonstrate the importance of pre-processing techniques, this dissertation presents how to model actual problems in medical pattern recognition and image processing by introducing conceptual abstraction and fuzzification. In particular, a transformer on the basis of self-attention mechanism, namely beat-rhythm transformer, greatly benefits from correct R-peak detection results and conceptual fuzzification. Recently proposed self-attention mechanism has been proven to be the top performer in the fields of computer vision and natural language processing. In spite of the pleasant accuracy and precision it has gained, it usually consumes huge computational resources to perform self-attention. Therefore, realtime global attention network is proposed to make a better trade-off between efficiency and performance for the task of image segmentation. To illustrate more on the stage of inference, we also propose models to detect polyps via Faster R-CNN - one of the most popular CNN-based 2D detectors, as well as a 3D object detection pipeline for regressing 3D bounding boxes from LiDAR points and stereo image pairs powered by CNN. The goal for post-processing stage is to refine artifacts inferred by models. For the semantic segmentation task, the dilated continuous random field is proposed to be better fitted to CNN-based models than the widely implemented fully-connected continuous random field. Proposed approaches can be further integrated into a reinforcement learning architecture for robotics
    corecore