4 research outputs found
Lecture automatique d'un ticket de caisse par vision embarquée sur un téléphone mobile
Travaux réalisés dans le cadre d'une thèse CIFRENational audienceThis work addresses the automatic reading of sale receipts acquired with a smartphone's camera and the extraction of essential informations like the store brands, all the purchased products , their price etc. It is divided into two major tasks : the optical character recognition that is made complex due to the nature of the document often damaged, crumpled or torned and the semantic data analysis to identify purchased product without ambiguity. In this paper, we introduce a solution that enables a "guided" capture on smartphone and a receipt decoding on remote server.L'objectif de ces travaux est de créer un système capable, à partir d'une simple vue prise par un smartphone, d'exploiter le contenu d'un ticket de caisse, et d'en extraire des informations telles que le point de vente, les produits ache-tés, leurs prix etc. On distingue deux étapes majeures : la reconnaissance optique de caractères sur des tickets qui peuvent être froissés, déchirés... et l'analyse sémantique afin d'identifier les produits achetés sans ambiguïté. Dans ce papier, nous présentons une solution qui effectue une acquisition "guidée" d'une image sur smartphone et une lecture du contenu sur un serveur distant
Lecture automatique de tickets de caisse
The large increase in multimedia data volume and especially the dematerialization of paper documents requires the implementation of solutions to automatically analyze these documents in order to facilitate their storage and their use.Moreover, there is currently a strong interest of companies or institutes to access consumer information of populations or population groups in order to have a better understanding of consumer behavior. The sales receipt is a solution to obtain this information without strongly soliciting the consumer. The objective of this thesis is to propose a solution to automatically analyze the contents of a sales receipt from a photo taken by a smartphone.We begin by explaining the industrial objectives and, through the development of a demonstrator, we highlight the scientific obstacles of the realization of such a system, from the acquisition of the picture to the extraction of the textual data contained in the ticket. At the end of this study, we propose an original processing chain to best meet all expectations and constraints.Then, we realize a state of the art detailing methods of detection of objects based in particular on deep neural networks (logo detection, text detection...). We also present text recognition methods and existing associated tools (OCR). Finally, we end up evoking some approaches concerning semantic analysis.The first part of the realization of the chain is the pre-treatment. This phase has several goals: checking the presence of a sale receipt within the image, ticket in order to crop it and straighten it, and then to determining the brand of the receipt. In order to minimize false alarms, each of these objectives is obtained after merging the results of two methods based on different sources (image and text).The second part is to analyze the content of the receipt, starting with the semantic segmentation of the receipt areas (header, logo, product list, bottom of receipt, etc.), then performing optical recognition and finally applying a semantic analysis to extract the different relevant information.L'augmentation du volume de données multimédia et notamment la dématérialisation des documents papiers impose la mise en place de solutions permettant d'analyser automatiquement ces documents afin de faciliter leur stockage et leur exploitation.Par ailleurs, il existe actuellement un fort intérêt des entreprises ou des instituts pour accéder aux informations de consommation des populations ou groupes de population afin d'avoir une meilleure compréhension du comportement des consommateurs. Le ticket de caisse est une solution permettant d'obtenir ces informations sans solliciter fortement le consommateur. L'objectif de cette thèse est donc de proposer une solution permettant d'analyser automatiquement le contenu d'un ticket de caisse à partir d'une photo prise par un smartphone.Nous commençons par expliquer les objectifs industriels et, au travers du développement d'un démonstrateur, nous mettons en évidence les verrous scientifiques de la réalisation d'un tel système, de l'acquisition de l'image à l'extraction des données textuelles contenues dans le ticket. A l'issue de cette étude, nous proposons une chaîne de traitement originale pour répondre au mieux à toutes les attentes et contraintes.Ensuite, nous réalisons un état de l'art détaillant les méthodes de détection d'objets basées notamment sur les réseaux de neurones profonds (détection de logo, détection de texte...). Nous présentons également les méthodes de reconnaissance de texte et les outils associés existants (OCR). Enfin nous terminons par évoquer quelques approches concernant l'analyse sémantique.La première partie de la réalisation de la chaîne est la phase de pré-traitement qui va permettre de vérifier la présence d'un ticket dans l'image, de le localiser afin de le rogner et de le redresser, puis de déterminer l'enseigne de ticket. Dans le but de minimiser les fausses alarmes, chacun de ces objectifs est obtenu à l'issue de la fusion du résultat de deux méthodes basées sur des sources différentes (image et texte).La deuxième partie consiste à analyser le contenu du ticket de caisse, en commençant par la segmentation sémantique des zones du ticket de caisse (en-tête, logo, liste de produits, bas de ticket, etc.), puis en réalisant la reconnaissance optique des zones de texte et enfin en appliquant une analyse sémantique afin d'extraire les différentes informations pertinentes
Lecture automatique de tickets de caisse
The large increase in multimedia data volume and especially the dematerialization of paper documents requires the implementation of solutions to automatically analyze these documents in order to facilitate their storage and their use. Moreover, there is currently a strong interest of companies or institutes to access consumer information of populations or population groups in order to have a better understanding of consumer behavior. The sales receipt is a solution to obtain this information without strongly soliciting the consumer. The objective of this thesis is to propose a solution to automatically analyze the contents of a sales receipt from a photo taken by a smartphone.We begin by explaining the industrial objectives and, through the development of demonstrator, we highlight the scientific obstacles of the realization of such a system, from the acquisition of the picture to the extraction of the textual data contained in the ticket. At the end of this study, we propose an original processing chain to best meet all expectations and constraints. Then, we realize a state of the art detailing methods of detection of objects based in particular on deep neural networks (logo detection, text detection...). We also present text recognition methods and existing associated tools (OCR). Finally, we end up evoking some approaches concerning semantic analysis. The first part of the realization of the chain is the pre-treatment. This phase has several goals : checking the presence of a sale receipt within the image, ticket in order to crop it and straighten it, and then to determining the brand of the receipt. In order to minimize false alarms, each of these objectives is obtained after merging the results of two methods based on different sources (image and text). The second part is to analyze the content of the receipt, starting with the semantic segmentation of the receipt areas (header, logo, product list, bottom of receipt, etc.), then performing optical recognition and finally applying a semantic analysis to extract the different relevant information.Nous commençons par expliquer les objectifs industriels et, au travers du développement d'un démonstrateur, nous mettons en évidence les verrous scientifiques de la réalisation d'un tel système, de l'acquisition de l'image à l'extraction des données textuelles contenues dans le ticket. à l'issue de cette étude, nous proposons une chaîne de traitement originale pour répondre au mieux à toutes les attentes et contraintes.Ensuite, nous réalisons un état de l'art détaillant les méthodes de détection d'objets basées notamment sur les réseaux de neurones profonds (détection de logo, détection de texte...). Nous présentons également les méthodes de reconnaissance de texte et les outils associés existants (OCR). Enfin nous terminons par évoquer quelques approches concernant l'analyse sémantique.La première partie de la réalisation de la chaîne est la phase de pré-traitement qui va permettre de vérifier la présence d'un ticket dans l'image, de le localiser afin de le rogner et de le redresser, puis de déterminer l'enseigne de ticket. Dans le but de minimiser les fausses alarmes, chacun de ces objectifs est obtenu à l'issue de la fusion du résultat de deux méthodes basées sur des sources différentes (image et texte).La deuxième partie consiste à analyser le contenu du ticket de caisse, en commençant par la segmentation sémantique des zones du ticket de caisse (en-tête, logo, liste de produits, bas de ticket, etc.), puis en réalisant la reconnaissance optique des zones de texte et enfin en appliquant une analyse sémantique afin d'extraire les différentes informations pertinentes.The large increase in multimedia data volume and especially the dematerialization of paper documents requires the implementation of solutions to automatically analyze these documents in order to facilitate their storage and their use. Moreover, there is currently a strong interest of companies or institutes to access consumer information of populations or population groups in order to have a better understanding of consumer behavior. The sales receipt is a solution to obtain this information without strongly soliciting the consumer. The objective of this thesis is to propose a solution to automatically analyze the contents of a sales receipt from a photo taken by a smartphone.We begin by explaining the industrial objectives and, through the development of demonstrator, we highlight the scientific obstacles of the realization of such a system, from the acquisition of the picture to the extraction of the textual data contained in the ticket. At the end of this study, we propose an original processing chain to best meet all expectations and constraints. Then, we realize a state of the art detailing methods of detection of objects based in particular on deep neural networks (logo detection, text detection...). We also present text recognition methods and existing associated tools (OCR). Finally, we end up evoking some approaches concerning semantic analysis. The first part of the realization of the chain is the pre-treatment. This phase has several goals : checking the presence of a sale receipt within the image, ticket in order to crop it and straighten it, and then to determining the brand of the receipt. In order to minimize false alarms, each of these objectives is obtained after merging the results of two methods based on different sources (image and text). The second part is to analyze the content of the receipt, starting with the semantic segmentation of the receipt areas (header, logo, product list, bottom of receipt, etc.), then performing optical recognition and finally applying a semantic analysis to extract the different relevant information
Deep Learning for automatic sale receipt understanding
International audienceAs a general rule, data analytics are now mandatory for companies. Scanned document analysis brings additional challenges introduced by paper damages and scanning quality.In an industrial context, this work focuses on the automatic understanding of sale receipts which enable access to essential and accurate consumption statistics. Given an image acquired with a smart-phone, the proposed work mainly focuses on the first steps of the full tool chain which aims at providing essential information such as the store brand, purchased products and related prices with the highest possible confidence. To get this high confidence level, even if scanning is not perfectly controlled, we propose a double check processing tool-chain using Deep Convolutional Neural Networks (DCNNs) on one hand and more classical image and text processings on another hand.The originality of this work relates in this double check processing and in the joint use of DCNNs for different applications and text analysis