6 research outputs found

    Modélisation intégratrice du traitement BigData

    Get PDF
    Nowadays, multiple actors of Internet technology are producing very large amounts of data. Sensors, social media or e-commerce, all generate real-time extending information based on the 3 Vs of Gartner: Volume, Velocity and Variety. In order to efficiently exploit this data, it is important to keep track of the dynamic aspect of their chronological evolution by means of two main approaches: the polymorphism, a dynamic model able to support type changes every second with a successful processing and second, the support of data volatility by means of an intelligent model taking in consideration key-data, salient and valuable at a specific moment without processing all volumes of history and up to date data.The primary goal of this study is to establish, based on these approaches, an integrative vision of data life cycle set on 3 steps, (1) data synthesis by selecting key-values of micro-data acquired by different data source operators, (2) data fusion by sorting and duplicating the selected key-values based on a de-normalization aspect in order to get a faster processing of data and (3) the data transformation into a specific format of map of maps of maps, via Hadoop in the standard MapReduce process, in order to define the related graph in applicative layer.In addition, this study is supported by a software prototype using the already described modeling tools, as a toolbox compared to an automatic programming software and allowing to create a customized processing chain of BigDataDans le monde d’aujourd’hui de multiples acteurs de la technologie numérique produisent des quantités infinies de données. Capteurs, réseaux sociaux ou e-commerce, ils génèrent tous de l’information qui s’incrémente en temps-réel selon les 3 V de Gartner : en Volume, en Vitesse et en Variabilité. Afin d’exploiter efficacement et durablement ces données, il est important de respecter la dynamicité de leur évolution chronologique au moyen de deux approches : le polymorphisme d’une part, au moyen d’un modèle dynamique capable de supporter le changement de type à chaque instant sans failles de traitement ; d’autre part le support de la volatilité par un modèle intelligent prenant en compte des données clé seulement interprétables à un instant « t », au lieu de traiter toute la volumétrie des données actuelle et historique.L’objectif premier de cette étude est de pouvoir établir au moyen de ces approches une vision intégratrice du cycle de vie des données qui s’établit selon 3 étapes, (1) la synthèse des données via la sélection des valeurs-clés des micro-données acquises par les différents opérateurs au niveau de la source, (2) la fusion en faisant le tri des valeurs-clés sélectionnées et les dupliquant suivant un aspect de dé-normalisation afin d’obtenir un traitement plus rapide des données et (3) la transformation en un format particulier de carte de cartes de cartes, via Hadoop dans le processus classique de MapReduce afin d’obtenir un graphe défini dans la couche applicative.Cette réflexion est en outre soutenue par un prototype logiciel mettant en oeuvre les opérateurs de modélisation sus-décrits et aboutissant à une boîte à outils de modélisation comparable à un AGL et, permettant une mise en place assistée d'un ou plusieurs traitements sur BigDat

    Les signatures neurobiologiques de la conscience

    Get PDF
    Dans le cadre de ses activités scientifiques, l’Académie Européenne Interdisciplinaire des Sciences a réuni durant la période 2016-2018, par l’intermédiaire de séminaires, conférences et colloque, divers spécialistes travaillant dans les domaines des neurosciences, de la psychologie cognitive, de l’intelligence artificielle, ou encore réfléchissant aux impacts sociétaux des avancées obtenues. Cet ouvrage est le fruit de toutes ces contributions et a pour ambition de présenter un certain nombre de résultats, de perspectives actuellement discernables, de points de vue concernant l’état des connaissances dans ces domaines avec un lien, parfois direct, parfois implicite, avec la question de la conscience. Une introduction générale, rédigée par le comité de lecture de l’AEIS, rappelle le contexte de l’émergence de ces résultats, perspectives et points de vue, dont le lecteur prendra connaissance dans le corps de l’ouvrage, qui comporte quatre parties : Travaux en neurosciences et psychologie expérimentale. Sciences cognitives et intelligence artificielle. Réflexions sur l’intelligence, la conscience et l’impact de l’IA sur les activités humaines. Synthèse des discussions de la table ronde tenue à l’issue du colloque de mars 2018. Un court épilogue rédigé par le comité de lecture met en avant des réflexions et questions qu’ont soulevé la lecture des différents chapitres de l’ouvrage et la prise de connaissance d’articles scientifiques foisonnants sur les travaux actuels pluridisciplinaires autour des interrogations liées à la conscience au sens large

    Contributions au tri automatique de documents et de courrier d'entreprises

    Get PDF
    Ce travail de thèse s inscrit dans le cadre du développement de systèmes de vision industrielle pour le tri automatique de documents et de courriers d entreprises. Les architectures existantes, dont nous avons balayé les spécificités dans les trois premiers chapitres de la thèse, présentent des faiblesses qui se traduisent par des erreurs de lecture et des rejets que l on impute encore trop souvent aux OCR. Or, les étapes responsables de ces rejets et de ces erreurs de lecture sont les premières à intervenir dans le processus. Nous avons ainsi choisi de porter notre contribution sur les aspects inhérents à la segmentation des images de courriers et la localisation de leurs régions d intérêt en investissant une nouvelle approche pyramidale de modélisation par coloration hiérarchique de graphes ; à ce jour, la coloration de graphes n a jamais été exploitée dans un tel contexte. Elle intervient dans notre contribution à toutes les étapes d analyse de la structure des documents ainsi que dans la prise de décision pour la reconnaissance (reconnaissance de la nature du document à traiter et reconnaissance du bloc adresse). Notre architecture a été conçue pour réaliser essentiellement les étapes d analyse de structures et de reconnaissance en garantissant une réelle coopération entres les différents modules d analyse et de décision. Elle s articule autour de trois grandes parties : une partie de segmentation bas niveau (binarisation et recherche de connexités), une partie d extraction de la structure physique par coloration hiérarchique de graphe et une partie de localisation de blocs adresse et de classification de documents. Les algorithmes impliqués dans le système ont été conçus pour leur rapidité d exécution (en adéquation avec les contraintes de temps réels), leur robustesse, et leur compatibilité. Les expérimentations réalisées dans ce contexte sont très encourageantes et offrent également de nouvelles perspectives à une plus grande diversité d images de documents.This thesis deals with the development of industrial vision systems for automatic business documents and mail sorting. These systems need very high processing time, accuracy and precision of results. The current systems are most of time made of sequential modules needing fast and efficient algorithms throughout the processing line: from low to high level stages of analysis and content recognition. The existing architectures that we have described in the three first chapters of the thesis have shown their weaknesses that are expressed by reading errors and OCR rejections. The modules that are responsible of these rejections and reading errors are mostly the first to occur in the processes of image segmentation and interest regions location. Indeed, theses two processes, involving each other, are fundamental for the system performances and the efficiency of the automatic sorting lines. In this thesis, we have chosen to focus on different sides of mail images segmentation and of relevant zones (as address block) location. We have chosen to develop a model based on a new pyramidal approach using a hierarchical graph coloring. As for now, graph coloring has never been exploited in such context. It has been introduced in our contribution at every stage of document layout analysis for the recognition and decision tasks (kind of document or address block recognition). The recognition stage is made about a training process with a unique model of graph b-coloring. Our architecture is basically designed to guarantee a good cooperation bewtween the different modules of decision and analysis for the layout analysis and the recognition stages. It is composed of three main sections: the low-level segmentation (binarisation and connected component labeling), the physical layout extraction by hierarchical graph coloring and the address block location and document sorting. The algorithms involved in the system have been designed for their execution speed (matching with real time constraints), their robustness, and their compatibility. The experimentations made in this context are very encouraging and lead to investigate a wider diversity of document images.VILLEURBANNE-DOC'INSA-Bib. elec. (692669901) / SudocSudocFranceF

    Réseau bayésien dynamique étiqueté : cadre et apprentissage de structure pour application aux réseaux écologiques

    Get PDF
    An ecological network represents the interactions between living species within an ecosystem. The knowledge of the structure of such a network is an important challenge in the field of ecology.This task can be realized by inference methods : a set of methods that uses ecological observations data (species abundance, presence or absence of species...) in order to learn the interactions mathematically, by the exploitation of the effect of these interactions on the observed data.This thesis describes a case where the ecological data we dispose of are only data of presence/absence of species observed at different moments. The goal is to develop a method that exploits those kind of data in order to learn the interaction between these species. The main difficulty is that binary variables carry little information. Expert knowledge on the system is used to help learning the network's structure.We use the framework of dynamic Bayesian network : temporal presence/absence data are modeled as the realization of a set of dynamic random variables whose dependencies are described by an oriented graph. Such a model can be simplified using expert knowledge.This thesis describes a particular model of "labelled" dynamic Bayesian network. In this model, the graph is defined by a small number of different types of interactions that constitute a set of labels attributed to the edges of the graph.This model can describe several phenomena where an information or a perturbation can be propagated by contact (rumour, disease, forest fire....)This model describes the presence or absence probabilities of each species as a function of the number of interactions of each label this species is subject to. This model allows to describe every presence/absence probability of species using a small number of parameters independent from the network's structure. This is the framework used for the modeling of species dynamics within an ecological network : the information propagated is the presence or the absence of a species, knowing the interaction between the species of the network. Then, we describe the processes we use for learning the structure of a labelled dynamic Bayesian network using time series of binary variables. This 'Estimation-Restoration' algorithm alternates two steps : a phase of parameter estimation knowing the structure, and a phase of structure learning knowing the parameters. This last step can be complex. It is done by solving a integer linear programming problem. This allows to use efficient existing tools for solving those kind of problems. Moreover, we can easily add expert knowledge by the form of linear constraints. This process has been used on a particular case study :the observation of arthropods species trapped in experimental fields in the united kingdom. In order to highlight the differences between the different crops, different networks have been learnt. Finally, we compare the learnt network with others, learnt with different learning methods on the same data.Un réseau écologique désigne l'ensemble des interactions entre les espèces vivantes d'un écosystème donné. En connaître la structure est un défi important dans le domaine de l'écologie. Cela peut se faire par des méthodes d'inférence, c'est à dire le fait d'utiliser des données d'observation écologique (l'abondance des espèce, leur présence/absence...) afin de reconstruire par des méthodes mathématiques les interactions en captant leur influence sur ces observations. Dans cette thèse, nous nous plaçons dans le cadre où les données écologiques dont on dispose sont des données de présence/absence d'espèces mesurées à différents pas de temps. Le but est de développer une méthode exploitant la dynamique de ces données pour apprendre les interactions entre les espèces. La difficulté réside dans le fait que des données binaires sont peu informatives. Des connaissances expertes sur le système étudié pourront aider à l'apprentissage. Un cadre naturel pour apprendre une structure de réseau à partir de données binaires et dynamiques est celui des réseaux bayésiens dynamiques : les données de présence/absence temporelles sont modélisées comme des réalisations d'une série de variables aléatoires dynamiques dont les dépendances sont indiquées par un graphe orienté. Dans le cas où l'on n'a que peu de données, grâce à de la connaissance experte supplémentaire, il est possible de simplifier ce modèle.Cette thèse décrit un modèle particulier de réseau bayésien dynamique dit " étiqueté ". Ce modèle utilise un graphe dans lequel il existe un petit nombre de types d'interactions différentes, représentées par un petit nombre d'étiquettes attribuées à chaque arc. Ce modèle permet de décrire plusieurs phénomènes renseignant d'une information ou d'une perturbation pouvant se propager par contact (rumeur, maladie, feu de forêt...). Les probabilités de chaque variable sont calculées par une fonction dépendante du nombre d'interactions de chaque étiquette que cette variable subit. Ce modèle permet de décrire toutes les probabilités conditionnelles à l'aide d'un petit nombre de paramètres, indépendant de la structure du réseau. Ce cadre est utilisable pour modéliser la dynamique dans un réseau écologique : l'information diffusée est la présence ou l'absence d'une espèce, dépendant des interactions entre les espèces du réseau.Nous décrivons ensuite une méthode permettant d'apprendre la structure d'un réseau bayésien dynamique étiqueté à l'aide d'observations de présence/absence d'espèces au cours du temps. Cet algorithme dit d' "estimation-restauration" alterne deux phases : une phase d'estimation de paramètres à structure fixée et une phase d'apprentissage de structure à paramètres fixés. Cette deuxième phase peut être complexe, et est résolue comme un problème de programmation linéaire en nombres entiers. Cela permet, en plus de l'utilisation d'outils efficaces pour la résolution de tels problèmes, d'ajouter de la connaissance experte sous forme de contraintes.Ce procédé a été appliqué à un cas d'étude en particulier : l'observation d'espèces d'arthropodes piégés dans des champs expérimentaux au Royaume-Uni. Afin de constater les différences entre les cultures des parcelles, des réseaux différents ont été appris. Enfin, nous comparons ces réseaux à ceux obtenus par d'autres méthodes d'inférence de réseaux qui avaient été appliquées sur ces mêmes données

    Dynamic bayesian network : framework and structure learning for application to ecological networks

    No full text
    Un réseau écologique désigne l'ensemble des interactions entre les espèces vivantes d'un écosystème donné. En connaître la structure est un défi important dans le domaine de l'écologie. Cela peut se faire par des méthodes d'inférence, c'est à dire le fait d'utiliser des données d'observation écologique (l'abondance des espèce, leur présence/absence...) afin de reconstruire par des méthodes mathématiques les interactions en captant leur influence sur ces observations. Dans cette thèse, nous nous plaçons dans le cadre où les données écologiques dont on dispose sont des données de présence/absence d'espèces mesurées à différents pas de temps. Le but est de développer une méthode exploitant la dynamique de ces données pour apprendre les interactions entre les espèces. La difficulté réside dans le fait que des données binaires sont peu informatives. Des connaissances expertes sur le système étudié pourront aider à l'apprentissage. Un cadre naturel pour apprendre une structure de réseau à partir de données binaires et dynamiques est celui des réseaux bayésiens dynamiques : les données de présence/absence temporelles sont modélisées comme des réalisations d'une série de variables aléatoires dynamiques dont les dépendances sont indiquées par un graphe orienté. Dans le cas où l'on n'a que peu de données, grâce à de la connaissance experte supplémentaire, il est possible de simplifier ce modèle.Cette thèse décrit un modèle particulier de réseau bayésien dynamique dit " étiqueté ". Ce modèle utilise un graphe dans lequel il existe un petit nombre de types d'interactions différentes, représentées par un petit nombre d'étiquettes attribuées à chaque arc. Ce modèle permet de décrire plusieurs phénomènes renseignant d'une information ou d'une perturbation pouvant se propager par contact (rumeur, maladie, feu de forêt...). Les probabilités de chaque variable sont calculées par une fonction dépendante du nombre d'interactions de chaque étiquette que cette variable subit. Ce modèle permet de décrire toutes les probabilités conditionnelles à l'aide d'un petit nombre de paramètres, indépendant de la structure du réseau. Ce cadre est utilisable pour modéliser la dynamique dans un réseau écologique : l'information diffusée est la présence ou l'absence d'une espèce, dépendant des interactions entre les espèces du réseau.Nous décrivons ensuite une méthode permettant d'apprendre la structure d'un réseau bayésien dynamique étiqueté à l'aide d'observations de présence/absence d'espèces au cours du temps. Cet algorithme dit d' "estimation-restauration" alterne deux phases : une phase d'estimation de paramètres à structure fixée et une phase d'apprentissage de structure à paramètres fixés. Cette deuxième phase peut être complexe, et est résolue comme un problème de programmation linéaire en nombres entiers. Cela permet, en plus de l'utilisation d'outils efficaces pour la résolution de tels problèmes, d'ajouter de la connaissance experte sous forme de contraintes.Ce procédé a été appliqué à un cas d'étude en particulier : l'observation d'espèces d'arthropodes piégés dans des champs expérimentaux au Royaume-Uni. Afin de constater les différences entre les cultures des parcelles, des réseaux différents ont été appris. Enfin, nous comparons ces réseaux à ceux obtenus par d'autres méthodes d'inférence de réseaux qui avaient été appliquées sur ces mêmes données.An ecological network represents the interactions between living species within an ecosystem. The knowledge of the structure of such a network is an important challenge in the field of ecology.This task can be realized by inference methods : a set of methods that uses ecological observations data (species abundance, presence or absence of species...) in order to learn the interactions mathematically, by the exploitation of the effect of these interactions on the observed data.This thesis describes a case where the ecological data we dispose of are only data of presence/absence of species observed at different moments. The goal is to develop a method that exploits those kind of data in order to learn the interaction between these species. The main difficulty is that binary variables carry little information. Expert knowledge on the system is used to help learning the network's structure.We use the framework of dynamic Bayesian network : temporal presence/absence data are modeled as the realization of a set of dynamic random variables whose dependencies are described by an oriented graph. Such a model can be simplified using expert knowledge.This thesis describes a particular model of "labelled" dynamic Bayesian network. In this model, the graph is defined by a small number of different types of interactions that constitute a set of labels attributed to the edges of the graph.This model can describe several phenomena where an information or a perturbation can be propagated by contact (rumour, disease, forest fire....)This model describes the presence or absence probabilities of each species as a function of the number of interactions of each label this species is subject to. This model allows to describe every presence/absence probability of species using a small number of parameters independent from the network's structure. This is the framework used for the modeling of species dynamics within an ecological network : the information propagated is the presence or the absence of a species, knowing the interaction between the species of the network. Then, we describe the processes we use for learning the structure of a labelled dynamic Bayesian network using time series of binary variables. This 'Estimation-Restoration' algorithm alternates two steps : a phase of parameter estimation knowing the structure, and a phase of structure learning knowing the parameters. This last step can be complex. It is done by solving a integer linear programming problem. This allows to use efficient existing tools for solving those kind of problems. Moreover, we can easily add expert knowledge by the form of linear constraints. This process has been used on a particular case study :the observation of arthropods species trapped in experimental fields in the united kingdom. In order to highlight the differences between the different crops, different networks have been learnt. Finally, we compare the learnt network with others, learnt with different learning methods on the same data
    corecore