9 research outputs found

    Une étude de l'évolutivité des modèles pour la reconnaissance de documents arabes dans un contexte interactif

    Get PDF
    Cette thèse aborde la reconnaissance de structures physiques et logiques de documents complexes, riches en variabilité. Plus particulièrement, nous avons étudié l’évolutivité des modèles dans un contexte interactif, où le système intègre progressivement les connaissances induites par les corrections de l’utilisateur. Nous avons étudié les caractéristiques de la langue arabe et nous avons conçu un système de reconnaissance pour cette langue. Dans un premier temps, nous avons adapté des méthodes de segmentation classiques, généralement utilisées pour les documents utilisant un alphabet latin. Nous avons constaté que les résultats obtenus par ces méthodes, peuvent être améliorés en intégrant des connaissances relatives à la classe de documents traitée. Nous préconisons pour cela l’intervention de l’utilisateur. L’idée est de transférer l’expertise de l’utilisateur vers le système de reconnaissance en convertissant ses corrections en connaissances. Ainsi, dans un deuxième temps, nous avons construit deux systèmes de reconnaissance pour traiter respectivement la reconnaissance physique (PLANET) et logique (LUNET) en utilisant un modèle évolutif qui s’adapte à toute nouvelle classe de documents. Le système PLANET utilise plusieurs modèles dédiés, chacun étant associé à une classe de documents donnés. La tâche de ces modèles est d'apprendre les caractéristiques propres à leur classe. Les modèles dédiés sont initialisés avec un modèle général qui est construit en vue d’avoir une connaissance générale de la superclasse de documents. Les systèmes PLANET et LUNET ont été évalués sur les classes de documents bien adaptés à la problématique : les journaux en langue arabe (ANNAHAR, AL HAYAT et AL QUDS). Après le traitement interactif de 10-15 pages de documents, le taux de reconnaissance passe de 96.729% à 98.687% ce qui correspond à une diminution du taux d’erreurs de 59.859%. Quant à LUNET, le taux moyen de reconnaissance est de 94% avec une diminution du taux d’erreurs de 63.436%. Ainsi, nous estimons avoir démontré la pertinence d’utiliser des modèles évolutifs pour la reconnaissance de structures physiques et logiques de documents complexes. Ce type d’approche est particulièrement avantageux pour les applications de reconnaissance de taille moyenne ; c’est notamment le cas de la création de fonds de vérité qui est une opération fastidieuse et coûteuse. Grâce à PLANET / LUNET le processus de construction de tels fonds est simplifié.This thesis addresses the recognition of physical and logical structures of complex documents, rich in variability. More precisely, we studied the evolution of models within an interactive context where the system gradually integrates the knowledge induced by the corrections of the user. We studied the features of the Arabic language and we designed a recognition system for this language. In a first stage, we adapted traditional segmentation methods that are generally used for documents using a Latin alphabet. We noted that the results obtained by these methods, can be improved by integrating knowledge related to the treated class of documents. For that purpose we recommend the intervention of a user. The idea is to transfer the expertise from the user towards the recognition system by converting its corrections into knowledge. Thus, in the second stage, we built two systems for performing respectively the physical recognition (PLANET) and logic (LUNET) by using an evolutiv model which adapts to all new class of documents. The PLANET system uses several dedicated models; each one being associated a given class of documents. The task of these models is to learn the specific features of their class. The dedicated models are initialized with a general model, which is built in order to integrate general knowledge of a superclass of documents. The PLANET and LUNET systems have been evaluated on the classes of documents which are well adapted to the problematic: three classes of newspapers in Arabic language (ANNAHAR, AL HAYAT et AL QUDS). After the interactive treatment of 10- 15 pages, the recognition rate raised from 96.729% to 98.687% which corresponds to a reduction in the error rate of 59.859%. As for LUNET, the average recognition rate is 94% with a reduction in the error rate of 63.436%. Thus, we estimate having shown the relevance of using evolutiv models for the recognition of the physical and logical structures, of complex documents. This type of approach is particularly advantageous for mid-sized applications; it is for instance the case of ground truth production, which is a tiresome and expensive operation. Thanks to PLANET/LUNET the process of building such ground truth is simplified

    Machine Learning for Improving Teaching Methods Through Sentiment Analysis

    No full text
    This paper describes how to use machine learning for improving teaching methods through collected sentiments from students. In fact, students sentiment analysis is a promising research area that is used to improve education by monitoring students performance and enabling students and lecturers to address teaching and learning issues in the most beneficial way. In our research, we aim to propose a machine-learning system for improving teaching methods through sentiment analysis, utilizing comments of students in reviews websites. The proposed system aims to automatically classify and analyze the students positive or negative feelings towards the current teaching process. Several techniques and procedures commonly used in natural language processing for the features processing task are used in designing and developing the proposed student sentiment analysis system. A total of 4000 comments of students were collected from RateMyProfessors.com website and used in the experiments of the current study. We have applied three supervised machine-learning techniques on these comments: Multinomial Naive Bayes (MNB), MaximumEntropy(MaxEnt), and Support Vector Machines (SVMs). The performance of the mentioned classifiers is evaluated using accuracy, precision, recall, and F1-score evaluation metrics

    Xed: a new tool for eXtracting hidden structures from Electronic Documents

    No full text
    PDF became a very common format for exchanging printable documents. Further, it can be easily generated from the major documents formats, which make a huge number of PDF documents available over the net. However its use is limited to displaying and printing, which considerably reduces the search and retrieval capabilities. For this reason, additional tools have recently appeared that allow to extract the textual content. However their practical use is limited in the sense that the text’s reading order is not necessary preserved, especially when handling multi-column documents, or in presence of complex layout. Our thesis is that those tools do not consider the hidden layout and logical structures of documents, which could greatly improve their results. We propose a novel approach to overcome the document content extraction, by merging a) low-level extraction methods applied on PDF files with b) layout analysis performed on a synthetically generated TIFF image. The paper describes the various steps necessary to achieve this task. Finally, we present a first experiment on the restitution of the newspapers ’ reading order which shows encouraging results. 1

    XCDF: A Canonical and Structured Document Format

    No full text
    Abstract. Accessing the structured content of PDF document is a difficult task, requiring pre-processing and reverse engineering techniques. In this paper, we first present different methods to accomplish this task, which are based either on document image analysis, or on electronic content extraction. Then, XCDF, a canonical format with well-defined properties is proposed as a suitable solution for representing structured electronic documents and as an entry point for further researches and works. The system and methods used for reverse engineering PDF document into this canonical format are also presented. We finally present current applications of this work into various domains, spacing from data mining to multimedia navigation, and consistently benefiting from our canonical format in order to access PDF document content and structures. 1

    Towards a Canonical and Structured Representation of PDF Documents through Reverse Engineering

    No full text
    This article presents Xed, a reverse engineering tool for PDF documents, which extracts the original document layout structure. Xed mixes electronic extraction methods with state-of-the-art document analysis techniques and outputs the layout structure in a hierarchical canonical form, i.e. which is universal and independent of the document type. This article first reviews the major traps and tricks of the PDF format. It then introduces the architecture of Xed along with its main modules, and, in particular, the document physical structure extraction algorithm. Later on, a canonical format is proposed and discussed with an example. Finally the results of a practical evaluation are presented, followed by an outline of future works on the logical structure extraction

    Potential substitution of mineral N fertilizers by organic residues at the territory scale

    No full text
    INRA EGC et Pessac, VĂ©olia EnvironnementPotential substitution of mineral N fertilizers by organic residues at the territory scale. 15. International Conferences of RAMIRAN (Network on Recycling of Agricultural, Municipal and Industrial Residues in Agriculture

    Effets de l’apport de produits résiduaires organiques sur le stockage de carbone, les émissions de gaz à effet de serre et la lixiviation du nitrate dans les sols agricoles périurbains

    No full text
    The PROSTOCK project develops within the context of peri-urban agriculture and the aim of recycling organic waste of either agricultural or urban origin (or exogenous organic matter, EOM) in keeping with the perspective of restoring soil organic carbon stocks (SCS) in agricultural areas. Its main objective was to spatially assess the potential of EOM recycling for improving SCS over these areas. The secondary objective was to assess the resulting possible impacts of EOM use on greenhouse gas emissions (CO2, N2O in this project) and nitrate leaching. Moreover, PROSTOCK included a methodological aim oriented towards the feasibility assessment of monitoring SCS variations using spectroscopy and remote sensing in the visible near and shortwave infrared range (NIRS). The spatial level considered was that of small peri-urban agricultural regions, where waste management and its resulting effects on water and soil quality operate. The Versailles Plain and the Alluets Plateau, a peri-urban region covering 221 km² (of which 100 km² are croplands), unique in terms of available data, spatial and thematic representativeness and references on EOMs, was chosen as study region. A database of field and lab measurements (reflectance, roughness, bulk density, moisture, physico-chemical analysis…) and observations (soil surface conditions, amendment practices and cultural operations) with unprecedented size was collected and structured from more than 250 point locations spread over the cropped areas. Some fifteen remote sensing images from varied satellite and airborne sensors were acquired over the course of 3 field campaigns of field measurements synchronous with sensor acquisitions in 2011, 2012, 2013. This project enabled considerable progress in using imaging data related to field spectral measurements, for the purpose of estimating topsoil organic carbon content (SOC) from soil reflectance spectra. The accuracy that is expectable from such method not only depends on sensor type, but also on atmospherical and angular conditions of imaging, and cultural operations, which influence the performance of image atmospheric correction into reflectance units. Conversely to predictions obtained from lab or even field reflectance spectra, multispectral satellite images with medium spatial resolution do not enable to discriminate changes in SOC resulting from EOM applications over a large 15 years-duration, but they result in a rough mapping of SOC over large extents. This project also enabled to demonstrate the potential of optical/radar synergy for detecting cultural operations, which otherwise can hardly be spatially surveyed from interviews to farmers. In the same prospect of facilitating surveys, this project favoured ongoing studies about very high resolution Pleiades images showing their potential for mapping crop types and phenological stages, as well as for locating those fields having recently received EOM application. More, PROSTOCK enabled to parameterize the CERES-EGC agro-environmental model which was chosen for the purpose of simulating SCS dynamics according to various EOM applications. This parameterized model succeeds in retrospectively predicting temporal trends of SCS as observed over the course of 10 years for the QualiAgro Experiment. The inventory of actually of potentially available EOMs over the study region reveals multiple agronomical scenarios of amendment practices with EOM, depending on either their stocking or their fertilizing properties, through their proportion of easily available N: nitrogen mineralization and CO2, N2O emissions dynamics were characterized in this project for the main EOMs identified. The main N2O-emitter soils are now identified according to the EOMs applied. All required elements are therefore ready for the spatial modeling of simulations, to anticipate future evolutions. The PROSTOCK project paves the way for numerous related questions addressing the validity domain of agri-environmental models when soil types and cultural operations vary at the scale of a small agricultural region. It relied on both support and commitment from the study area farmers and appears to be rich in further developments for their common benefit, that the large size of collected data permits to anticipate. It could be continued and add value to its results with the prospect of spatially assessing soil ecosystem services according to the effects of EOM application.Le projet PROSTOCK s’inscrit dans le contexte d’une agriculture péri-urbaine visant le recyclage des matières organiques résiduaires d’origines agricole, urbaine et de loisirs (ou produits résiduaires organiques, PRO) dans une perspective vertueuse de restauration des stocks de carbone organique (SCO) de ses sols agricoles. Son objectif principal était d’évaluer spatialement la possibilité d’accroître le SCO des sols agricoles par le recyclage des PRO. L’objectif secondaire visait à en évaluer les impacts potentiels, au même niveau d’organisation spatiale, sur les risques d’émission de GES et de lixiviation du nitrate. En outre, PROSTOCK comportait un objectif méthodologique visant à évaluer la faisabilité du suivi des variations de stocks de carbone organique des sols agricoles par imagerie de télédétection et/ou spectroradiométrie visible proche infrarouge (NIRS). Le niveau d’organisation spatiale retenu est celui de petites régions agricoles périurbaines, où se jouent la gestion des déchets et ses effets sur la qualité de l’eau et des sols. La Plaine de Versailles et du Plateau des Alluets, région périurbaine vaste de 221 km² (dont environ 100 km² de surface agricole utile), unique en termes de données disponibles, de représentativité spatiale et thématique et de références sur les PRO, a ainsi été choisie comme territoire de l’étude. Une base de données de mesures (réflectance, rugosité, masse volumique apparente, humidité, déterminations analytiques) et d’observations (états de surface du sol, pratiques d’amendement et opérations culturales) d’ampleur inédite a été recueillie et structurée et concerne plus de 250 localisations ponctuelles réparties sur la zone agricole. Une quinzaine d’images de divers capteurs satellitaires et aéroportés ont été acquises lors de 3 campagnes printanières de mesures de terrain synchrones des prises de vue de télédétection, en 2011, 2012 et 2013. Le projet a permis des avancées significatives sur l’utilisation de données imagées en lien avec les mesures spectrales au sol, pour l’estimation des teneurs en carbone organique (CO) du sol à partir de la réflectance du sol. La précision que l’on peut en espérer dépend non seulement du type de capteur, mais aussi des conditions atmosphériques et angulaires de la prise de vue, et des opérations culturales, qui affectent la performance de la correction atmosphérique des images en réflectance. Contrairement aux prédictions issues de spectres de réflectance de laboratoire ou même de terrain, les données multispectrales satellitaires de résolution moyenne haute ne permettent pas de distinguer des changements liés à des apports de PRO sur une durée de 15 ans, mais contribuent à une cartographie sommaire des teneurs en CO sur de vastes superficies. Le projet a par ailleurs permis de mettre en évidence l’intérêt de la synergie optique/radar pour la détection des opérations culturales, qui sont difficiles à répertorier spatialement par le biais d’enquêtes. Dans la même perspective d’alléger les enquêtes sur les pratiques agricoles, les travaux en cours sur les images de très haute résolution spatiale Pléiades montrent l’apport de ces images à la cartographie des types de cultures et de leurs stades phénologiques ainsi qu’au repérage des parcelles ayant récemment fait l’objet d’un épandage de PRO. Par ailleurs, le projet a permis de paramétrer le modèle agro-environnemental retenu pour simuler les stocks de C sous l’effet des apports de PRO (CERES-EGC), qui restitue fidèlement et rétrospectivement les évolutions temporelles des SCO observées sur 10 ans du dispositif expérimental QualiAgro. L’inventaire des PRO actuellement ou potentiellement disponibles réalisé sur le territoire fait ressortir une multiplicité de scenarii agronomiques d’utilisation des PRO selon leurs propriétés stockantes ou bien fertilisantes, via leur disponibilité en azote : les dynamiques de minéralisation de l’azote, d’émission de CO2 et de N2O ont été caractérisées pour les principaux PRO répertoriés dans le cadre de ce projet. On connaît désormais quels sont les sols principaux émetteurs de N2O selon les PRO qu’on leur apporte. Tous les éléments sont donc en place pour mettre en oeuvre ces simulations au niveau spatial, afin d’anticiper des évolutions futures. Le projet PROSTOCK ouvre la voie à de nombreuses questions connexes qui portent notamment sur le domaine de validité des modèles agri-environnementaux lorsque les types de sols et les opérations culturales varient à l’échelon d’une petite région agricole. Il s’est fait en lien et avec l’engagement des agriculteurs du territoire et s’avère fécond en possibles approfondissements au service de ces derniers, que permet d’envisager l’ampleur inédite des données recueillies. Il pourrait donner lieu à une suite qui valoriserait les résultats en cours dans la perspective de l’évaluation spatialisée des services écosystémiques des sols sous l’effet de l’apport des PRO
    corecore