59 research outputs found

    Application de techniques de forage de textes de nature prédictive et exploratoire à des fins de gestion et d'analyse thématique de documents textuels non structurés

    Get PDF
    Depuis les dix dernières années, on observe une hausse considérable du nombre d'initiatives visant à numériser et à rendre disponible le patrimoine informationnel des organisations et des différentes branches du savoir. Les conséquences découlant de ces initiatives sont importantes et très nombreuses. Elles ont entre autres conduit à l'émergence d'applications permettant différentes opérations complexes d'analyse et de gestion des documents. Malgré la diversité de ces applications, on constate que l'ensemble des disciplines reliées à l'analyse et à la gestion des documents textuels sont axées sur la compréhension et l'informatisation des processus d'identification des contenus thématiques et d'analyse thématique. Le projet que nous présentons aborde précisément les problématiques de l'identification des thèmes et de l'assistance à l'analyse thématique des documents textuels. L'objectif général du projet est de développer et de valider deux méthodologies informatiques fondées respectivement sur la catégorisation et la classification automatiques permettant d'assister efficacement l'identification des thèmes et, surtout, l'analyse thématique des documents textuels. Il vise ainsi à effectuer un transfert de concepts et de méthodologies provenant, d'une part, des recherches théoriques et pluridisciplinaires portant sur l'analyse thématique et, d'autre part, des recherches appliquées en classification et en catégorisation automatiques des données afin de proposer une méthodologie et un prototype d'application flexible visant à assister le chercheur dans son travail d'analyse thématique des textes. Le défi principal de ce projet réside donc dans l'opérationnalisation de l'analyse thématique en employant certaines stratégies de classification et de catégorisation automatiques des textes. Au niveau cognitif, nous proposons d'explorer la pertinence et la fécondité de certaines théories d'inspiration linguistique et littéraire ayant abordé la question du thème pour nous aider dans l'identification du contenu thématique et l'analyse thématique des documents textuels. À ce niveau, notre objectif est de démontrer comment les théories retenues, celles de Kintsch et Van Dijk, de Rimmon-Kenan et de Rastier, ont défini le thème de telle sorte qu'il est possible d'en assister informatiquement l'identification et l'analyse à l'aide de la méthodologie que nous proposons. Au niveau informatique, un premier volet de notre démarche consiste à explorer et à comparer les performances des opérations de catégorisation et de classification automatiques à des fins d'identification du contenu thématique et d'analyse thématique des documents textuels non structurés. Les résultats sont évalués en appliquant un système de catégorisation hybride neuro-flou et un algorithme de classification neuronal non supervisé sur un corpus d'articles de journaux. Par ailleurs, la classification et la catégorisation sont des opérations traditionnellement appliquées à des documents entiers. Nous proposons une manière alternative de réaliser ces processus : notre démarche consiste d'abord à segmenter chacun des documents puis à soumettre aux processus de regroupement les différents segments de texte. Cette démarche a l'avantage de pouvoir attribuer plusieurs catégories thématiques à chaque document, ce qui est plus difficilement réalisable lorsque les documents sont traités en entier. Finalement, dans bon nombre d'applications d'analyse et de gestion des documents textuels, le processus de catégorisation est effectué en utilisant un plan de classification ou une taxinomie de catégories prédéfinies. Le développement de ces taxinomies, bien qu'il puisse être assisté dans certains cas par des applications informatiques, s'avère coûteux et très complexe. Dans ce projet, nous démontrerons qu'il est possible, en l'absence de taxinomies, d'employer certains termes du lexique initial du corpus comme étiquettes thématiques.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : analyse thématique, identification de thèmes, Lecture et Analyse de Textes Assistées par Ordinateur (LATAO), classification automatique, catégorisation automatique

    Application de la classification textuelle pour l'extraction des règles d'association maximales

    Get PDF

    Fouille multidimensionnelle sur les données textuelles visant à extraire les réseaux sociaux et sémantiques pour leur exploitation via la téléphonie mobile

    Get PDF
    La concurrence est un concept fondamental de la tradition libérale et des sciences économiques qui oblige les entreprises à pratiquer l'Intelligence Economique (IE) pour bien se positionner sur le marché ou tout simplement pour survivre. Mais souvent, ce n'est pas le plus fort qui survit, ni le plus intelligent, mais celui qui est le plus sensible au changement, facteur dominant dans la société actuelle. Les changements proviennent de l'extérieur ou naissent au sein même de l'entreprise et peuvent l'affecter plus ou moins durablement. Dès lors, les entreprises sont appelées à rester constamment en veille pour guetter le moindre changement en vue d'y apporter la solution adéquate en temps réel. Cependant, pour une veille réussie, on ne doit pas se contenter uniquement de surveiller les opportunités, mais avant tout, d'anticiper les menaces. Malheureusement, cette veille se déroule en oubliant l'indispensable volet sécurité de l'IE à savoir la sécurité des données manipulées et celle des procédés suivis pour atteindre les objectifs de l'IE. Nos travaux de recherche consistent à proposer un Système d'Intelligence Economique (SIE) Généraliste et Mobile. Ce SIE intègre une approche de modélisation du contrôle d'accès aux données et aux traitements pour sécuriser toutes les informations et les flux d'interaction durant son cycle de vie. Le besoin en matière de sécurité dans un SIE provient du fait que les informations manipulées sont d'ordre stratégique ayant une valeur assez importante. Une telle sécurité ne doit pas être considérée comme une option supplémentaire qu'offre un SIE pour se distinguer d'un autre. D'autant plus que la fuite de ces informations n'est pas le fait de faiblesses inhérentes aux systèmes informatiques des entreprises, mais c'est avant tout une question organisationnelle. La mobilité présente un choix stratégique pour notre SIE ''XPlor EveryWhere'', dont le but est de permettre aux utilisateurs de nos solutions de veille de continuer à rechercher, surveiller, valider et rediffuser des informations stratégiques au cours de leurs déplacements. Ils n'ont ainsi plus besoin d'être assis face à leur ordinateur pour accéder à des données utiles dans l'instant (préparation d'une réunion, nouvel ordre du jour, information sur un interlocuteur, une technologie, un marché, demande urgente d'une analyse ou d'un focus spécifique). Il leur suffit simplement d'utiliser discrètement, et en tout sécurité, leur appareil mobile. Grâce à XPlor EveryWhere, ils sont en permanence au cœur de l'information pertinente.Competition is a fundamental concept of the liberal economy tradition that requires companies to resort to Competitive Intelligence (CI) in order to be advantageously positioned on the market, or simply to survive. Nevertheless, it is well known that it is not the strongest of the organizations that survives, nor the most intelligent, but rather, the one most adaptable to change, the dominant factor in society today. Therefore, companies are required to remain constantly on a wakeful state to watch for any change in order to make appropriate solutions in real time. However, for a successful vigil, we should not be satisfied merely to monitor the opportunities, but before all, to anticipate risks. The external risk factors have never been so many: extremely dynamic and unpredictable markets, new entrants, mergers and acquisitions, sharp price reduction, rapid changes in consumption patterns and values, fragility of brands and their reputation. To face all these challenges, our research consists in proposing a Competitive Intelligence System (CIS) designed to provide online services. Through descriptive and statistics exploratory methods of data, Xplor EveryWhere display, in a very short time, new strategic knowledge such as: the profile of the actors, their reputation, their relationships, their sites of action, their mobility, emerging issues and concepts, terminology, promising fields etc. The need for security in XPlor EveryWhere arises out of the strategic nature of information conveyed with quite a substantial value. Such security should not be considered as an additional option that a CIS can provide just in order to be distinguished from one another. Especially as the leak of this information is not the result of inherent weaknesses in corporate computer systems, but above all it is an organizational issue. With Xplor EveryWhere we completed the reporting service, especially the aspect of mobility. Lastly with this system, it's possible to: View updated information as we have access to our strategic database server in real-time, itself fed daily by watchmen. They can enter information at trade shows, customer visits or after meetings

    Étude comparative des algorithmes dédiés à la classification

    Get PDF

    Contribution à la maintenance des ontologies à partir d'analyses textuelles : extraction de termes et de relations entre termes

    Get PDF
    Les ontologies sont des nouvelles formes de contrôle intelligent de l'information. Elles présentent un savoir préalable requis pour un traitement systématique de l'information à des fins de navigation, de rappel, de précision, etc. Toutefois, les ontologies sont confrontées de façon continue à un problème d'évolution. Étant donné la complexité des changements à apporter, un processus de maintenance, du moins semi-automatique, s'impose de plus en plus pour faciliter cette tâche et assurer sa fiabilité.\ud L'approche proposée trouve son fondement dans un modèle cognitif décrivant un processus d'extraction de connaissances à partir de textes et de thésaurus. Nous mettons ainsi, les textes au centre du processus d'ingénierie des connaissances et présentons une approche se démarquant des techniques formelles classiques en représentation de connaissances par son indépendance de la langue. Les traitements textuels sont fondés principalement sur un processus de classification supporté par un réseau de neurones (ART 1) et sur l'Indexation Sémantique Latente appliquée sur des classes de termes. Partant de l'hypothèse que l'extraction -de connaissances à partir de textes ne peut se contenter d'un traitement statistique (ni même linguistique) de données textuelles pour accaparer toute leur richesse sémantique, un processus d'extraction de connaissances à partir d'un thésaurus a été conçu afin d'intégrer, le mieux possible, les connaissances du domaine au sein de l'ontologie. Ce processus est fondé principalement sur un calcul d'associations sémantiques entre des Vecteurs Conceptuels. Le modèle proposé représente une chaîne de traitement (ONTOLOGICO) au sein de la plateforme\ud SATIM. Ce modèle vise à assister les experts de domaine dans leur tâche de conceptualisation et de maintenance des ontologies en se basant sur un processus itératif supporté par un ensemble de modules, en particulier, un extracteur de termes, un lemmatiseur, un segmenteur, un classifieur, un module de raffinement sémantique basé sur l'Indexation Sémantique Latente et un identificateur de termes reliés basé sur le calcul de similarité sémantique entre les couples de vecteurs conceptuels. La découverte de relations entre termes pour les besoins d'une conceptualisation de domaine s'avère être le résultat d'une complémentarité de traitements appliqués tant sur des textes de domaine que sur un thésaurus. D'une part, les analyses textuelles fondées principalement sur l'application de l'Indexation Sémantique Latente sur des classes de termes génèrent des relations sémantiques précises. D'autre part, l'extraction de relations sémantiques à partir d'un thésaurus, en se basant sur une représentation par des Vecteurs conceptuels, constitue un choix théorique judicieux et performant. Ce processus joue en effet, un rôle important dans la complétude des relations.\ud Ce projet de recherche se place au coeur des échanges entre terminologie et acquisition de connaissances. Il amène une réflexion sur les divers paliers à envisager dans une telle démarche de modélisation de connaissances textuelles pour des objectifs de maintenance d'une ontologie de domaine. La méthodologie proposée constitue une aide précieuse dans le domaine de la maintenance des ontologies. Elle assiste les terminologues chargés de naviguer à travers de vastes données textuelles pour extraire et normaliser la terminologie et facilite la tâche des ingénieurs en connaissances, chargés de modéliser des domaines. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Maintenance d'ontologie, Traitement Automatique du Langage Naturel (TALN), Indexation Sémantique Latente, Vecteurs Conceptuels, Classification automatique, Réseaux de Neurones

    Approche de prédiction par télésurveillance à base de Data Mining

    Get PDF
    Following the technological evolution, in particular the mobile approach, scientific research has been oriented towards the exploitation of these advances for remote predictive decision support. A major interest of researchers has had a great impact in the medical field because of its very positive influence for the care of the patient aimed at its assistance and the reduction of cases of death due to follow-up and the problem of time of treatment. emergency action. This is how telemedicine has become an issue of great importance, it is based on the manipulation and analysis of a large volume of medical data. The aim of this thesis is firstly to exploit a new approach to data analysis, namely Symbiotic Organisms Search (SOS) for Data Mining for data classification, and secondly, to propose improvements to this metaheuristic. This improvement relies on the integration of speed in SOS as a new parameter to explore the search space efficiently and avoiding premature convergence. We also develop a conceptual and practical architecture for applied telemedicine for decision support for the knowledge of the type of breast cancer (benign or malignant). This study allowed us to achieve excellent results and findings in terms of data classification

    Approches topologiques pour l'analyse exploratoire de données et l'aide à la décision

    Get PDF
    Depuis au moins les premières pierres taillées de l'ère Paléolithique,les hommes n'ont cessé de créer des artefacts, moyens d'agir sur leur environnementet moyens de l'observer au-delà de leurs capacités propres.Ils ont développé ces outils pour les assister dans leur quête viscérale decompréhension (sciences) et de maîtrise (techniques) de ce monde dont ilsfont partie. Cette compréhension du monde est nécessaire pour en prédireles états, et la maîtrise qui en découle est le moyen de ne plus le subir maisde l'asservir pour réduire les sourances qu'il nous assène par nature. Enplus de transformer le Monde, les hommes ont aussi pu réparer, corriger etaugmenter leur propre corps par des orthèses et des prothèses biologiques,chimiques, mécaniques ou numériques. La multiplication de ces moyensd'agir et d'observer entraîne un accroissement exponentiel des donnéesdésormais capturées dont la masse est supposée assurer les hommes decontenir toute l'information utile à leur quête. Cette massication desdonnées impose de développer des méthodes d'analyse et de traitementtoujours plus ecaces pour que les hommes qui les étudient ou appuientleurs décisions sur elles puissent continuer à le faire et à le faire mieux. J'aiproposé diérentes approches dans les champs de l'analyse descriptive etde la modélisation prédictive an de rendre plus intelligible la chaîne detraitement de l'information du capteur à l'écran. J'ai placé la Topologieau coeur de mes travaux. En eet, je considère qu'elle forme le substratessentiel à l'interprétabilité de l'information, c'est-à-dire à la transmissiondu sens dans cette chaîne, et in ne à la compréhension et à la maîtrisedu Monde par l'Homme.Le développement permanent des artefacts techniques pour tenter demieux comprendre et maîtriser le Monde, entretient la croissance de sacomplexité, à la fois parce que grâce aux artefacts développés pour lascience et la technologie, nous accédons à des mécanismes toujours plusprécis et plus nombreux qui le gouvernent, mais aussi parce que les artefactstechniques engendrés par ces connaissances nouvelles, font partieintégrante du Monde lui-même et en modient le fonctionnement. Auxcauses naturelles s'entremêlent les causes articielles. C'est pour certainsauteurs [Crutzen, Geology of Mankind, Nature 415(6867):23, 2002] une nouvelle ère qui a commencée au 19e siècle, l'ère de l'Anthropocène , dans laquelle l'intelligence des hommes les a dotés de moyenstechniques capable de modier durablement leur écosystème et en particulierles mécanismes de la Sélection Naturelle qui ont engendrée cette intelligence.Il est vraissemblable que ce développement aboutira à l'émergencede machines intelligentes, conscientes et émotionnelles capables d'explorerce monde par elles-mêmes et de communiquer aux hommes leurs conclusionssur les lois qui le gouvernent, comme le font déjà quelques machinesencore rudimentaires mais ecaces [Sparkes et al. An integrated laboratory robotic system for autonomousdiscovery of gene function, JALA 15(1):33-40, 2010]. Ces machines sont la forme ultimede ces orthèses dont les hommes cherchent à se doter depuis le Paléolithique pour tenter de dépasser leur condition. Avant que n'adviennece moment singulier que Kurzweil appelle la Singularité [Kurzweil,The singularity is near : when humans transcendbiology. http ://books.google.fr/books ?id=88U6hdUi6D0C, 2005.], où les machinesautonomes seront en mesure de dépasser l'homme et de développerpour elles-mêmes des connaissances et des techniques, des questionséthiques seront posées qui mèneront soit à l'abandon du développementde telles machines, soit à la nécessité impérieuse de les maîtriser. Il seraalors impératif que les processus internes et les produits de ces machinessoient intelligibles aux hommes an qu'ils en comprennent le sens et enconservent le contrôle. C'est ainsi tout l'enjeu de mes recherches actuelleset futures

    De l'influence d'une ville diversifiée sur la combinaison de techniques : typologie et analyse de processus

    Full text link
    Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal

    L'AIS : une donnée pour l'analyse des activités en mer

    Get PDF
    4 pages, session "Mer et littoral"International audienceCette contribution présente des éléments méthodologiques pour la description des activités humaines en mer dans une perspective d'aide à la gestion. Différentes procédures, combinant l'exploitation de bases de données spatio-temporelles issue de données AIS archivées à des analyses spatiales au sein d'un SIG, sont testées afin de caractériser le transport maritime en Mer d'Iroise (Bretagne, France) sur les plans spatiaux, temporels et quantitatifs au cours d'une année
    • …
    corecore