203 research outputs found

    Repérage et annotation d'indices de nouveautés dans les écrits scientifiques

    No full text
    International audienceThis paper deals with thecategorisation of textual cues in scientific abstracts with the aim to highlight the information contained while for exploring huge volumes of texts. Typically, one context of application is the rapid identification by an expert of strategic information for science and technology watch. From a study of a sample of abstracts in english, novelty, objective, result and conclusion cues are formalized as finite state automata and projected on a test corpus. Resultats show that using these cues is relevant. Using the type of cues identified and the supposed information announced, an XML markup of scientific abstracts is proposed. The final aim is to guide the reader towards information categories classified as such which can assist science and technology watch process.Cet article explore la catégorisation des indices textuels présents dans les résumés scientifiques afin de mettre en valeur les informations véhiculées lors de l'exploration de grandes masses de textes. Typiquement, un des contextes d'application est le repérage rapide par un utilisateur expert des informations à caractère stratégique pour la veille scientifique et technologique. Après étude d'un échantillon de résumes scientifiques en anglais, les indices de nouveautés, d'objectif, de résultats et de conclusions sont formalisés et projetés sur un deuxième corpus de test. Les résultats montrent que ces indices sont globalement ''performants'. S'appuyant sur les indices repérés et du type d'information véhiculée, un balisage XML des résumés est proposé. L'objectif est de guider le lecteur vers les catégories d'information balisées en tant que telles, susceptibles de contribuer au processus de veille scientifique et technologique

    Discours de presse et veille stratégique d'évènements. Approche textométrique et extraction d'informations pour la fouille de textes

    Get PDF
    This research demonstrates two methods of text mining for strategic monitoring purposes: information extraction and Textometry. In strategic monitoring, text mining is used to automatically obtain information on the activities of corporations. For this objective, information extraction identifies and labels units of information, named entities (companies, places, people), which then constitute entry points for the analysis of economic activities or events. These include mergers, bankruptcies, partnerships, etc., involving corresponding corporations. A Textometric method, however, uses several statistical models to study the distribution of words in large corpora, with the goal of shedding light on significant characteristics of the textual data. In this research, Textometry, an approach traditionally considered incompatible with information extraction methods, is applied to the same corpus as an information extraction procedure in order to obtain information on economic events. Several textometric analyses (characteristic elements, co-occurrences) are examined on a corpus of online news feeds. The results are then compared to those produced by the information extraction procedure. Both approaches contribute differently to processing textual data, producing complementary analyses of the corpus. Following the comparison, this research presents the advantages for these two text mining methods in strategic monitoring of current events.Ce travail a pour objet l’étude de deux méthodes de fouille automatique de textes, l’extraction d’informations et la textométrie, toutes deux mises au service de la veille stratégique des événements économiques. Pour l’extraction d’informations, il s’agit d’identifier et d’étiqueter des unités de connaissances, entités nommées — sociétés, lieux, personnes, qui servent de points d’entrée pour les analyses d’activités ou d’événements économiques — fusions, faillites, partenariats, impliquant ces différents acteurs. La méthode textométrique, en revanche, met en œuvre un ensemble de modèles statistiques permettant l’analyse des distributions de mots dans de vastes corpus, afin faire émerger les caractéristiques significatives des données textuelles. Dans cette recherche, la textométrie, traditionnellement considérée comme étant incompatible avec la fouille par l’extraction, est substituée à cette dernière pour obtenir des informations sur des événements économiques dans le discours. Plusieurs analyses textométriques (spécificités et cooccurrences) sont donc menées sur un corpus de flux de presse numérisé. On étudie ensuite les résultats obtenus grâce à la textométrie en vue de les comparer aux connaissances mises en évidence au moyen d’une procédure d’extraction d’informations. On constate que chacune des approches contribuent différemment au traitement des données textuelles, produisant toutes deux des analyses complémentaires. À l’issue de la comparaison est exposé l’apport des deux méthodes de fouille pour la veille d’événements

    Objets semi-structurés, classes polythétiques et classification

    Get PDF
    Colloque avec actes et comité de lecture.Dans cet article, nous présentons un travail de recherche en cours de développement sur la représentation et la manipulation de données semi-structurées, dans le contexte des systèmes de représentation de connaissances par objets (RCO). Nous nous appuyons sur la notion d'objet semi-structuré qui peut être défini comme un objet sans classe, intégrant des disjonctions d'attributs. Un tel objet peut être classifié dans une hiérarchie de classes de référence qui représente la connaissance sur un domaine donné, en vue de mener à bien des raisonnements et résoudre des problèmes. La prise en compte d'objets semi-structurés conduit à considérer les classes de référence comme des classes polythétiques, au sens où elles sont définies par une combinaison de disjonctions et de conjonction d'attributs. Ce travail de recherche essaie également de faire le lien entre le traitement des données semi-structurées dans le cadre des systèmes de RCO et le traitement des classes polythétiques en analyse de données ou en apprentissage. Les cadres d'applications de ce travail de recherche sont multiples : extraction de connaissances dans les bases de données, fouille de textes, intégration et croisement de données hétérogènes, conception et couplage de grandes bases de connaissances et de grandes bases de données

    Méthodologie d’aide à l’innovation par l’exploitation des brevets et des phénomènes physiques impliqués

    Get PDF
    The aim of this thesis work is the development of a methodology for knowledge extraction from patents to assist design engineers in the industrial problem-solving phase. The methodology is based on three pillars: definition, search / analysis and innovation. A comprehensive definition of the main function of the industrial system delimits the research field and allows the retrieval of initial keywords through a detailed analysis of what is currently available. The iterative patent search is based on functional decomposition and physical analysis. The analysis phase uses energy functional decomposition to identify energies, transmitted functional flows and physical phenomena involved in the energy conversion process in order to select potentially relevant physical effects. To delineate the exploration field we formulate search queries from a keywords database composed by initial, physical, and technological keywords. A discovery matrix based on the intersections between these keywords allows the classification of pertinent patents. The research for innovation opportunities exploits the discovery matrix in order to decipher the evolutionary trends followed by inventions. Opportunities are deduced from an analysis of the discovery matrix empty cells, an analysis of the evolution trends, and from changing the concept by energy converter substitution. We propose evolution trends constructed from the evolution laws of TRIZ theory, design heuristics, and rules of the art of the engineering. An application case concerning the study of the evolution and the proposal of innovative biphasic separation systems in deep offshore highlights the method.L’objectif de ce travail de thèse est de développer une méthodologie d’extraction de connaissances à partir de brevets pour aider les concepteurs dans la phase de résolution de problèmes industriels. La méthodologie est fondée sur trois piliers : la définition, la recherche / analyse et l’innovation. La définition exhaustive de la fonction principale du système industriel cible le champ de recherche et permet la récupération de mots clés initiaux grâce à une analyse approfondie de l’existant. La recherche itérative des brevets se base sur la décomposition fonctionnelle et sur l’analyse physique. L’analyse intègre la décomposition fonctionnelle énergétique pour déceler les énergies, les flux fonctionnels transmis et les phénomènes physiques impliqués dans le processus de conversion énergétique afin de sélectionner des effets physiques potentiellement pertinents. Pour délimiter le champ d’exploration nous formulons des requêtes de recherche à partir d’une base de données de mots clés constituée par des mots clés initiaux, des mots clés physiques et des mots clés technologiques. Une matrice des découvertes basée sur les croisements entre ces mots clés permet le classement des brevets pertinents. La recherche des opportunités d’innovation exploite la matrice des découvertes pour déceler les tendances évolutives suivies par les inventions. Les opportunités sont déduites à partir de l’analyse des cellules non pourvues de la matrice des découvertes, de l’analyse par tendances d’évolution et du changement de concept par la substitution du convertisseur énergétique. Nous proposons des tendances d’évolution construites à partir de lois d’évolution de la théorie TRIZ, d’heuristiques de conception et de règles de l’art de l’ingénieur. Un cas d’application concernant l’étude d’évolution et la proposition de nouveaux systèmes de séparation de mélanges bi-phasiques en offshore profond met en valeur la méthode

    Analyse comparative de la terminologie des médias sociaux : contribution des domaines de la communication et de l'informatique à la néologie

    Full text link
    L’objectif de cette étude est de repérer des néologismes à partir de corpus de textes français au moyen d’une méthode semi-automatique. Plus précisément, nous extrayons les néologismes de corpus associés à deux domaines différents, mais traitant du même thème, nous examinons leur répartition et nous les classons selon leur type. L’étude s’appuie sur l’analyse de corpus traitant des médias sociaux. Le premier aborde les médias sociaux du point de vue de la communication, l’autre le fait du point de vue de l’informatique. Ces points de vue ont été privilégiés, car la communication considère ce qui a trait l’utilisation des médias sociaux et l’informatique aborde leur cartographie. La méthode fait appel à l’extracteur de termes TermoStat pour recenser la terminologie des médias sociaux pour chaque point de vue. Ensuite, nous soumettons les 150 termes les plus spécifiques de chaque point de vue à une méthode de validation divisée en trois tests destinés à valider leur statut néologique : des dictionnaires spécialisés, des dictionnaires de langue générale et un outil de visualisation de n-grammes. Finalement, nous étiquetons les néologismes selon la typologie de Dubuc (2002). L’analyse des résultats de la communication et de l’informatique est comparative. La comparaison des deux corpus révèle les contributions respectives de la communication et de l'informatique à la terminologie des médias sociaux en plus de montrer les termes communs aux deux disciplines. L’étude a également permis de repérer 60 néologismes, dont 28 sont exclusifs au corpus de la communication, 28 exclusifs à celui de l’informatique et 4 communs aux deux corpus. La recherche révèle également que les composés par subordination sont les types de néologismes les plus présents dans nos résultats.The objective of this study is to identify the neologisms within corpora of French texts by means of a semi-automatic method. More precisely, we will extract the neologisms from corpora associated to two different areas; however dealing with the same topic, we examine their distribution and we classify them according to their type. This study is based on an analysis of two corpora within social media. The first one approaches social media from the point of view of communication, and the other approaches it from the point of view of computer science. We prioritize these two points of view being that communication is used as the main source of social media’s utilization and that computer science allows us to understand what is involved to allow for social media to be functional. For this method, we use the TermoStat term extractor in order to take census of terminology for each point of view. We then submit 150 of the most specific terms related to each point of view by way of an exclusion corpus from which we divide into three different tests meant to validate their neological status: specialized dictionaries, general language dictionaries, and a visualization tool for n-grams. Lastly, we label the neologisms according to Dubuc’s (2002) typology. The analysis of the results obtained for communication and computer science uses a comparative method. The comparison of the two corpora reveals the respective contributions from communication and computer science with respect to the terminology of social medias, as well it demonstrates common terms found within the two disciplines. This examination also allowed for the identification of 60 neologisms; of which 28 are exclusive to the corpus of communication, another 28 are exclusive to that of computer science, and four were found to be common to both corpora. This research also reveals that subordinate compounds are the most present types of neologisms according to our results

    Internet et éducation : répertoire de ressources

    Get PDF
    Disponible sur support papier au CD

    Fouille multidimensionnelle sur les données textuelles visant à extraire les réseaux sociaux et sémantiques pour leur exploitation via la téléphonie mobile

    Get PDF
    La concurrence est un concept fondamental de la tradition libérale et des sciences économiques qui oblige les entreprises à pratiquer l'Intelligence Economique (IE) pour bien se positionner sur le marché ou tout simplement pour survivre. Mais souvent, ce n'est pas le plus fort qui survit, ni le plus intelligent, mais celui qui est le plus sensible au changement, facteur dominant dans la société actuelle. Les changements proviennent de l'extérieur ou naissent au sein même de l'entreprise et peuvent l'affecter plus ou moins durablement. Dès lors, les entreprises sont appelées à rester constamment en veille pour guetter le moindre changement en vue d'y apporter la solution adéquate en temps réel. Cependant, pour une veille réussie, on ne doit pas se contenter uniquement de surveiller les opportunités, mais avant tout, d'anticiper les menaces. Malheureusement, cette veille se déroule en oubliant l'indispensable volet sécurité de l'IE à savoir la sécurité des données manipulées et celle des procédés suivis pour atteindre les objectifs de l'IE. Nos travaux de recherche consistent à proposer un Système d'Intelligence Economique (SIE) Généraliste et Mobile. Ce SIE intègre une approche de modélisation du contrôle d'accès aux données et aux traitements pour sécuriser toutes les informations et les flux d'interaction durant son cycle de vie. Le besoin en matière de sécurité dans un SIE provient du fait que les informations manipulées sont d'ordre stratégique ayant une valeur assez importante. Une telle sécurité ne doit pas être considérée comme une option supplémentaire qu'offre un SIE pour se distinguer d'un autre. D'autant plus que la fuite de ces informations n'est pas le fait de faiblesses inhérentes aux systèmes informatiques des entreprises, mais c'est avant tout une question organisationnelle. La mobilité présente un choix stratégique pour notre SIE ''XPlor EveryWhere'', dont le but est de permettre aux utilisateurs de nos solutions de veille de continuer à rechercher, surveiller, valider et rediffuser des informations stratégiques au cours de leurs déplacements. Ils n'ont ainsi plus besoin d'être assis face à leur ordinateur pour accéder à des données utiles dans l'instant (préparation d'une réunion, nouvel ordre du jour, information sur un interlocuteur, une technologie, un marché, demande urgente d'une analyse ou d'un focus spécifique). Il leur suffit simplement d'utiliser discrètement, et en tout sécurité, leur appareil mobile. Grâce à XPlor EveryWhere, ils sont en permanence au cœur de l'information pertinente.Competition is a fundamental concept of the liberal economy tradition that requires companies to resort to Competitive Intelligence (CI) in order to be advantageously positioned on the market, or simply to survive. Nevertheless, it is well known that it is not the strongest of the organizations that survives, nor the most intelligent, but rather, the one most adaptable to change, the dominant factor in society today. Therefore, companies are required to remain constantly on a wakeful state to watch for any change in order to make appropriate solutions in real time. However, for a successful vigil, we should not be satisfied merely to monitor the opportunities, but before all, to anticipate risks. The external risk factors have never been so many: extremely dynamic and unpredictable markets, new entrants, mergers and acquisitions, sharp price reduction, rapid changes in consumption patterns and values, fragility of brands and their reputation. To face all these challenges, our research consists in proposing a Competitive Intelligence System (CIS) designed to provide online services. Through descriptive and statistics exploratory methods of data, Xplor EveryWhere display, in a very short time, new strategic knowledge such as: the profile of the actors, their reputation, their relationships, their sites of action, their mobility, emerging issues and concepts, terminology, promising fields etc. The need for security in XPlor EveryWhere arises out of the strategic nature of information conveyed with quite a substantial value. Such security should not be considered as an additional option that a CIS can provide just in order to be distinguished from one another. Especially as the leak of this information is not the result of inherent weaknesses in corporate computer systems, but above all it is an organizational issue. With Xplor EveryWhere we completed the reporting service, especially the aspect of mobility. Lastly with this system, it's possible to: View updated information as we have access to our strategic database server in real-time, itself fed daily by watchmen. They can enter information at trade shows, customer visits or after meetings

    Guide de l\u27innovation centrée-usager : petite boussole pour innover avec les usagers

    Get PDF
    Réalisé par Renaud Francou et Fabien Labarthe dans le cadre de PACA labs, en partenariat avec la Fing et Télécom Paris Tech, cette "boussole" d\u27abord destinée aux entreprises sera tout aussi utile aux collectivités territoriales désireuses d\u27innover dans leur design de politiques publiques ou de services publics, selon deux principes : "impliquer des usagers en tant que co-concepteurs des innovations, au même titre que les autres parties-prenantes des projets." ; "élaborer des expérimentations dites « grandeur nature », implantées dans de véritables situations et contextes d’usage.

    AGEWEB : les agents personnels d'aide Ă  la recherche documentaire sur le Web

    Get PDF
    • …
    corecore