6,929 research outputs found

    Classification active de flux de documents avec identification des nouvelles classes

    Get PDF
    International audienceIn this paper, we propose a stream-based semi-supervised active learning method for document classification, which is able to query (from an operator) the class labels of documents that are informative, according to an uncertainty measure. The method maintains a dynamically evolving graph topology of labelled document-representatives, which constitutes a covered feature space. The method is able to automatically discover the emergence of novel classes in the stream. An incoming document is identified as a member of a novel class or an existing class, depending on whether it is outside or inside the area covered by the known classes. Experiments on different real datasets show that the proposed method requires a small amount of the incoming documents to be labelled, in order to learn a model which achieves better or equal accuracy than to the usual supervised methods with fully labelled training documents.Dans cet article, on propose un algorithme semi-supervisé actif pour la classification de flux continu de documents. Cet algorithme, basé sur une méthode adaptative d'apprentissage non supervisé, permet de repérer les documents les plus informatifs à l'aide d'une mesure d'incertitude pour demander leur étiquette à un opérateur. Il construit et maintient un modèle sous forme d'un graphe à topologie dynamique dont les nœuds sont des représentants de documents étiquetés, formant ce qu'on appelle l'"espace couvert par les classes connues". Il permet de détecter automatiquement les nouvelles classes apparaissant dans le flux. Un document est identifié comme membre d'une nouvelle classe ou d'une classe connue, selon qu'il se trouve à l'extérieur ou à l'intérieur de l'espace couvert par les classes connues. Les expérimentations effectuées sur des ensembles de documents réels montrent que la méthode nécessite peu de documents à étiqueter et qu'elle atteint des performances comparables aux méthodes supervisées qui sont entraînées sur des ensembles de documents présents en mémoire et entièrement étiquetés

    Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain

    Get PDF
    This thesis focuses on machine learning for data classification. To reduce the labelling cost, active learning allows to query the class label of only some important instances from a human labeller. We propose a new uncertainty measure that characterizes the importance of data and improves the performance of active learning compared to the existing uncertainty measures. This measure determines the smallest instance weight to associate with new data, so that the classifier changes its prediction concerning this data. We then consider a setting where the data arrives continuously from an infinite length stream. We propose an adaptive uncertainty threshold that is suitable for active learning in the streaming setting and achieves a compromise between the number of classification errors and the number of required labels. The existing stream-based active learning methods are initialized with some labelled instances that cover all possible classes. However, in many applications, the evolving nature of the stream implies that new classes can appear at any time. We propose an effective method of active detection of novel classes in a multi-class data stream. This method incrementally maintains a feature space area which is covered by the known classes, and detects those instances that are self-similar and external to that area as novel classes. Finally, it is often difficult to get a completely reliable labelling because the human labeller is subject to labelling errors that reduce the performance of the learned classifier. This problem was solved by introducing a measure that reflects the degree of disagreement between the manually given class and the predicted class, and a new informativeness measure that expresses the necessity for a mislabelled instance to be re-labeled by an alternative labeller.Cette thèse traite de l'apprentissage automatique pour la classification de données. Afin de réduire le coût de l'étiquetage, l'apprentissage actif permet de formuler des requêtes pour demander à un opérateur d'étiqueter seulement quelques données choisies selon un critère d'importance. Nous proposons une nouvelle mesure d'incertitude qui permet de caractériser l'importance des données et qui améliore les performances de l'apprentissage actif par rapport aux mesures existantes. Cette mesure détermine le plus petit poids nécessaire à associer à une nouvelle donnée pour que le classifieur change sa prédiction concernant cette donnée. Nous intégrons ensuite le fait que les données à traiter arrivent en continu dans un flux de longueur infinie. Nous proposons alors un seuil d'incertitude adaptatif qui convient pour un apprentissage actif à partir d'un flux de données et qui réalise un compromis entre le nombre d'erreurs de classification et le nombre d'étiquettes de classes demandées. Les méthodes existantes d'apprentissage actif à partir de flux de données, sont initialisées avec quelques données étiquetées qui couvrent toutes les classes possibles. Cependant, dans de nombreuses applications, la nature évolutive du flux fait que de nouvelles classes peuvent apparaître à tout moment. Nous proposons une méthode efficace de détection active de nouvelles classes dans un flux de données multi-classes. Cette méthode détermine de façon incrémentale une zone couverte par les classes connues, et détecte les données qui sont extérieures à cette zone et proches entre elles, comme étant de nouvelles classes. Enfin, il est souvent difficile d'obtenir un étiquetage totalement fiable car l'opérateur humain est sujet à des erreurs d'étiquetage qui réduisent les performances du classifieur appris. Cette problématique a été résolue par l'introduction d'une mesure qui reflète le degré de désaccord entre la classe donnée manuellement et la classe prédite et une nouvelle mesure d'"informativité" permettant d'exprimer la nécessité pour une donnée mal étiquetée d'être ré-étiquetée par un opérateur alternatif

    Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain

    Get PDF
    This thesis focuses on machine learning for data classification. To reduce the labelling cost, active learning allows to query the class label of only some important instances from a human labeller. We propose a new uncertainty measure that characterizes the importance of data and improves the performance of active learning compared to the existing uncertainty measures. This measure determines the smallest instance weight to associate with new data, so that the classifier changes its prediction concerning this data. We then consider a setting where the data arrives continuously from an infinite length stream. We propose an adaptive uncertainty threshold that is suitable for active learning in the streaming setting and achieves a compromise between the number of classification errors and the number of required labels. The existing stream-based active learning methods are initialized with some labelled instances that cover all possible classes. However, in many applications, the evolving nature of the stream implies that new classes can appear at any time. We propose an effective method of active detection of novel classes in a multi-class data stream. This method incrementally maintains a feature space area which is covered by the known classes, and detects those instances that are self-similar and external to that area as novel classes. Finally, it is often difficult to get a completely reliable labelling because the human labeller is subject to labelling errors that reduce the performance of the learned classifier. This problem was solved by introducing a measure that reflects the degree of disagreement between the manually given class and the predicted class, and a new informativeness measure that expresses the necessity for a mislabelled instance to be re-labeled by an alternative labeller.Cette thèse traite de l'apprentissage automatique pour la classification de données. Afin de réduire le coût de l'étiquetage, l'apprentissage actif permet de formuler des requêtes pour demander à un opérateur d'étiqueter seulement quelques données choisies selon un critère d'importance. Nous proposons une nouvelle mesure d'incertitude qui permet de caractériser l'importance des données et qui améliore les performances de l'apprentissage actif par rapport aux mesures existantes. Cette mesure détermine le plus petit poids nécessaire à associer à une nouvelle donnée pour que le classifieur change sa prédiction concernant cette donnée. Nous intégrons ensuite le fait que les données à traiter arrivent en continu dans un flux de longueur infinie. Nous proposons alors un seuil d'incertitude adaptatif qui convient pour un apprentissage actif à partir d'un flux de données et qui réalise un compromis entre le nombre d'erreurs de classification et le nombre d'étiquettes de classes demandées. Les méthodes existantes d'apprentissage actif à partir de flux de données, sont initialisées avec quelques données étiquetées qui couvrent toutes les classes possibles. Cependant, dans de nombreuses applications, la nature évolutive du flux fait que de nouvelles classes peuvent apparaître à tout moment. Nous proposons une méthode efficace de détection active de nouvelles classes dans un flux de données multi-classes. Cette méthode détermine de façon incrémentale une zone couverte par les classes connues, et détecte les données qui sont extérieures à cette zone et proches entre elles, comme étant de nouvelles classes. Enfin, il est souvent difficile d'obtenir un étiquetage totalement fiable car l'opérateur humain est sujet à des erreurs d'étiquetage qui réduisent les performances du classifieur appris. Cette problématique a été résolue par l'introduction d'une mesure qui reflète le degré de désaccord entre la classe donnée manuellement et la classe prédite et une nouvelle mesure d'"informativité" permettant d'exprimer la nécessité pour une donnée mal étiquetée d'être ré-étiquetée par un opérateur alternatif

    La place de la gestion des connaissances dans les projets archivistiques

    Get PDF
    Travail réalisé à l'EBSI, Université de Montréal, sous la direction de M. Yvon Lemay dans le cadre du cours SCI6111 Politique de gestion des archives, à l'automne 2014.Ce travail tente une présentation des avantages que peut apporter la gestion des connaissances dans le cadre de projets institutionnels de gestion des archives. Il y est fait état de plusieurs projets archivistiques actuels, de la description des outils et méthodes mobilisés dans les transferts de savoirs et de la forme de la documentation qui en résulte. Il est question de comprendre dans quelle mesure le champ d'études de la gestion des connaissances sert et nourrit la discipline archivistique

    Mobilités et jeux d'échelle : de l'observation à l'analyse des flux dans la métropole parisienne.

    Get PDF
    Texte d'une communication présentée au colloque Géopoint 2010 (groupe Dupont, Université d'Avignon). Site web : http://www.groupe-dupont.org/ColloqueGeopoint/geopoint10.htmNational audienceThe spread of technological advances during the 20th century has transformed cities significantly. The inhabitants' spatial distribution is more decentralized and the cities' spatial organisation and functioning are more complex. Commuting flows are denser and more diversified. The purpose is to elaborate a general representation of commuting flows which allow showing their principal organisation trends while being coherent with the city's functional principles regarding the distribution of residential places, of working places and of commuting between them. The communes (finest level where the commuting flows are available), by virtue of their semantic variety in particular, do not respond to this double demand. Then, the objective is to identify relevant spatial entities and the levels at which they operate. Scales and ranges of the commuting flows linking these entities together and with their environment will then be estimated. At last, the co-existence of different models of modal choice according to the form of the attractions will be shown.La diffusion des progrès technologiques au cours du vingtième siècle a transformé les villes de façon considérable. La distribution spatiale des habitants a suivi un mouvement général de déconcentration et l'organisation spatiale de la métropole et son fonctionnement se sont complexifiés. Les flux de déplacements quotidiens sont plus denses et plus diversifiés. L'enjeu consiste à construire une représentation généralisée des déplacements domicile-travail dans la métropole francilienne qui rend visible les principales régularités structurant leur organisation tout en étant en cohérence avec les logiques fonctionnelles de l'espace métropolitain en termes de distribution des lieux de résidence et d'emploi et des déplacements entre eux. Les communes (niveau le plus fin auquel les données sont disponibles), de par leur variété sémantique notamment, ne répondent pas à cette double exigence. Il s'agit alors d'identifier des entités spatiales pertinentes et les niveaux auxquels elles opèrent. On évaluera ensuite les échelles et portées correspondant aux flux de déplacement liant ces entités entre elles et à leur environnement, définissant une partition de l'espace étudié. Enfin, on montrera la co-existence de différents modèles de distributions modales en fonction de la nature des polarisations

    Beaucoup parlées, diversement mobilisées. Les classes moyennes en France dans les années 1990/2015

    No full text
    International audienceOn indique d'abord à grands traits la manière dont la catégorie de « classes moyennes » est mobilisée dans le débat public (1), puis les enjeux liés à leur définition (2). Je résume ensuite ce que l'on sait de ces catégories sociales et de la manière dont elles se positionnent sur le plan symbolique et politique (3 et 4). Dans un dernier temps j'interroge, à partir de quelques indices les modes de mobilisation sociale de certaines de leurs fractions au cours des 25 dernières années (5). L'idée générale qui se dégage est que si elles sont plus que jamais parlées sur la scène politique et dans l'espace médiatique, et si certaines fractions de ces classes se mobilisent, non sans lien avec les implications des politiques néo-libérales, c'est de manière partielle, ponctuelle, éclatée. On ne saurait parler d'un mouvement de classes moyennes

    Dynamique de l'environnement : Scénarios, simulations et maquette

    No full text
    IP-SIG/LIV/4.2. Contrat RNRT IPSIGCe livrable traite de la négociation dynamique de SLA/SLS et du maintien des paramètres négociés lors de la mobilité du terminal dans le cadre d'une signalisation NSIS. Il fait suite au livrable 4.1 qui présentait un assistant de négociation, coté terminal utilisateur, permettant de négocier dynamiquement les SLA/SLS avec le/les fournisseurs de service, et plusieurs protocoles conformes à l'environnement NSIS afin de négocier le SLS, et maintenir la qualité de service négociée. Il s'agit dans ce livrable de compléter l'approche retenue en présentant des scénarios d'utilisation, notamment dans le cas du protocole de négociation dynamique de paramètres de SLS, des résultats de simulations, principalement pour le protocole de réservation de ressources à l'avance et une maquette permettant de démontrer la faisabilité de la (re)négociation dynamique de SLA/SLS. Cette dernière comporte un module d'apprentissage et un système multi-agents

    Apport du Web sémantique au travail collaboratif : Application à l'édition d'un document d'information sur les risques majeurs

    Get PDF
    http://www.irit.fr/~Guillaume.Cabanac/docs/fjc2014/fjc2014actes.pdf" Collaborer " , " travailler ensemble " , ce sont des réalités familières à chacun d'entre nous. Or les techniques ont progressé et ont pris un nouveau tournant avec l'arrivée du numérique dans l'entreprise. Bien que l'introduction du numérique ne se fasse pas sans difficultés, de nouveaux outils continuent d'apparaître : le travail collaboratif assisté par ordinateur est progressivement devenu un domaine d'étude à part entière. Notre recherche s'inscrit dans ce courant et étudie les apports possibles des technologies du Web sémantique au travail collaboratif. Ces technologies, en apportant les concepts d'ontologie, de métadonnées, d'inférence, participent au passage d'un système d'information à un système plus orienté connaissance. Devant ce vaste champ d'étude, nous avons pour nous guider un cas d'application qui est d'ailleurs à l'origine de ces travaux. Il s'agit du DDRM " Dossier Départemental sur les Risques Majeurs " un document administratif réalisé sous la supervision du préfet et qui compile les informations essentielles concernant les risques naturels et technologiques majeurs connus sur le territoire d'un département. Ce document d'information et de prévention destiné aux citoyens, doit être actualisé tous les cinq ans, étape nécessitant le concours de plusieurs acteurs issus d'horizons et de métiers différents. C'est ici qu'intervient la possibilité d'améliorer ce travail, qui est par essence collaboratif, à l'aide des nouvelles technologies et en particulier celles issues du Web sémantique. Nous imaginons que le système, plongé dans le Web 2.0 et les Linked Open Data , favorisera les échanges entre départements
    • …
    corecore