14 research outputs found

    Automatic detection of gender on the blogs

    Get PDF
    International audienceIn this paper, we are interested in defining the gender of blogger while using only texts written from bloggers. For that purpose, we offer a number of features based on specific words, which were categorized into classes. For each blog, a score is calculated based on these characteristics, thereby determining the gender of its author. The evaluation was made on a corpus of 681,288 Blogs (140 million words) tagged as men or women. In our work, this collection will be taken as a reference. The obtained results show gender detection over 82% compared to the referenced collection

    Modèles de langues pour la détection d'opinions dans les blogs

    Get PDF
    Cet article décrit une approche de recherche de documents pertinents vis-à-vis d’une requête et exprimant une opinion. Afin de détecter si un document est porteur d’opinion (i.e. comporte de l’information subjective), nous proposons de le comparer à des sources d’information qui comportent du contenu de type opinion. L’intuition derrière cela est la suivante : un document ayant une similarité forte avec des sources d’opinions, est vraisemblablement porteur d’opinion. Pour mesurer cette similarité, nous exploitons des modèles de langue. Nous modélisons le document et la source (référence) porteuse d’opinions par des modèles de langue, nous évaluons ensuite la similarité de ces modèles. Plusieurs expérimentations ont été réalisées sur des collections issues de TREC. Les résultats obtenus valident notre intuition

    STOKAGE ET INDEXATION DES VIDÉOS PAR DES STRUCTURES ARBORESCENTES

    Get PDF
    Les vidéos sont des objets multimédia d’une grande importance dans plusieurs domaines. Les applications multimédia sont amenées à stocker des millions de vidéos dans des bases. De ce fait les chercheurs se sont intéressés à cette problématique et ont repris certaines techniques utilisées dans l’indexation des images afin de les appliquer sur les vidéos. Nous proposons dans cet article une approche d’indexation de vidéo par le contenu utilisant la structure des arbres R. Pour minimiser l’espace de stockage de la vidéo, nous appliquons la structure d’arbre R Générique

    Classification non Supervisée de Données Multidimensionnelles par les Processus Ponctuels Marqués

    No full text
    International audienceCet article décrit un nouvel algorithme non supervisé de classification des données multidimensionnelles. Il consiste à détecter les prototypes des classes présentes dans un échantillon et à appliquer l’algorithme KNN pour la classification de toutes les observations. La détection des prototypes des classes est basée sur les processus ponctuels marqués, c’est d’une part une adaptation de la méthode de Métropolis-Hasting-Green qui génère des mouvements manipulant les objets du processus (naissance, mort…) et d’autre part une modélisation de Gibbs qui introduit la fonction de potentiel matérialisant les interactions du processus en termes d’énergie. Plusieurs expérimentations ont été réalisées sur des données ponctuelles multidimensionnelles où les classes sont non linéairement séparables et des données réelles issues des puces à ADN. Une comparaison avec des méthodes de classification existantes a permis de montrer l’efficacité de ce nouvel algorithme

    Classification non Supervisée de Données Multidimensionnelles par les Processus Ponctuels Marqués

    No full text
    Cet article décrit un nouvel algorithme non supervisé de classification des données multidimensionnelles. Il consiste à détecter les prototypes des classes présentes dans un échantillon et à appliquer l’algorithme KNN pour la classification de toutes les observations. La détection des prototypes des classes est basée sur les processus ponctuels marqués, c’est d’une part une adaptation de la méthode de Métropolis-Hasting-Green qui génère des mouvements manipulant les objets du processus (naissance, mort…) et d’autre part une modélisation de Gibbs qui introduit la fonction de potentiel matérialisant les interactions du processus en termes d’énergie. Plusieurs expérimentations ont été réalisées sur des données ponctuelles multidimensionnelles où les classes sont non linéairement séparables et des données réelles issues des puces à ADN. Une comparaison avec des méthodes de classification existantes a permis de montrer l’efficacité de ce nouvel algorithme
    corecore