134 research outputs found
Experiments in Clustering Homogeneous XML Documents to Validate an Existing Typology
This paper presents some experiments in clustering homogeneous XMLdocuments
to validate an existing classification or more generally anorganisational
structure. Our approach integrates techniques for extracting knowledge from
documents with unsupervised classification (clustering) of documents. We focus
on the feature selection used for representing documents and its impact on the
emerging classification. We mix the selection of structured features with fine
textual selection based on syntactic characteristics.We illustrate and evaluate
this approach with a collection of Inria activity reports for the year 2003.
The objective is to cluster projects into larger groups (Themes), based on the
keywords or different chapters of these activity reports. We then compare the
results of clustering using different feature selections, with the official
theme structure used by Inria.Comment: (postprint); This version corrects a couple of errors in authors'
names in the bibliograph
Recherche d'une partition optimale sous contrainte d'ordre total
Projet CLORECUn des problemes de la classification automatique est de trouver une partition qui soit optimale pour un critere donne. Dans le cas ou les objets sont definis par une seule variable numerique la programmation dynamique trouve cette partition pour certains criteres. Nous proposons plusieurs criteres utilisables dans ce cadre. Plusieurs simulations et applications sont decrites
Benefits of InterSite Pre-Processing and Clustering Methods in E-Commerce Domain
This paper presents our preprocessing and clustering analysis on the
clickstream dataset proposed for the ECMLPKDD 2005 Discovery Challenge. The
main contributions of this article are double. First, after presenting the
clickstream dataset, we show how we build a rich data warehouse based an
advanced preprocesing. We take into account the intersite aspects in the given
ecommerce domain, which offers an interesting data structuration. A preliminary
statistical analysis based on time period clickstreams is given, emphasing the
importance of intersite user visits in such a context. Secondly, we describe
our crossed-clustering method which is applied on data generated from our data
warehouse. Our preliminary results are interesting and promising illustrating
the benefits of our WUM methods, even if more investigations are needed on the
same dataset
Méthodes de discrimination non paramétrique asymptotiquement efficaces au sens de Bayes
Résumé disponible dans les fichiers attaché
Partitioning Methods On Dissimilarity Matrices Set
International audienceWe introduce partitioning clustering models and algorithms that are able to partitioning objects taking into account simultaneously their relational descriptions given by multiple dissimilarity matrices. The aim is to obtain a collaborative role of the different dissimilarity matrices in order to obtain a final consensus partition
Le systeme SICLA: Principes et architecture
Résumé disponible dans les fichiers attaché
Langage communautaire, confiance et recettes de cuisine
National audienceDe nos jours, les sites de partage de connaissance communautaires représentent une part importante et grandissante du Web. Sur ces sites, les uti- lisateurs échangent des connaissances, en étant à la fois auteurs et lecteurs du contenu. Dans de telles circonstances, la communauté se structure autour d'une sémantique empirique qui lui est propre, et qui peut différer grandement des standards académiques des domaines concernés. L'analyse de cette sémantique à partir des bases de connaissance de référence traditionnelles peut alors se ré- véler insuffisamment pertinente pour prendre en compte ces comportements uti- lisateurs. Dans cet article, nous présentons une méthode pour construire notre propre com- préhension de la sémantique des contributions des utilisateurs, sans recours à une base de connaissance externe. Cette compréhension est rendue possible par une extraction de la connaissance présente dans les contributions analysées. Nous proposons une évaluation de la confiance imputable à cette compréhension dé- duite, afin d'évaluer la qualité du contenu de l'utilisateur. Ce taux de qualité ainsi calculé peut être considéré comme la mesure avec laquelle le contenu est com- préhensible par la globalité des utilisateurs de la communauté. Nous illustrons notre travail en analysant des recettes de cuisine fournies par des utilisateurs sur des sites Web de partage de recettes de cuisine
- …