Sociedad Española para el Procesamiento del Lenguaje Natural
Abstract
Las anotaciones generadas por usuarios en sistemas de marcadores sociales pueden proveer metadatos interesantes y muy utiles para la clasificación de páginas web. Estas anotaciones incluyen diversos tipos de información, como etiquetas y comentarios. No obstante, cada tipo de anotación tiene una naturaleza y un nivel de popularidad diferente. En este trabajo, analizamos y evaluamos la utilidad de cada una de estas anotaciones sociales para clasificar páginas web sobre una taxonomía como la del Open Directory Project. Las comparamos por separado a la clasificación basada en contenido, y también las combinamos. Nuestros experimentos muestran resultados prometedores con la utilización de anotaciones sociales para este propósito. Y además indican que su combinación con el contenido textual mejora el rendimiento de la clasificación.User-generated annotations on social bookmarking sites can provide interesting and promising metadata for web page classification. These annotations include diverse types of information, such as tags and comments. Nonetheless, each kind of annotation has a different nature and popularity level. In this work, we analyze and evaluate the usefulness of each of these social annotations to classify web pages over a taxonomy like that by the Open Directory Project. We compare them separately to the content-based classification, and also combine the different types of data. Our experiments show encouraging results with the use of social annotations for this purpose, and we found that combining these metadata with web page content improves even more the classifier’s performance.Trabajo subvencionado parcialmente por la red de investigación MAVIR (S-0505/TIC-0267), la Consejería de Educación de la Comunidad de Madrid y el proyecto QEAVis-Catiex (TIN2007-67581-C02-01) del Ministerio de Ciencia e Innovación