4 research outputs found
Trusting the results in crosslingual keyword-based image retrieval
This paper gives a brief description of the starting points for the experiments the SICS
team has performed in the 2006 interactive CLEF campaign
iCLEF 2006 Overview: Searching the Flickr WWW photo-sharing repository
This paper summarizes the task design for iCLEF 2006 (the CLEF interactive track).
Compared to previous years, we have proposed a radically new task: searching images
in a naturally multilingual database, Flickr, which has millions of photographs shared
by people all over the planet, tagged and described in a wide variety of languages.
Participants are expected to build a multilingual search front-end to Flickr (using
Flickr’s search API) and study the behaviour of the users for a given set of searching
tasks. The emphasis is put on studying the process, rather than evaluating its outcome
Estudio de la utilizaciĂłn de etiquetas en aplicaciones para buscar y compartir informaciĂłn
En los Ăşltimos años, estamos asistiendo a un gran cambio en el modo en que Internet se relaciona con el mundo. Cada vez más popular, Internet ha dejado de limitarse a mostrar contenidos fijos para convertirse en un medio para la comunicaciĂłn de los individuos. Una enorme cantidad de contenido web ha comenzado a ser generado a travĂ©s de tecnologĂas sociales como weblogs, wikis o foros, tecnologĂas que permiten acceder a la comunicaciĂłn y publicaciĂłn de contenidos en web muy fácilmente, limitando cada vez más los conocimientos necesarios para su uso. Estos nuevos patrones en el modo en que la informaciĂłn se genera y multiplica hacen necesarios mĂ©todos de clasificaciĂłn de informaciĂłn, capaces de manejar y organizar estas cantidades. Los mĂ©todos de clasificaciĂłn tradicionales usados hasta ahora (p.e. sistemas jerárquicos) muestran limitaciones al enfrentarse a este conjunto creciente de contenidos, debido entre otros motivos a estar controlados por una autoridad central. Frente a ellos, un nuevo sistema de clasificaciĂłn ha surgido al amparo precisamente de Internet, a raĂz de su introducciĂłn en sitios web como del.icio.us o Flickr: las folksonomĂas. En ellas, es una comunidad de usuarios la encargada de aumentar los contenidos del sistema, añadiendo cada usuario recursos, y describiĂ©ndolos con una serie de etiquetas, esto es, palabras sueltas elegidas libremente, sin limitaciones de vocabularios controlados o de otro tipo. Este proyecto dará una panorámica pormenorizada sobre variados aspectos relacionados con esta nueva tecnologĂa, y de entre ellos, se hará especial Ă©nfasis en el estudio de las ideas de mejora aplicadas hasta el momento; despuĂ©s de todo, las folksonomĂas son aĂşn en este momento una idea en desarrollo, alimentada y por muy diversos estudios acadĂ©micos y sistemas web reales. En este proyecto, hemos querido estudiar estas posibilidades de mejora, centrándonos en una: la recomendaciĂłn automática de etiquetas. Se ha buscado comprobar hasta quĂ© punto estos sistemas resultan de utilidad a los usuarios, si son utilizados, y quĂ© provecho obtienen de ellos. Para ello, se ha desarrollado una aplicaciĂłn web publicada para su libre uso, en que diversas herramientas de recomendaciĂłn son ofrecidas a los usuarios, encargados de ejecutar diversas tareas relacionadas con el etiquetado y bĂşsqueda de imágenes. Los datos de su interacciĂłn son recogidos y estudiados, obteniendo diversas conclusiones acerca de su comportamiento general en el manejo de estos sistemas con ayuda de herramientas de recomendaciĂłn. ____________________________________In the last years, a great change has occurred in the way in which Internet is used. More and
more popular, Internet has stopped limiting itself to show fixed contents, to truly become a mean for
human communication. An enormous amount of Web content has begun being generated through
social technologies like weblogs, wikis or forums, technologies that allow an easy communication
and publication of contents in Web, limiting more and more the knowledge needed for its use.
These new patrons in the way in which the information is generated make necessary new
methods for the classification of information, able to handle and to organize these large amounts.
The traditional methods of classification used until now (v.g. hierarchic systems) show limitations
when facing this increasing set of contents, for the reason (among others) of being controlled by a
central authority.
In front of them, a new classification system has arisen, as a result of its introduction in Web
sites like del.icio.us or Flickr: the folksonomies. In them, a community of users is in charge of
increasing the contents of the system, each user adding resources, and describing them with a series
of tags, a set of words chosen freely, without limitations of controlled vocabularies.
This project will give a general view on varied aspects related to this new technology, and
among them, special emphasis on the different ideas for folksonomy improvement applied until the
moment; after all, the folksonomies are still a developing idea, fed by very diverse academic studies
and real Web systems.
In this project, we have tried to study these possibilities of improvement, focusing on one:
the automatic recommendation of tags. We have tried to check to what extent these systems are
useful to the users, whether they are used, and what benefit do they obtain from them.
For this reason, it has been developed a web application, which is published for its public
use, in which diverse tools of recommendation are offered to the users, who are asked to execute
diverse tasks related to the labelling and search of images. The data of their interaction are picked
up and studied, obtaining diverse conclusions about the general behavior of users in the interaction
with these systems with the help of recommendation tools.IngenierĂa en Informátic
Étude sur l’influence du vocabulaire utilisé pour l’indexation des images en contexte de repérage multilingue
Depuis quelques années, Internet est devenu un média incontournable pour la diffusion de ressources multilingues. Cependant, les différences linguistiques constituent souvent un obstacle majeur aux échanges de documents scientifiques, culturels, pédagogiques et commerciaux. En plus de cette diversité linguistique, on constate le développement croissant de bases de données et de collections composées de différents types de documents textuels ou multimédias, ce qui complexifie également le processus de repérage documentaire. En général, on considère l’image comme « libre » au point de vue linguistique. Toutefois, l’indexation en vocabulaire contrôlé ou libre (non contrôlé) confère à l’image un statut linguistique au même titre que tout document textuel, ce qui peut avoir une incidence sur le repérage.
Le but de notre recherche est de vérifier l’existence de différences entre les caractéristiques de deux approches d’indexation pour les images ordinaires représentant des objets de la vie quotidienne, en vocabulaire contrôlé et en vocabulaire libre, et entre les résultats obtenus au moment de leur repérage. Cette étude suppose que les deux approches d’indexation présentent des caractéristiques communes, mais également des différences pouvant influencer le repérage de l’image. Cette recherche permet de vérifier si l’une ou l’autre de ces approches d’indexation surclasse l’autre, en termes d’efficacité, d’efficience et de satisfaction du chercheur d’images, en contexte de repérage multilingue.
Afin d’atteindre le but fixé par cette recherche, deux objectifs spécifiques sont définis : identifier les caractéristiques de chacune des deux approches d’indexation de l’image ordinaire représentant des objets de la vie quotidienne pouvant influencer le repérage, en contexte multilingue et exposer les différences sur le plan de l’efficacité, de l’efficience et de la satisfaction du chercheur d’images à repérer des images ordinaires représentant des objets de la vie quotidienne indexées à l’aide d’approches offrant des caractéristiques variées, en contexte multilingue. Trois modes de collecte des données sont employés : l’analyse des termes utilisés pour l’indexation des images, la simulation du repérage d’un ensemble d’images indexées selon chacune des formes d’indexation à l’étude réalisée auprès de soixante répondants, et le questionnaire administré aux participants pendant et après la simulation du repérage. Quatre mesures sont définies pour cette recherche : l’efficacité du repérage d’images, mesurée par le taux de succès du repérage calculé à l’aide du nombre d’images repérées; l’efficience temporelle, mesurée par le temps, en secondes, utilisé par image repérée; l’efficience humaine, mesurée par l’effort humain, en nombre de requêtes formulées par image repérée et la satisfaction du chercheur d’images, mesurée par son autoévaluation suite à chaque tâche de repérage effectuée.
Cette recherche montre que sur le plan de l’indexation de l’image ordinaire représentant des objets de la vie quotidienne, les approches d’indexation étudiées diffèrent fondamentalement l’une de l’autre, sur le plan terminologique, perceptuel et structurel. En outre, l’analyse des caractéristiques des deux approches d’indexation révèle que si la langue d’indexation est modifiée, les caractéristiques varient peu au sein d’une même approche d’indexation. Finalement, cette recherche souligne que les deux approches d’indexation à l’étude offrent une performance de repérage des images ordinaires représentant des objets de la vie quotidienne différente sur le plan de l’efficacité, de l’efficience et de la satisfaction du chercheur d’images, selon l’approche et la langue utilisées pour l’indexation.During the last few years, the Internet has become an indispensable medium for the dissemination of multilingual resources. However, language differences are often a major obstacle to the exchange of scientific, cultural, educational and commercial documents. Besides this linguistic diversity, many databases and collections now contain documents in various formats that can also adversely affect their retrieval process. In general, images are considered to be language-independent resources. Nevertheless, the image indexing process using either a controlled or uncontrolled vocabulary gives the image a linguistic status similar to any other textual document and thus leads to the same difficulties in their retrieval.
The goal of our research is to first identify the differences between the indexing approaches using a controlled and an uncontrolled vocabulary for ordinary images of everyday-life objects and to then differentiate between the results obtained at the time of image retrieval. This study supposes that the two indexing approaches show not only common characteristics, but also differences that can influence image retrieval. Thus, this research makes it possible to indicate if one of these indexing approaches surpasses the other in terms of effectiveness, efficiency, and satisfaction of the image searcher in a multilingual retrieval context.
For this study, two specific objectives are defined: to identify the characteristics of each approach used for ordinary image indexing of everyday-life objects that can effect image retrieval in a multilingual context; and to explore the differences between the two indexing approaches in terms of their effectiveness, their efficiency, and the satisfaction of the image searcher when trying to retrieve ordinary images of everyday-life objects indexed according to either approach in a multilingual retrieval context. Three methods of data collection are used: an analysis of the image indexing terms, a simulation of the retrieval of a set of images indexed according to each of the two indexing approaches conducted with sixty respondents, and a questionnaire submitted to the participants during and after the retrieval simulation. Four measures are defined in this research: the effectiveness of image retrieval measured by the success rate calculated in terms of the number of retrieved images; time efficiency measured by the average time, in seconds, used to retrieve an image; human efficiency measured in terms of the human effort represented per average number of queries necessary to retrieve an image; and the satisfaction of the image searcher measured by the self-evaluation of the participant of the retrieval process after each completed task.
This research shows that in terms of ordinary image indexing representing everyday-life objects, the two approaches investigated are fundamentally distinct on the terminological, perceptual, and structural perspective. Additionally, the analysis of the characteristics of the two indexing approaches reveals that if the indexing language differs, the characteristics vary little within the same indexing approach. Finally, this research underlines that the two indexing approaches of ordinary images representing everyday-life objects have a retrieval performance that is different in terms of its effectiveness, efficiency, and satisfaction of the image searcher according to the approach and the language used for indexing