5 research outputs found
Natural language image description: data, models, and evaluation
Automatically describing an image with a concise natural language description
is an ambitious and emerging task bringing together the Natural Language
and Computer Vision communities. With any emerging task, the
necessary groundwork developing appropriate datasets, strong baseline models,
and evaluation frameworks is key. In this thesis, we introduce the rst
large datasets speci cally designed with image description in mind, focusing
on concrete descriptions that can be gleaned from the image alone. Furthermore,
we develop strong baseline models that show the need to model
language beyond a simple bag-of-words approach to increase performance.
Most importantly, we introduce a ranking based framework for comparing
image description models. We show that this framework is more reliable and
accurate than the conventional wisdom of evaluating on novel model generated
text. As this task has gained popularity recently, we further analyze
the drawbacks of current evaluation methods, and put forth concrete extensions
to our ranking framework that will guide progress towards modeling
the association of natural language and the images the language describes
Evaluation Methodologies for Visual Information Retrieval and Annotation
Die automatisierte Evaluation von Informations-Retrieval-Systemen erlaubt
Performanz und Qualität der Informationsgewinnung zu bewerten. Bereits in
den 60er Jahren wurden erste Methodologien für die system-basierte
Evaluation aufgestellt und in den Cranfield Experimenten überprüft.
Heutzutage gehören Evaluation, Test und Qualitätsbewertung zu einem aktiven
Forschungsfeld mit erfolgreichen Evaluationskampagnen und etablierten
Methoden. Evaluationsmethoden fanden zunächst in der Bewertung von
Textanalyse-Systemen Anwendung. Mit dem rasanten Voranschreiten der
Digitalisierung wurden diese Methoden sukzessive auf die Evaluation von
Multimediaanalyse-Systeme übertragen. Dies geschah häufig, ohne die
Evaluationsmethoden in Frage zu stellen oder sie an die veränderten
Gegebenheiten der Multimediaanalyse anzupassen. Diese Arbeit beschäftigt
sich mit der system-basierten Evaluation von Indizierungssystemen für
Bildkollektionen. Sie adressiert drei Problemstellungen der Evaluation von
Annotationen: Nutzeranforderungen für das Suchen und Verschlagworten von
Bildern, Evaluationsmaße für die Qualitätsbewertung von
Indizierungssystemen und Anforderungen an die Erstellung visueller
Testkollektionen. Am Beispiel der Evaluation automatisierter
Photo-Annotationsverfahren werden relevante Konzepte mit Bezug zu
Nutzeranforderungen diskutiert, Möglichkeiten zur Erstellung einer
zuverlässigen Ground Truth bei geringem Kosten- und Zeitaufwand vorgestellt
und Evaluationsmaße zur Qualitätsbewertung eingeführt, analysiert und
experimentell verglichen. Traditionelle Maße zur Ermittlung der Performanz
werden in vier Dimensionen klassifiziert. Evaluationsmaße vergeben
üblicherweise binäre Kosten für korrekte und falsche Annotationen. Diese
Annahme steht im Widerspruch zu der Natur von Bildkonzepten. Das gemeinsame
Auftreten von Bildkonzepten bestimmt ihren semantischen Zusammenhang und
von daher sollten diese auch im Zusammenhang auf ihre Richtigkeit hin
überprüft werden. In dieser Arbeit wird aufgezeigt, wie semantische
Ähnlichkeiten visueller Konzepte automatisiert abgeschätzt und in den
Evaluationsprozess eingebracht werden können. Die Ergebnisse der Arbeit
inkludieren ein Nutzermodell für die konzeptbasierte Suche von Bildern,
eine vollständig bewertete Testkollektion und neue Evaluationsmaße für die
anforderungsgerechte Qualitätsbeurteilung von Bildanalysesystemen.Performance assessment plays a major role in the research on Information
Retrieval (IR) systems. Starting with the Cranfield experiments in the
early 60ies, methodologies for the system-based performance assessment
emerged and established themselves, resulting in an active research field
with a number of successful benchmarking activities. With the rise of the
digital age, procedures of text retrieval evaluation were often transferred
to multimedia retrieval evaluation without questioning their direct
applicability. This thesis investigates the problem of system-based
performance assessment of annotation approaches in generic image
collections. It addresses three important parts of annotation evaluation,
namely user requirements for the retrieval of annotated visual media,
performance measures for multi-label evaluation, and visual test
collections. Using the example of multi-label image annotation evaluation,
I discuss which concepts to employ for indexing, how to obtain a reliable
ground truth to moderate costs, and which evaluation measures are
appropriate. This is accompanied by a thorough analysis of related work on
system-based performance assessment in Visual Information Retrieval (VIR).
Traditional performance measures are classified into four dimensions and
investigated according to their appropriateness for visual annotation
evaluation. One of the main ideas in this thesis adheres to the common
assumption on the binary nature of the score prediction dimension in
annotation evaluation. However, the predicted concepts and the set of true
indexed concepts interrelate with each other. This work will show how to
utilise these semantic relationships for a fine-grained evaluation
scenario. Outcomes of this thesis result in a user model for concept-based
image retrieval, a fully assessed image annotation test collection, and a
number of novel performance measures for image annotation evaluation
Changing Higher Education Learning with Web 2.0 and Open Education Citation, Annotation, and Thematic Coding Appendices
Appendices of citations, annotations and themes for research conducted on four websites: Delicious, Wikipedia, YouTube, and Facebook
Evaluation Methodologies for Visual Information Retrieval and Annotation
Die automatisierte Evaluation von Informations-Retrieval-Systemen erlaubt
Performanz und Qualität der Informationsgewinnung zu bewerten. Bereits in
den 60er Jahren wurden erste Methodologien für die system-basierte
Evaluation aufgestellt und in den Cranfield Experimenten überprüft.
Heutzutage gehören Evaluation, Test und Qualitätsbewertung zu einem aktiven
Forschungsfeld mit erfolgreichen Evaluationskampagnen und etablierten
Methoden. Evaluationsmethoden fanden zunächst in der Bewertung von
Textanalyse-Systemen Anwendung. Mit dem rasanten Voranschreiten der
Digitalisierung wurden diese Methoden sukzessive auf die Evaluation von
Multimediaanalyse-Systeme übertragen. Dies geschah häufig, ohne die
Evaluationsmethoden in Frage zu stellen oder sie an die veränderten
Gegebenheiten der Multimediaanalyse anzupassen. Diese Arbeit beschäftigt
sich mit der system-basierten Evaluation von Indizierungssystemen für
Bildkollektionen. Sie adressiert drei Problemstellungen der Evaluation von
Annotationen: Nutzeranforderungen für das Suchen und Verschlagworten von
Bildern, Evaluationsmaße für die Qualitätsbewertung von
Indizierungssystemen und Anforderungen an die Erstellung visueller
Testkollektionen. Am Beispiel der Evaluation automatisierter
Photo-Annotationsverfahren werden relevante Konzepte mit Bezug zu
Nutzeranforderungen diskutiert, Möglichkeiten zur Erstellung einer
zuverlässigen Ground Truth bei geringem Kosten- und Zeitaufwand vorgestellt
und Evaluationsmaße zur Qualitätsbewertung eingeführt, analysiert und
experimentell verglichen. Traditionelle Maße zur Ermittlung der Performanz
werden in vier Dimensionen klassifiziert. Evaluationsmaße vergeben
üblicherweise binäre Kosten für korrekte und falsche Annotationen. Diese
Annahme steht im Widerspruch zu der Natur von Bildkonzepten. Das gemeinsame
Auftreten von Bildkonzepten bestimmt ihren semantischen Zusammenhang und
von daher sollten diese auch im Zusammenhang auf ihre Richtigkeit hin
überprüft werden. In dieser Arbeit wird aufgezeigt, wie semantische
Ähnlichkeiten visueller Konzepte automatisiert abgeschätzt und in den
Evaluationsprozess eingebracht werden können. Die Ergebnisse der Arbeit
inkludieren ein Nutzermodell für die konzeptbasierte Suche von Bildern,
eine vollständig bewertete Testkollektion und neue Evaluationsmaße für die
anforderungsgerechte Qualitätsbeurteilung von Bildanalysesystemen.Performance assessment plays a major role in the research on Information
Retrieval (IR) systems. Starting with the Cranfield experiments in the
early 60ies, methodologies for the system-based performance assessment
emerged and established themselves, resulting in an active research field
with a number of successful benchmarking activities. With the rise of the
digital age, procedures of text retrieval evaluation were often transferred
to multimedia retrieval evaluation without questioning their direct
applicability. This thesis investigates the problem of system-based
performance assessment of annotation approaches in generic image
collections. It addresses three important parts of annotation evaluation,
namely user requirements for the retrieval of annotated visual media,
performance measures for multi-label evaluation, and visual test
collections. Using the example of multi-label image annotation evaluation,
I discuss which concepts to employ for indexing, how to obtain a reliable
ground truth to moderate costs, and which evaluation measures are
appropriate. This is accompanied by a thorough analysis of related work on
system-based performance assessment in Visual Information Retrieval (VIR).
Traditional performance measures are classified into four dimensions and
investigated according to their appropriateness for visual annotation
evaluation. One of the main ideas in this thesis adheres to the common
assumption on the binary nature of the score prediction dimension in
annotation evaluation. However, the predicted concepts and the set of true
indexed concepts interrelate with each other. This work will show how to
utilise these semantic relationships for a fine-grained evaluation
scenario. Outcomes of this thesis result in a user model for concept-based
image retrieval, a fully assessed image annotation test collection, and a
number of novel performance measures for image annotation evaluation
Information search and similarity based on Web 2.0 and semantic technologies
The World Wide Web provides a huge amount of information described in natural language at the current society’s disposal. Web search engines were born from the necessity of finding a particular piece of that information. Their ease of use and their utility have turned these engines into one of the most used web tools at a daily basis. To make a query, users just have to introduce a set of words - keywords - in natural language and the engine answers with a list of ordered resources which contain those words. The order is given by
ranking algorithms. These algorithms use basically two types of features: dynamic and
static factors. The dynamic factor has into account the query; that is, those documents
which contain the keywords used to describe the query are more relevant for that query.
The hyperlinks structure among documents is an example of a static factor of most current
algorithms. For example, if most documents link to a particular document, this document
may have more relevance than others because it is more popular.
Even though currently there is a wide consensus on the good results that the majority of
web search engines provides, these tools still suffer from some limitations, basically 1) the
loneliness of the searching activity itself; and 2) the simple recovery process, based mainly
on offering the documents that contains the exact terms used to describe the query.
Considering the first problem, there is no doubt in the lonely and time-consuming process
of searching relevant information in the World Wide Web. There are thousands of users out
there that repeat previously executed queries, spending time in taking decisions of which
documents are relevant or not; decisions that may have been taken previously and that
may be do the job for similar or identical queries for other users.
Considering the second problem, the textual nature of the current Web makes the
reasoning capability of web search engines quite restricted; queries and web resources are
described in natural language that, in some cases, can lead to ambiguity or other semantic-related
difficulties. Computers do not know text; however, if semantics is incorporated to the text, meaning and sense is incorporated too. This way, queries and web resources will
not be mere sets of terms, but lists of well-defined concepts.
This thesis proposes a semantic layer, known as Itaca, which joins simplicity and
effectiveness in order to endow with semantics both the resources stored in the World Wide
Web and the queries used by users to find those resources. This is achieved through
collaborative annotations and relevance feedback made by the users themselves, which
describe both the queries and the web resources by means of Wikipedia concepts.
Itaca extends the functional capabilities of current web search engines, providing a new
ranking algorithm without dispensing traditional ranking models. Experiments show that this
new architecture offers more precision in the final results obtained, keeping the simplicity
and usability of the web search engines existing so far. Its particular design as a layer
makes feasible its inclusion to current engines in a simple way.Internet pone a disposición de la sociedad una enorme cantidad de información descrita en
lenguaje natural. Los buscadores web nacieron de la necesidad de encontrar un fragmento
de información entre tanto volumen de datos. Su facilidad de manejo y su utilidad los han
convertido en herramientas de uso diario entre la población. Para realizar una consulta, el
usuario sólo tiene que introducir varias palabras clave en lenguaje natural y el buscador
responde con una lista de recursos que contienen dichas palabras, ordenados en base a
algoritmos de ranking. Estos algoritmos usan dos tipos de factores básicos: factores
dinámicos y estáticos. El factor dinámico tiene en cuenta la consulta en sí; es decir,
aquellos documentos donde estén las palabras utilizadas para describir la consulta serán
más relevantes para dicha consulta. La estructura de hiperenlaces en los documentos
electrónicos es un ejemplo de factor estático. Por ejemplo, si muchos documentos enlazan
a otro documento, éste último documento podrá ser más relevante que otros.
Si bien es cierto que actualmente hay consenso entre los buenos resultados de estos
buscadores, todavía adolecen de ciertos problemas, destacando 1) la soledad en la que un
usuario realiza una consulta; y 2) el modelo simple de recuperación, basado en ver si un
documento contiene o no las palabras exactas usadas para describir la consulta.
Con respecto al primer problema, no hay duda de que navegar en busca de cierta
información relevante es una práctica solitaria y que consume mucho tiempo. Hay miles de
usuarios ahí fuera que repiten sin saberlo una misma consulta, y las decisiones que toman
muchos de ellos, descartando la información irrelevante y quedándose con la que
realmente es útil, podrían servir de guía para otros muchos.
Con respecto al segundo, el carácter textual de la Web actual hace que la capacidad de
razonamiento en los buscadores se vea limitada, pues las consultas y los recursos están
descritos en lenguaje natural que en ocasiones da origen a la ambigüedad. Los equipos
informáticos no comprenden el texto que se incluye. Si se incorpora semántica al lenguaje, se incorpora significado, de forma que las consultas y los recursos electrónicos no son
meros conjuntos de términos, sino una lista de conceptos claramente diferenciados.
La presente tesis desarrolla una capa semántica, Itaca, que dota de significado tanto a los
recursos almacenados en la Web como a las consultas que pueden formular los usuarios
para encontrar dichos recursos. Todo ello se consigue a través de anotaciones
colaborativas y de relevancia realizadas por los propios usuarios, que describen tanto
consultas como recursos electrónicos mediante conceptos extraídos de Wikipedia. Itaca
extiende las características funcionales de los buscadores web actuales, aportando un
nuevo modelo de ranking sin tener que prescindir de los modelos actualmente en uso. Los
experimentos demuestran que aporta una mayor precisión en los resultados finales,
manteniendo la simplicidad y usabilidad de los buscadores que se conocen hasta ahora.
Su particular diseño, a modo de capa, hace que su incorporación a buscadores ya
existentes sea posible y sencilla.Programa Oficial de Posgrado en Ingeniería TelemáticaPresidente: Asunción Gómez Pérez.- Secretario: Mario Muñoz Organero.- Vocal: Anselmo Peñas Padill