1 research outputs found
Multimodal on-the-fly news media exploration
Information is presented to us in many ways and one of the most popular and trustworthy
sources of information are the news media. Every day, news events from around the
world are broadcasted through digital platforms and comprise a wide range of topics,
divided into different categories and written by a diverse number of authors. These are
presented to us online in the form of text but also in the form of images that help us to
visually contextualize and "witness" the event with our own eyes. This way of presenting
news, results in a multimodal news articles format.
Most news sites present us on their landing page with the latest and most popular
news, allowing users to search for specific topics. However, given the large number of
articles, especially on topics such as "COVID-19" or "War in Ukraine", enabling users to get
a complete picture of the events and their origins in a dynamic and effective way becomes
a particularly difficult task. Having a complete picture of the events also helps the users
to be less susceptible to biased interpretations.
This thesis investigates zero-shot deep multimodal approaches for the news domain
that is, given an image or a relevant text of a news article, we are able to analyze and
aggregate related news pieces on-the-fly. Textual and visual processing with deep neural
methods transform the text and images into the embeddings needed to reach the desired
topic through context.
We collected the news’ relevant information which resulted in approximately 4 million
documents, processed the multimodal information to enable embedding-based searches
and then provided aggregations of news according to topics and visualizations selected by
the user using an interface that enabled the exploration of unfolding events. The outcome
was a zero-shot news pipeline that made multA informação é-nos apresentada de muitas maneiras e uma das fontes de informação mais
populares e fiáveis são os meios noticiosos. Todos os dias, eventos noticiosos de todo o
mundo são transmitidos através de plataformas digitais e compreendem uma vasta gama
de tópicos, divididos em diferentes categorias e escritos por um número diversificado
de autores. Estes são-nos apresentados online sob a forma de texto mas também sob a
forma de imagens que nos ajudam a contextualizar visualmente e permitem aos leitores
"testemunhar"o evento com os seus próprios olhos. Esta forma de apresentação de notÃcias
resulta num formato de artigos de notÃcias multimodais.
Amaioria dos sites de notÃcias apresenta-nos na sua página de destino as últimas e mais
populares notÃcias e permite ao utilizador pesquisar tópicos especÃficos. Contudo, dado o
grande número de artigos, especialmente sobre tópicos como "COVID-19"ou "Guerra na
Ucrânia", permitir aos utilizadores obter uma imagem completa dos acontecimentos e das
suas origens de uma forma dinâmica e eficaz torna-se uma tarefa particularmente difÃcil.
Esta tese investiga abordagens multimodais profundas de zero-shot para o domÃnio
das notÃcias que, dada uma imagem e um texto relevante de um artigo noticioso, é capaz
de analisar e agregar peças jornalÃsticas em tempo real. O processamento textual e visual
transforma o texto e imagens nos "embeddings"necessários para chegar ao tópico desejado
através do contexto.
Recolhemos a informação relevante das notÃcias que resultou em aproximadamente 4
milhões de documentos, processámos a informação multimodal para permitir pesquisas
baseadas em "embeddings"e depois fornecemos agregações de notÃcias de acordo com os
tópicos e visualizações que foram selecionadas pelo utilizador utilizando uma interface
que permite a exploração de acontecimentos em desenvolvimento. O resultado foi um
fluxo de notÃcias "zero-shot"que torna as notÃcias multimodais prontamente disponÃveis
para navegar de uma forma semântica e eficiente