16 research outputs found

    Outlining the way ahead in computational communication science: an introduction to the IJoC special section on „Computational Methods for Communication Science: Toward a Strategic Roadmap“

    Get PDF
    Over the past two decades, processes of digitalization and mediatization have shaped the communication landscape and have had a strong impact on various facets of communication. The digitalization of communication results in completely new forms of digital traces that make communication processes observable in new and unprecedented ways. Although many scholars in the social sciences acknowledge the chances and requirements of the digital revolution in communication, they are also facing fundamental challenges in implementing successful research programs, strategies, and designs that are based on computational methods and “big data.” This Special Section aims at bringing together seminal perspectives on challenges and chances of computational communication science (CCS). In this introduction, we highlight the impulses provided by the research presented in the Special Section, discuss the most pressing challenges in the context of CCS, and sketch a potential roadmap for future research in this field

    AI and the social sciences: why all variables are not created equal

    Get PDF
    This article argues that it is far from trivial to convert social science concepts into accurate categories on which algorithms work best. The literature raises this concern in a general way; for example, Deeks notes that legal concepts, such as proportionality, cannot be easily converted into code noting that ‘The meaning and application of these concepts is hotly debated, even among lawyers who share common vocabularies and experiences’ (Deeks in Va Law Rev 104, pp. 1529–1593, 2018). The example discussed here is recidivism prediction, where the factors that are of interest are difficult to capture adequately through questionnaires because survey responses do not necessarily indicate whether the behaviour that is of interest is present. There is room for improvement in how questions are phrased, in the selection of variables, and by encouraging practitioners to consider whether a particular variable is the sort of thing that can be measured by questionnaires at all

    The rhetorical work of credibility-building for social scientific big data: Positioning arguments and legitimacy in empirical sociology

    Get PDF
    This article investigates the rhetorical work of building credibility for social scientific research designs with big data. Big data is discussed  as a contested concept in the social sciences, one whose meaning and implications are under dispute. Proceeding from analysis of 29 sociology articles based on empirical research, the author argues that credibility is constructed in this context through the rhetorical positioning of disciplines as legitimate interpreters of big data. The article identifies three distinct positioning strategies: conservative, reformist, and supplementarist, each of which locates the legitimacy of interpretation in its own way. While conservative positioning fixes  the locus of legitimate interpretation within the social sciences, those employing a reformist strategy seek to widen it to encompass methods from beyond established social scientific fields. Finally, supplementarist positioning portrays big data as inherently limited and ties the legitima­cy of interpretation to alternative approaches. Through identifying and addressing these respective strategies, the article discusses rhetorical positioning as part of the work of enacting big data: a performative process that can foster several visions of the future methodology of the social sciences

    A Review of Research on Participation in Democratic Decision-Making Presented at SIGCHI Conferences : Toward an Improved Trading Zone Between Political Science and HCI

    Get PDF
    We present a review of 80 papers representing efforts to support participation in democratic decision-making mostly related to local or national governments. The papers were published in leading human–computer interaction (SIGCHI conferences) venues. Most of this literature represents attempts to support assembly- oriented participation, wherein decisions are made through discussion, although referendum-type participation, involving decision-making based on voting, has gained attention too. Primarily, those papers addressing agenda-setting have examined organization-led forms, in which the agenda is controlled by those issuing the call for participation. Accordingly, the authors call for more research into support for representative models and participant-driven agenda-setting. Furthermore, the literature review pinpoints areas wherein further interdisciplinary engagement may be expected to improve research quality: in political science, HCI-informed methods and new ways of using physical input in participation merit more research, while, from the HCI side, cultivating closer relationships with political science concepts such as democratic innovations and calculus of voting could encourage reconsideration of the research foci. These observations speak to the benefits of a new research agenda for human–computer interaction research, involving different forms of participation, most importantly to address lack of engagement under the representative model of participation. Furthermore, in light of these findings, the paper discusses what type of interdisciplinary research is viable in the HCI field today and how political science and HCI scholars could usefully collaborate.Peer reviewe

    Discourse polarization index: Analysis of top-down and ground-up political discourses in Portugal

    Get PDF
    An increasing number of events across the world have been a warning for democracy stability in established democratic countries. Events such as Hungary’s prime minister Viktor Orbán publicity doubting that liberal democracies could remain globally competitive, and the increasing voting share of anti-establishment parties in European member states are consequences of the political polarization phenomenon which endangers our democracy. To understand if we are becoming more polarized, literature has been focusing on measuring political polarization through surveys and voting data, without consistent evidence for any trend. Although the theoretical definition of political polarization has found stability in the literature, the different forms of measuring it have not. The measurement of political polarization needs to be more robust and extended to mass society besides elite society, enabling a comparison between the two, and within the real life and the digital. This dissertation answers this need, measuring political polarization, using text-as-data and computational social science methods, in an effective way independent of manual tasks, language, survey or pooling, polarization’s actors, and environments. It uses an empirical framework applied to parliamentary discourses and Twitter data to create a Discourse Polarization Index (DPI) which enables the assessment of the evolution of political polarization in discourse, considering its state and process. Portugal is used as use case, showing an increase in political polarization from 2015 to 2021, for the elite and the mass society, with similar behaviour between the two groups. A semantic validation is done, and research future steps are given.Diversos acontecimentos mundiais põem em causa a estabilidade democrática nos países democráticos. Destacando-se o comentário do primeiro-ministro húngaro, Viktor Orban, que declarou que as democracias atuais podem não ser competitivas globalmente, justificando a inclinação por uma autocracia, assim como o número crescente de partidos antissistema na Europa ocidental. Ambos os eventos são consequência da polarização política, um fenómeno que tem vindo a pôr em risco as democracias ocidentais. Para perceber a tendência, a literatura tem-se focado na medição quantitativa da polarização política através de questionários e sondagens, sem nenhuma tendência identificada. A quantificação da polarização política precisa de ser mais robusta e estudar também a polarização da massa publica, para além da elite, sendo possível assim a comparação da polarização entre os dois grupos, mas também entre os ambientes em que interagem, na vida real ou no digital. Esta dissertação responde a essa necessidade, medindo a polarização política, usando texto e métodos de ciências sociais computacionais, independente da língua, dos questionários, das sondagens e de tarefas manuais. A dissertação usa um modelo matemático empírico aplicado ao discurso parlamentar e a dados retirados do Twitter para criar o Índice de Polarização no Discurso. Este índice permite avaliar a evolução da polarização no discurso, considerando as suas características de estado e processo. Portugal é usado como caso de estudo, mostrando um aumento da polarização política entre 2015 e 2021, para a elite e massa pública, com comportamentos semelhantes. É efetuada uma validação semântica e são dadas recomendações para próximos passos de investigação

    PandeMedia: an annotated corpus of digital media for issue salience

    Get PDF
    Tese de mestrado, Ciência de Dados, 2022, Universidade de Lisboa, Faculdade de CiênciasThe ubiquitous sharing of information via the Internet has shifted much of society’s communication and information-seeking to digital spaces, such as news websites and social networks. As the Web represents a massive hub of information dissemination and discussion, it has also made possible the extraction of great amounts of highly detailed data to answer complex questions on human behaviour and preferences. This shift towards online life was exaggerated during the earlier phases of the COVID-19 pandemic, when many countries were in lockdown and in-person contact was severely limited. Therefore, in addition to the ongoing political, economic, and public health crisis, there were, on the one hand, new opportunities to study human behaviour thought digital data, including support for public health measures or trust in science, while, on the other hand, the deluge of new data and the fast-changing nature of the pandemic created new challenges to data science research, particularly the need to build quality pipelines for data extraction, collection, and future analysis. In this thesis, we focus on the important issue of salience of science and scientists during a health crisis and ask how to build a pipeline to select, store, extract and analyse longitudinal digital media data, that might allow for long-term study of media effects on salience. Therefore, this project has two main components: first, we showcase a data pipeline that makes use of media and social media data, available online, to build a media corpus of news and tweets with millions of documents, spanning billions of tokens, corresponding to more than two years of coverage and multiple media sources and topics; second, we show how this corpus can be leveraged to study the problem of salience, and use the visibility of science during the earlier phases of the COVID-19 pandemic as a case-study, comparing between salience in traditional versus social media. Overall, we present both a transparent and scaleable pipeline and a specific application of this approach, to tackle the question of how science visibility changed during this massive crisis. We use different media types and sources to potentiate text mining and other analytical purposes, offering a digital data-centric computational methodology to investigate questions in the social sciences.Os dados tomam, nos dias de hoje, um papel central no funcionamento das sociedades humanas. Com o desenvolvimento das tecnologias digitais, aliadas à ubíqua conetividade à Internet, em particular à World Wide Web (WWW), vivemos na chamada “era da informação” . Este paradigma da sociedade alicerça-se no fenómeno tipicamente referido como datafication, que se refere ao processo já enraizado e inerente à vida quotidiana através do qual a nossa atividade humana e formas de participação na sociedade são convertidas em dados. Esta produção em larga escala e em tempo real de dados funciona como o combustível para um amplo leque de aplicações nos mais variados domínios, desde a indústria, à investigação científica, à saúde, entre outros. Deste modo, testemunhamos uma crescente procura, e mesmo necessidade, de grandes coleções de dados, para alimentarem os diferentes setores de atividade. A Web representa talvez o maior volume de dados amplamente disponível ao público em geral. É nos websites e nas aplicações online que uma grande parte da população realiza diariamente um conjunto de tarefas e ações, sejam estas de caráter profissional ou lúdico. Os nossos hábitos de consumo de informação são assegurados predominantemente por estes espaços digitais, como as redes sociais ou as plataformas digitais de media tradicionais. Da mesma forma, as nossas interações sociais mediadas por dispositivos digitais são cada vez mais frequentes. A Web é, portanto, um reservatório de potenciais descobertas e de informação valiosa, que pode ser eventualmente extraída através da exploração dos dados que contém. Pela sua própria natureza, a Web levanta grandes desafios relativos às formas de capturar este valor presente nos dados digitais. Enormes volumes de dados podem ser rapidamente e facilmente identificados e extraídos. No entanto, não existe um processo de acréscimo de valor a estes dados sem que passem primeiramente por uma fase de organização. Para que seja possível extrair conhecimento dos dados obtidos, é necessário que estes apresentam a devida organização e qualidade. As maiores dificuldades nas metodologias de colheita e gestão de dados digitais passam por assegurar precisamente esta qualidade. Os dados da Web são naturalmente muito heterogéneos, visto resultarem da convergência de imensas fontes de informação. São também, na sua maioria, não estruturados, nomeadamente em formatos textuais que precisam de ser interpretados computacionalmente e compartimentalizados para facilitar futura análise. Muitas vezes, existem também dados em falta ou que apresentam uma qualidade tão baixa que são inviáveis para as finalidades em mente. Para além destes fatores intrínsecos aos dados em si, as questões que os rodeiam são também cruciais a considerar: a capacidade de detetar e localizar os dados pretendidos, a capacidade de aceder a estes dados, e o grau de disponibilidade destes dados, quando acessíveis. Deve também ter-se em consideração as questões éticas, de privacidade e de direitos de autor associadas aos dados passíveis de serem colecionados. ... automatizar processos de colheita para fontes e tipos de dados tão diversos quanto aqueles que se encontram disponíveis na Web. A pandemia causada pelo SARS-CoV-2, agente da COVID-19, representa uma crise de enormes proporções nas esferas política, económica e de saúde pública. Com a população do mundo restrita nos seus comportamentos e hábitos de modo a prevenir um agravamento da propagação do vírus, as pessoas recorreram ao digital como meio de comunicação e de obtenção e disseminação de informação (e desinformação). Assim, os media e as redes sociais foram relevantes pontos de convergência de uma grande parte da atenção do público, levantando questões importantes sobre a perceção pública dos especialistas científicos e sobre a saliência de certos tópicos de discussão. Num contexto mais alargado, podemos perspetivar a crise pandémica como um desafio no domínio das tecnologias da informação. No desenvolver desta emergência de saúde pública, temos vindo a ser confrontados com vários dos desafios presentes em data science: dados complexos, na escala de populações inteiras, a serem produzidos em tempo real por múltiplas fontes, com diferentes estruturas e formatos, e que sofrem uma rápida desatualização, requerem rápida análise, mas também processos de limpeza e melhoramento robustos. Todos estes fatores nos levam à nossa questão principal: numa crise que evolui tão rapidamente como a pandemia da COVID-19, como podemos construir uma pipeline que nos permita responder aos desafios da coleção e gestão de dados, de modo a criar um dataset de media digital para análise? Para extrair os dados necessários, recorremos a três fontes distintas: a plataforma open-source Media Cloud, a base de dados Internet Archive, e o API da rede social Twitter. Começámos por definir dezoito tópicos distintos, constituídos por palavras-chaves para uso na pesquisa pelos artigos e posts de media. Alguns tópicos são relacionados com a pandemia, enquanto outros funcionam como potenciais controlos positivos e negativos. A coesão semântica de cada tópico foi assegurada através do uso da base de dados léxica WordNet, que fornece significados e relações de palavras. Os metadados inicialmente obtidos foram processados e utilizados para identificar as fontes primárias dos dados de notícias. A partir de Web scraping, obtivemos dados brutos de artigos de media dos Estados Unidos da América disponíveis online, de Janeiro de 2019 a Janeiro de 2021 (inclusive). Estes foram subsequentemente transformados, passando por um processo de filtragem, limpeza e formatação, que é acompanhado de uma análise exploratória dos dados e visualização de dados para efeitos de diagnóstico do processo completo. Os dados da rede social foram extraídos através de um API próprio, especificando parâmetros para restringir resultados aos Estados Unidos e ao intervalo de tempo anteriormente definido. Os dados devidamente tratados foram posteriormente armazenados na base de dados desenhada e contruída para o propósito. A base de dados foi concebida com quatro tabelas, que incluem os dados de notícias, os dados da rede social Twitter, os metadados das pesquisas originais e metadados sobre as fontes das notícias, e feita através do sistema de gestão de bases de dados PostgreSQL. Para otimizar o desempenho das pesquisas no nosso conjunto de dados, procedemos à construção de índices para campos específicos, nomeadamente campos de texto, que são o nosso interesse principal. Utilizando as funcionalidades disponíveis, foram construídas representações vetoriais do texto das notícias, e a partir destas foi contruído um índice apropriado para pesquisa em dados textuais, que reduziu o tempo de pesquisa por um fator nas dezenas de milhares de vezes. Demonstramos ainda a pesquisa preliminar de dados longitudinais para efeitos de estudo da saliência de diferentes tópicos nos meios de comunicação. Foram aplicadas diferentes metodologias estatísticas de análise de séries temporais para responder às questões a abordar. Através do uso de médias móveis, os sinais foram clarificados para melhor visualização. Os testes de estacionaridade serviram de diagnóstico para as transformações a aplicar aos dados de modo a garantir a validade de análises posteriores. Com testes de causalidade de Granger, foi possível estabelecer relações entre séries temporais com base no poder preditivo e assim compreender a dinâmica de interação de diferentes media. Com recurso a técnicas de deteção de pontos de quebra, conseguimos defender a ideia de que existiram períodos de mudança dos padrões observados nos media que coincidem com o despoletar da crise pandémica. Assim, potenciada por uma pipeline customizada, robusta e transparente, conseguimos gerar um corpus de media, contendo milhões de documentos, que albergam milhares de milhões de tokens, correspondendo a um período de tempo superior a dois anos e múltiplas fontes de notícias e tópicos, permitindo assim potenciar finalidades de mineração de texto (text mining) e outros propósitos analíticos, oferecendo uma metodologia computacional centrada nos dados digitais para investigar este tipo de questões nas ciências sociais

    Aihemallinnus sekä muut ohjaamattomat koneoppimismenetelmät yhteiskuntatieteellisessä tutkimuksessa : kriittisiä havaintoja

    Get PDF
    Aihemallinnus mahdollistaa laajojen tekstiaineistojen automaattisen ryhmittelyn käyttämällä ohjaamatonta koneoppimista. Kiinnostus aihemallinnusta kohtaan on kasvanut ja sen soveltaminen on lisääntynyt yhteiskuntatieteellisessä tutkimuksessa. Aihemallinnus sekä muut ohjaamattoman koneoppimisen menetelmät kuitenkin vaativat tutkijoita tekemään valintoja: tutkijat joutuvat esimerkiksi päättämään mitä koneoppimismenetelmää käytetään, miten sitä käytetään ja miten aineistoa esikäsitellään, Lisäksi on kyettävä tulkitsemaan ohjaamattoman koneoppimisen kautta syntyneet tulokset. Aihemallinnuksessa eräs valinta koskee aiheiden määrää, josta on käyty aktiivisesti keskustelua niin koneoppimisen kuin laskennallisen yhteiskuntatieteen yhteisöissä. Artikkelin esittelemä käyttäjäkoe osoittaa, että yhteiskuntatieteissä suosittu, tulkinnallisuutta korostava lähestymistapa aihemäärän valintaan on epävarma. Artikkelin empiirinen esimerkki osoittaa, että aihemäärän valinta vaikuttaa aihemallinnuksesta syntyviin tulkintoihin. Tämän pohjalta artikkeli suosittaa, että (i) parametrien valinnassa käytettäisiin tilastollisia menetelmiä. Lisäksi suositellaan, että (ii) aihemallinnuksen tulokset sidotaan yhteiskuntatieteelliseen kirjallisuuteen käyttämällä teoreettista viitekehystä tulkinnan apuna tai aihemallinnusta käytetään joko menetelmällisesti trianguloiden tai grounded theory -lähtöisesti. Lisäksi artikkelissa suositellaan, että (iii) tutkimusprosessin avoimuuteen kiinnitetään huomiota sekä (iv) laskennallisten menetelmien soveltajat seuraavat kriittisen algoritmitutkimuksen kehitystä.Peer reviewe
    corecore