    Gender inequality on Twitter during the UK election of 2019

    Social media platforms such as Twitter play an essential role in politics and social movements nowadays. The aim of this paper is to compare and contrast the language used on Twitter to refer to the candidates of the last UK general election of December 2019 in order to raise awareness of gender inequality in politics. The methodology followed is based on three aspects: (a) a quantitative analysis using Sketch Engine to extract the main collocates from the corpus; (b) a sentiment analysis of the compiled tweets by means of two lexicon classifications: BING (Hu & Liu, 2004) and NRC (Mohammad & Turney, 2013), which classifies words into eight basic emotions and two sentiments (positive and negative); and (c) a qualitative analysis employing a Critical Discourse Analysis approach (Fairclough, 2013) to examine verbal abuse towards women from a linguistics perspective

    Creation of a large news corpus for the discourse analysis of Violence Against Women (VAW)

    The press is considered to play a fundamental social role, as it shapes public opinion. In this regard, CDA Critical discourse analysis (CDA) has as a primary aim to study "the way social power abuse, dominance, and inequality are enacted, reproduced, and resisted by text and talk in the social and political context" with the purpose of resisting "social inequality (van Dijk, 1991: 353). The analysis of ideologies in news discourse has a long tradition, but only recently have linguists started to use large corpora and corpus techniques to study them. This presentation describes the process of developing a large corpus of journalistic news in English, Spanish and Catalan on Violence Against Women (VAW) in the digital press, which contains over 80,000 texts and 70 million words so far. This corpus is part of the NEWSGEN project of the University of Valencia, which aims to document and investigate the historical evolution and the political, cultural, social, and ideological impact of discourses on VAW in recent times. Methodologically, the three phases for creating this corpus will be described: design, compilation, and annotation. The seed words on VAW have been defined in the design phase. The Factiva database was used for the compilation of the corpus, and then the texts were cleaned of irrelevant data and duplicates were eliminated. Finally, the texts were annotated with metadata such as the article's date, title, and body. A statistical analysis of the corpus was conducted, and case studies showing its potential and possible applications will be presented.

    Mapping of political events related to the COVID-19 pandemic on Twitter using topic modelling and keywords over time.

    This research aims to study the relationship between actual, real-world events related to the COVID-19 pandemic and the impact these events produced on social media. To achieve this objective, we employ topic modelling and keyword extraction techniques. Topic modelling is a Natural Language Processing technique that attempts to identify topics automatically from a collection of documents (Vayansky and Kumar, 2020). This is similar to keyword extraction but, unlike this, topic modelling algorithms return clusters of words that make up the topic. Thus, a second objective is to compare the results of these two methods when it comes to identifying the salient topics in a corpus. We have used the publicly available and multilingual COVID-19 Twitter dataset collected from January 21, 2020 (and still ongoing) available via the COVID-19-TweetsIDs GitHub repository (Chen, Lerman & Ferrara, 2020). For this study, we will focus on tweets written in English from 2020 and 2021. We limited our study to the years 2020 to 2021, which contains 1 billion tweets (31 billion tokens), and extracted a random, time-stratified sample of 0,1%, which resulted in a total of approximately 1 million tweets (31 million tokens). In terms of methods, we employed unsupervised machine learning methods for both tasks. For topic modelling we used BERT embeddings and the BERTopic library (Grootendorst, 2022). Our script generates a full list of topics and assigned terms, a coherence score, and several data visualisations, such as topics-over-time graphs, heatmaps, and topic hierarchies. For keyword extraction, we used TextRank (Mihalcea & Tarau, 2004), a language-independent, graph-based ranking model. We then compare results returned by both methods in terms of usefulness and, finally, provide an interpretation of results by relating the extracted topics to the situation of the global pandemic at different stages of the crisis.

    «Coloqué las esposas y las até al cabecero de la cama»: Un estudio lexicológico basado en corpus sobre los relatos eróticos amateur y su influencia contemporánea en el uso del lenguaje.

    La literatura erótica amateur es un género publicado mayoritariamente por autores anónimos. Este es un género muy prolífico y ha estado muy presente desde los primeros pasos de Internet en español donde ha contado con comunidades en línea que fomentan la autopublicación y frecuentemente se han especializado en distintos subgéneros relacionados con un amplísimo abanico de prácticas y filias sexuales. Consideramos que mucha de la jerga relacionada con el BDSM (Doménech y Martí 2004) ha pasado del ámbito sociolingüístico relacionado con lo tabú y ha entrado con fuerza en el léxico dentro del ámbito narrativo de carácter sexual. El presente trabajo propone un análisis cuantitativo de las evoluciones en la construcción del imaginario erótico en internet a través de un corpus braquicrónico de relatos eróticos publicados entre 2007 y 2020 por usuarios anónimos de la red en la línea de metodologías consolidadas (Baker 2004, 2005, 2008, 2014, 2018; King 2015; Milani 2013). Se prestará atención especialmente al léxico relacionado con prácticas BDSM popularizadas por la trilogía antes mencionada. Para llevarlo a cabo, se implementó una metodología basada en corpus, que utiliza una amplia recopilación de relatos eróticos amateur procedente de la web Todorelatos.com, compilada y ampliamente analizada por Garofalo (2021) desde la perspectiva del discurso homoerótico. A partir de ella, se compararon de manera longitudinal las tendencias por año y el uso de verbos relacionados con la violencia y el dolor. También se analizó si los adjetivos son de una naturaleza más denigrante y el uso de sustantivos relacionados con instrumentos propios de prácticas BDSM. Los resultados obtenidos se triangularon cualitativamente con ejemplos extraídos del propio corpus.

    Creación de un corpus de noticias de gran tamaño en inglés, español y catalán para el análisis del discurso en torno a género y desigualdad social

    Se considera que la prensa desempeña un papel social fundamental, ya que modela la opinión pública reproduciendo o resistiendo discursos de desigualdad (van Dijk 1991). El análisis de ideologías en el discurso de noticias periodísticas cuenta de una larga tradición, sin embargo, solo recientemente los lingüistas han empezado a utilizar corpus de gran tamaño y metodologías de lingüística de corpus para el estudio de estas. Ejemplos de ello son Baker et al. (2008, 2013) sobre la representación del islam y los musulmanes en el Reino Unido, Potts et al. (2015) sobre el huracán Katrina, y en España Fuster-Márquez y Gregori-Signes (2019) sobre el turismo y la turismofobia en la prensa española, o Santaemilia-Ruiz y Maruenda-Bataller (2011, 2013, 2014) sobre la violencia de género. Este trabajo describe el proceso llevado a cabo para desarrollar un corpus de noticias periodísticas de gran tamaño en inglés, español y catalán en torno a género y desigualdad social en la prensa digital, que cuenta (por ahora) con 80.000 textos y 70 millones de palabras. Forma parte del proyecto NEWSGEN de la Universidad de València que tiene el objetivo de documentar e investigar la evolución histórica y el impacto político, cultural, social e ideológico de los discursos en torno a género y desigualdad social. Metodológicamente se van a describir las tres fases para la creación de este corpus: diseño, compilación y anotación. En la fase de diseño se han definido las seed words en torno a violencia de género y desigualdad social. Para la compilación del corpus se ha utilizado la base de datos Factiva y posteriormente se han limpiado los textos de datos irrelevantes y eliminados duplicados. Por último, se han anotado los textos con metadatos como por ejemplo la fecha, el título y cuerpo del artículo. Se llevará a cabo un análisis estadístico del corpus y se presentaran casos de estudio que muestran su potencial y posibles aplicaciones.