161 research outputs found

    This Just In: Fake News Packs a Lot in Title, Uses Simpler, Repetitive Content in Text Body, More Similar to Satire than Real News

    Full text link
    The problem of fake news has gained a lot of attention as it is claimed to have had a significant impact on 2016 US Presidential Elections. Fake news is not a new problem and its spread in social networks is well-studied. Often an underlying assumption in fake news discussion is that it is written to look like real news, fooling the reader who does not check for reliability of the sources or the arguments in its content. Through a unique study of three data sets and features that capture the style and the language of articles, we show that this assumption is not true. Fake news in most cases is more similar to satire than to real news, leading us to conclude that persuasion in fake news is achieved through heuristics rather than the strength of arguments. We show overall title structure and the use of proper nouns in titles are very significant in differentiating fake from real. This leads us to conclude that fake news is targeted for audiences who are not likely to read beyond titles and is aimed at creating mental associations between entities and claims.Comment: Published at The 2nd International Workshop on News and Public Opinion at ICWS

    A Large-Scale Study of Phishing PDF Documents

    Full text link
    Phishing PDFs are malicious PDF documents that do not embed malware but trick victims into visiting malicious web pages leading to password theft or drive-by downloads. While recent reports indicate a surge of phishing PDFs, prior works have largely neglected this new threat, positioning phishing PDFs as accessories distributed via email phishing campaigns. This paper challenges this belief and presents the first systematic and comprehensive study centered on phishing PDFs. Starting from a real-world dataset, we first identify 44 phishing PDF campaigns via clustering and characterize them by looking at their volumetric, temporal, and visual features. Among these, we identify three large campaigns covering 89% of the dataset, exhibiting significantly different volumetric and temporal properties compared to classical email phishing, and relying on web UI elements as visual baits. Finally, we look at the distribution vectors and show that phishing PDFs are not only distributed via attachments but also via SEO attacks, placing phishing PDFs outside the email distribution ecosystem. This paper also assesses the usefulness of the VirusTotal scoring system, showing that phishing PDFs are ranked considerably low, creating a blind spot for organizations. While URL blocklists can help to prevent victims from visiting the attack web pages, PDF documents seem not subjected to any form of content-based filtering or detection

    Uncovering the Dynamic, Cognitive, and Linguistic Strategies of Misinformation

    Get PDF
    Les mentides, la manipulació o la informació falsa no són res de nou. Totes han existit durant segles des que el flux i el contingut de la informació ha estat una font de poder. Tot i això, a l'era de les plataformes socials, el mecanisme ha canviat. Si bé encara hi ha emissors d'informació institucionals, competeixen amb altres fonts d'informació que depenen de la viralitat a través de la xarxa per a la difusió d'informació. En aquesta competència, els continguts tradicionals i els creats institucionalment pateixen un desavantatge: no juguen amb les mateixes regles. El contingut que es desvia dels codis deontològics i estilístics dels proveïdors d'informació fiable aprofita diverses heurístiques psicològiques per tornar-se més viral. Per exemple, es basen en l'evocació emocional (llenguatge sentimental i apel·lació als valors morals) i es basen en estils que requereixen menys esforç cognitiu per ser processats (en termes de complexitat gramatical i lèxica). En aquesta tesi doctoral, exploro com les fonts de desinformació aprofiten les heurístiques psicològiques per definir les seves eleccions estratègiques. Més específicament, la tesi es compon de tres estudis: (1) Ús del processament del llenguatge natural per a una exploració quantitativa sobre com les diferents categories d'informació falsa (clickbait, teories de conspiració, fake news, discurs d'odi, pseudociència i rumors) difereixen en termes de sentiment, apel·lació a la moralitat, llegibilitat i diversitat lèxica; (2) Mitjançant anàlisis de xarxes i processament de llenguatge natural, una demostració d'estratègies d'isomorfisme de fonts d'informació falsa cap a fonts confiables amb l'objectiu d'imitar actors d'alt estatus a l'ecosistema d'informació; i (3) una anàlisi dinàmica de notícies falses versus fonts fiables que informen sobre la pandèmia de Covid durant 2020 i 2021. En general, els resultats indiquen que hi ha diferències estructurals significatives entre diferents categories d'informació falsa i entre fonts d'informació fiables (per exemple, les notícies falses són, de mitjana, 18 vegades més negatives, 12 vegades menys diverses lèxicament, un 50% més apel·lants a la moralitat i un 13% més fàcils de processar que les notícies fàctiques). A més, presento evidència sobre com les fake news, el clickbait i els rumors fan servir una estratègia d'imitació cap a fonts fiables amb l'objectiu de ser percebuts com a proveïdors d'informació legítims i d'alt estatus. A més, mostro com es van comportar les fonts de notícies fiables i falses durant la pandèmia de Covid, revelant una reacció inicial convulsa seguida d'una estratègia de desinformació per crear caos i ambigüitat en canviar constantment entre temes. Finalment, discuteixo les implicacions dels resultats de la tesi per a les plataformes de xarxes socials, l'ecosistema mediàtic, les elits polítiques i els usuaris d'Internet.Las mentiras, la manipulación o la información falsa no son nada nuevo. Todas han existido durante siglos desde que el flujo y el contenido de la información ha sido una fuente de poder. Sin embargo, en la era de las plataformas sociales, el mecanismo ha cambiado. Si bien los emisores de información institucionales aún existen, compiten con otras fuentes de información que dependen de la viralidad a través de la red para la difusión de información. En esta competencia, los contenidos tradicionales y los creados institucionalmente sufren una desventaja: no juegan con las mismas reglas. El contenido que se desvía de los códigos deontológicos y estilísticos de los proveedores de información confiable aprovecha diversas heurísticas psicológicas para volverse más viral. Por ejemplo, se basan en la evocación emocional (lenguaje sentimental y apelación a los valores morales) y se basan en estilos que requieren menos esfuerzo cognitivo para ser procesados (en términos de complejidad gramatical y léxica). En esta tesis doctoral, exploro cómo las fuentes de desinformación aprovechan las heurísticas psicológicas para definir sus elecciones estratégicas. Más específicamente, la tesis se compone de tres estudios: (1) Uso del procesamiento del lenguaje natural para una exploración cuantitativa sobre cómo las diferentes categorías de información falsa (clickbait, teorías de conspiración, fake news, discurso de odio, pseudociencia y rumores) difieren en términos de sentimiento, apelación a la moralidad, legibilidad y diversidad léxica; (2) Por medio de análisis de redes y procesamiento de lenguaje natural, una demostración de estrategias de isomorfismo de fuentes de información falsa hacia fuentes confiables con el objetivo de imitar a actores de alto estatus en el ecosistema de información; y (3) un análisis dinámico de noticias falsas versus fuentes confiables que informan sobre la pandemia de Covid durante 2020 y 2021. En general, mis resultados indican que existen diferencias estructurales significativas entre distintas categorías de información falsa y entre fuentes de información confiables (por ejemplo, las noticias falsas son, en promedio, 18 veces más negativas, 12 veces menos diversas léxicamente, un 50 % más apelantes a la moralidad y un 13 % más fáciles de procesar que las noticias fácticas). Además, presento evidencia sobre cómo las fake news, el clickbait y los rumores emplean una estrategia de imitación hacia fuentes confiables con el objetivo de ser percibidos como proveedores de información legítimos y de alto estatus. Además, muestro cómo se comportaron las fuentes de noticias confiables y falsas durante la pandemia de Covid, revelando una reacción inicial convulsa seguida de una estrategia de desinformación para crear caos y ambigüedad al cambiar constantemente entre temas. Finalmente, discuto las implicaciones de los resultados de la tesis para las plataformas de redes sociales, el ecosistema mediático, las élites políticas y los usuarios de Internet.Las mentiras, la manipulación o la información falsa no son nada nuevo. Todas han existido durante siglos desde que el flujo y el contenido de la información ha sido una fuente de poder. Sin embargo, en la era de las plataformas sociales, el mecanismo ha cambiado. Si bien los emisores de información institucionales aún existen, compiten con otras fuentes de información que dependen de la viralidad a través de la red para la difusión de información. En esta competencia, los contenidos tradicionales y los creados institucionalmente sufren una desventaja: no juegan con las mismas reglas. El contenido que se desvía de los códigos deontológicos y estilísticos de los proveedores de información confiable aprovecha diversas heurísticas psicológicas para volverse más viral. Por ejemplo, se basan en la evocación emocional (lenguaje sentimental y apelación a los valores morales) y se basan en estilos que requieren menos esfuerzo cognitivo para ser procesados (en términos de complejidad gramatical y léxica). En esta tesis doctoral, exploro cómo las fuentes de desinformación aprovechan las heurísticas psicológicas para definir sus elecciones estratégicas. Más específicamente, la tesis se compone de tres estudios: (1) Uso del procesamiento del lenguaje natural para una exploración cuantitativa sobre cómo las diferentes categorías de información falsa (clickbait, teorías de conspiración, fake news, discurso de odio, pseudociencia y rumores) difieren en términos de sentimiento, apelación a la moralidad, legibilidad y diversidad léxica; (2) Por medio de análisis de redes y procesamiento de lenguaje natural, una demostración de estrategias de isomorfismo de fuentes de información falsa hacia fuentes confiables con el objetivo de imitar a actores de alto estatus en el ecosistema de información; y (3) un análisis dinámico de noticias falsas versus fuentes confiables que informan sobre la pandemia de Covid durante 2020 y 2021. En general, mis resultados indican que existen diferencias estructurales significativas entre distintas categorías de información falsa y entre fuentes de información confiables (por ejemplo, las noticias falsas son, en promedio, 18 veces más negativas, 12 veces menos diversas léxicamente, un 50 % más apelantes a la moralidad y un 13 % más fáciles de procesar que las noticias fácticas). Además, presento evidencia sobre cómo las fake news, el clickbait y los rumores emplean una estrategia de imitación hacia fuentes confiables con el objetivo de ser percibidos como proveedores de información legítimos y de alto estatus. Además, muestro cómo se comportaron las fuentes de noticias confiables y falsas durante la pandemia de Covid, revelando una reacción inicial convulsa seguida de una estrategia de desinformación para crear caos y ambigüedad al cambiar constantemente entre temas. Finalmente, discuto las implicaciones de los resultados de la tesis para las plataformas de redes sociales, el ecosistema mediático, las élites políticas y los usuarios de Internet

    Financial market dynamics: essay in agent-based exploration

    Get PDF

    From Attachments to SEO: Click Here to Learn More about Clickbait PDFs!

    Get PDF
    Clickbait PDFs are PDF documents that do not embed malware but trick victims into visiting malicious web pages leading to attacks like password theft or drive-by download. While recent reports indicate a surge of clickbait PDFs, prior works have largely neglected this new threat, considering PDFs only as accessories of email phishing campaigns. This paper investigates the landscape of clickbait PDFs and presents the first systematic and comprehensive study of this phenomenon. Starting from a real-world dataset, we identify 44 clickbait PDF clusters via clustering and characterize them by looking at their volumetric, temporal, and visual features. Among these, we identify three large clusters covering 89% of the dataset, exhibiting significantly different volumetric and temporal properties compared to classical email phishing, and relying on web UI elements as visual baits. Finally, we look at the distribution vectors and show that clickbait PDFs are not only distributed via attachments but also via Search Engine Optimization attacks, placing clickbait PDFs outside the email distribution ecosystem. Clickbait PDFs seem to be a lurking threat, not subjected to any form of content-based filtering or detection: AV scoring systems, like VirusTotal, rank them considerably low, creating a blind spot for organizations. While URL blocklists can help to prevent victims from visiting the attack web pages, we observe that they have a limited coverage
    corecore