    TwitterNews+ : a framework for real time event detection from the twitter data stream

    In recent years, substantial research efforts have gone into investigating different approaches to the detection of events in real time from the Twitter data stream. Most of these approaches, however, suffer from a high computational cost and are not evaluated using a publicly available corpus, thus making it difficult to properly compare them. In this paper, we propose a scalable event detection system, TwitterNews+, to detect and track newsworthy events in real time. TwitterNews+ uses a novel approach to cluster event related tweets from Twitter with a significantly lower computational cost compared to the existing state-of-theart approaches. Finally, we evaluate the effectiveness of TwitterNews+ using a publicly available corpus and its associated ground truth data set of newsworthy events. The result of the evaluation shows a significant improvement, in terms of recall and precision, over the baselines we have used.16 page(s

    An Approach to Twitter Event Detection Using the Newsworthiness Metric

    Context-Aware Message-Level Rumour Detection with Weak Supervision

    Social media has become the main source of all sorts of information beyond a communication medium. Its intrinsic nature can allow a continuous and massive flow of misinformation to make a severe impact worldwide. In particular, rumours emerge unexpectedly and spread quickly. It is challenging to track down their origins and stop their propagation. One of the most ideal solutions to this is to identify rumour-mongering messages as early as possible, which is commonly referred to as "Early Rumour Detection (ERD)". This dissertation focuses on researching ERD on social media by exploiting weak supervision and contextual information. Weak supervision is a branch of ML where noisy and less precise sources (e.g. data patterns) are leveraged to learn limited high-quality labelled data (Ratner et al., 2017). This is intended to reduce the cost and increase the efficiency of the hand-labelling of large-scale data. This thesis aims to study whether identifying rumours before they go viral is possible and develop an architecture for ERD at individual post level. To this end, it first explores major bottlenecks of current ERD. It also uncovers a research gap between system design and its applications in the real world, which have received less attention from the research community of ERD. One bottleneck is limited labelled data. Weakly supervised methods to augment limited labelled training data for ERD are introduced. The other bottleneck is enormous amounts of noisy data. A framework unifying burst detection based on temporal signals and burst summarisation is investigated to identify potential rumours (i.e. input to rumour detection models) by filtering out uninformative messages. Finally, a novel method which jointly learns rumour sources and their contexts (i.e. conversational threads) for ERD is proposed. An extensive evaluation setting for ERD systems is also introduced

    Diseño de una metodología cibermétrica de cálculo del éxito para la optimización de contenidos web

    [EN] The object of this study is the design of a cybermetric methodology whose objectives are to measure the success of the content published in an online media and the possible prediction of the selected success variables. Framed in the field of digital journalism, it responds to the need to analyze the success of web content so that it can help in the decision-making of the editorial team of a digital medium. A line of research focused on the content itself, providing an innovative vision to that of previous research, and a methodology that serves as a basis for future scientific advances. It is about the contribution of valuable information, either from the statistical analysis of the data or from the possible prediction of the success indicators of greatest interest to the environment. In this way, it could be integrated as a feedback into the content strategy and thus favor its iterative optimization. The main objective, therefore, is the design of a cybermetric methodology for calculating the success of an online publication, having as specific objectives: to research the concept of success in digital journalism, the social network Twitter, web analytics and web advertising; design the methodology and determine what tools and reports are needed; extract and process data for statistical analysis; perform regressions that allow to obtain prediction equations of the selected success variables; and validate the prediction equations with test data and obtain their precision, serving this as a degree of confidence in the prediction. The design of the methodology has served to observe a significant over-dispersion in the data, as well as to demonstrate that the success of a web content has a strongly multifactorial nature, which causes a decrease in the variability calculated using the indicators proposed by previous research. This thesis serves, then, as the basis for a very interesting research framework both at an academic and business level: the prediction of the success of digital content.[ES] El objetivo de estudio es el diseño de una metodología cibermétrica para medir el éxito de los contenidos publicados en un medio de comunicación online y su posible predicción, de manera que se pueda orientar la optimización de los futuros contenidos publicados por el medio. Enmarcada en el ámbito del periodismo digital, responde a la necesidad de analizar el éxito de los contenidos web de manera que se pueda ayudar en la toma de decisiones del equipo editorial. Para ello, se ha realizado un extenso estudio de las publicaciones académicas versadas en las diferentes disciplinas que tienen lugar en esta tesis: la comunicación de contenidos digitales, Twitter, la difusión de las noticias en Twitter, la analítica web, la cibermetría, la analítica en Twitter, el análisis de tendencias en Twitter y la publicidad web. Con dicho marco, se ha obtenido información valiosa para la optimización futura de los contenidos digitales, ya sea procedente del análisis estadístico de los datos o de la posible predicción de los indicadores de éxito de mayor interés para el medio. De esta manera, se podría integrar de manera retroalimentada en la estrategia de contenidos y favorecer así su optimización iterativamente. Para ello, se han tenido en cuenta los siguientes objetivos específicos: investigar el concepto de éxito en el periodismo digital, la red social Twitter, la analítica web y la publicidad en la web; diseñar la metodología y determinar qué herramientas y reportes son necesarios; extraer y procesar los datos para su análisis estadístico; realizar regresiones que permitan obtener ecuaciones de predicción de las variables de éxito seleccionadas; y validar las ecuaciones de predicción con datos de test y obtener su precisión, sirviendo esta como grado de confianza en la predicción. El diseño de la metodología ha servido para observar una sobre dispersión significativa en los datos, así como demostrar que el éxito de un contenido web tiene un carácter fuertemente multifactorial, lo cual provoca una disminución en la variabilidad calculada mediante los indicadores propuestos por investigaciones previas. Esta tesis sirve, entonces, como base para una línea de investigación sobre la optimización de contenido digital basándose en la predicción estadística de su éxito.[CAT] L'objectiu d'estudi és el disseny d'una metodologia cibermètrica per a mesurar l'èxit dels continguts publicats en un mitjà de comunicació en línia i la seua possible predicció, de manera que es puga orientar l'optimització dels futurs continguts publicats pel mitjà. Emmarcada en l'àmbit del periodisme digital, respon a la necessitat d'analitzar l'èxit dels continguts web de manera que es puga ajudar en la presa de decisions de l'equip editorial. Per a això, s'ha realitzat un extens estudi de les publicacions acadèmiques versades en les diferents disciplines que tenen lloc en aquesta tesi: la comunicació de continguts digitals, Twitter, la difusió de les notícies en Twitter, l'analítica web, la cibermetría, l'analítica en Twitter, l'anàlisi de tendències en Twitter i la publicitat web. Amb aquest marc, s'ha obtingut informació valuosa per a l'optimització futura dels continguts digitals, ja siga procedent de l'anàlisi estadística de les dades o de la possible predicció dels indicadors d'èxit de major interés per al mitjà. D'aquesta manera, es podria integrar de manera retroalimentada en l'estratègia de continguts i afavorir així la seua optimització iterativament. Per a això, s'han tingut en compte els següents objectius específics: investigar el concepte d'èxit en el periodisme digital, la xarxa social Twitter, l'analítica web i la publicitat en la web; dissenyar la metodologia i determinar quines eines i reportes són necessaris; extraure i processar les dades per a la seua anàlisi estadística; realitzar regressions que permeten obtindre equacions de predicció de les variables d'èxit seleccionades; i validar les equacions de predicció amb dades de test i obtindre la seua precisió, servint aquesta com a grau de confiança en la predicció. El disseny de la metodologia ha servit per a observar una sobre dispersió significativa en les dades, així com demostrar que l'èxit d'un contingut web té un caràcter fortament multifactorial, la qual cosa provoca una disminució en la variabilitat calculada mitjançant els indicadors proposats per investigacions prèvies. Aquesta tesi serveix, llavors, com a base per a una línia d'investigació sobre l'optimització de contingut digital basant-se en la predicció estadística del seu èxit.Yeste Moreno, VM. (2021). Diseño de una metodología cibermétrica de cálculo del éxito para la optimización de contenidos web [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/176009TESI