2 research outputs found

    The Looming Threat of Fake and LLM-generated LinkedIn Profiles: Challenges and Opportunities for Detection and Prevention

    Full text link
    In this paper, we present a novel method for detecting fake and Large Language Model (LLM)-generated profiles in the LinkedIn Online Social Network immediately upon registration and before establishing connections. Early fake profile identification is crucial to maintaining the platform's integrity since it prevents imposters from acquiring the private and sensitive information of legitimate users and from gaining an opportunity to increase their credibility for future phishing and scamming activities. This work uses textual information provided in LinkedIn profiles and introduces the Section and Subsection Tag Embedding (SSTE) method to enhance the discriminative characteristics of these data for distinguishing between legitimate profiles and those created by imposters manually or by using an LLM. Additionally, the dearth of a large publicly available LinkedIn dataset motivated us to collect 3600 LinkedIn profiles for our research. We will release our dataset publicly for research purposes. This is, to the best of our knowledge, the first large publicly available LinkedIn dataset for fake LinkedIn account detection. Within our paradigm, we assess static and contextualized word embeddings, including GloVe, Flair, BERT, and RoBERTa. We show that the suggested method can distinguish between legitimate and fake profiles with an accuracy of about 95% across all word embeddings. In addition, we show that SSTE has a promising accuracy for identifying LLM-generated profiles, despite the fact that no LLM-generated profiles were employed during the training phase, and can achieve an accuracy of approximately 90% when only 20 LLM-generated profiles are added to the training set. It is a significant finding since the proliferation of several LLMs in the near future makes it extremely challenging to design a single system that can identify profiles created with various LLMs.Comment: 33rd ACM Conference on Hypertext and Social Media (HT '23

    Distinción de bots y humanos en Twitter con Inteligencia Artificial

    Get PDF
    En la actualidad, las personas cada vez hacemos más uso de las redes sociales, llegando muchas de ellas a convertirse en medios informativos y lugares donde las personas pueden expresar y compartir sus opiniones, propagándose toda esta información con gran velocidad. Así, esta facilidad de propagación que tienen las redes sociales ha despertado un problema de especial relevancia que es la rapidez con la que proliferan y se difunden contenidos falsos o malintencionados en estas redes. Estos contenidos en muchas ocasiones tienen detrás de si un perfil falso o controlado por un bot con intenciones maliciosas. Sin embargo, hoy por hoy, muchas de estas cuentas sospechosas se camuflan imitando a una persona real, hecho que dificulta enormemente su identificación. Por ello, antes de creer y confiar en cualquier contenido que se muestre en este tipo de redes, es necesario contrastar dicha información y valorar la credibilidad que transmite su autor. Así, con la elaboración de este trabajo, se pretende aportar una experimentación formal y extensa, focalizada en lograr la distinción entre personas reales y bots en la red social Twitter, empleando para ello técnicas de Inteligencia Artificial basándose en sus características de perfil. Estos datos presentes en los perfiles de cada cuenta se obtienen mediante la API de Twitter y el lenguaje Python junto con el uso de varias librerías. De esta forma, se recopila un conjunto amplio de usuarios sobre los cuales se conoce previamente si son bots o humanos y se extraen todas las características de dichos perfiles. Una vez obtenidas dichas características, se procede a aplicar diferentes técnicas de Machine Learning para determinar qué datos de los extraídos cobran un mayor peso a la hora de identificar si se trata de una cuenta controlada por una persona real o por un bot. Seguidamente, se procede a hacer uso de soluciones basadas en Deep Learning, definiendo para ello modelos de redes neuronales con distintas configuraciones. En esta experimentación se realiza un estudio exhaustivo probando diversas estructuras de modelos con el fin de buscar aquellas que, una vez se entrenen utilizando como entrada las características de los usuarios, sean capaces de predecir de forma óptima si detrás de una cuenta hay un bot o un humano. Sin embargo, esta tarea no será sencilla, pues la heterogeneidad de los datos extraídos para cada uno de los perfiles hará que el proceso de aprendizaje de los modelos se vuelva complejo
    corecore