6 research outputs found
How to represent paintings: a painting classification using artistic comments
The goal of large-scale automatic paintings analysis is to classify and retrieve images using machine learning techniques. The traditional methods use computer vision techniques on paintings to enable computers to represent the art content. In this work, we propose using a graph convolutional network and artistic comments rather than the painting color to classify type, school, timeframe and author of the paintings by implementing natural language processing (NLP) techniques. First, we build a single artistic comment graph based on co-occurrence relations and document word relations and then train an art graph convolutional network (ArtGCN) on the entire corpus. The nodes, which include the words and documents in the topological graph are initialized using a one-hot representation; then, the embeddings are learned jointly for both words and documents, supervised by the known-class training labels of the paintings. Through extensive experiments on different classification tasks using different input sources, we demonstrate that the proposed methods achieve state-of-art performance. In addition, ArtGCN can learn word and painting embeddings, and we find that they have a major role in describing the labels and retrieval paintings, respectively
Wide Graph Neural Networks: Aggregation Provably Leads to Exponentially Trainability Loss
Graph convolutional networks (GCNs) and their variants have achieved great
success in dealing with graph-structured data. However, it is well known that
deep GCNs will suffer from over-smoothing problem, where node representations
tend to be indistinguishable as we stack up more layers. Although extensive
research has confirmed this prevailing understanding, few theoretical analyses
have been conducted to study the expressivity and trainability of deep GCNs. In
this work, we demonstrate these characterizations by studying the Gaussian
Process Kernel (GPK) and Graph Neural Tangent Kernel (GNTK) of an
infinitely-wide GCN, corresponding to the analysis on expressivity and
trainability, respectively. We first prove the expressivity of infinitely-wide
GCNs decaying at an exponential rate by applying the mean-field theory on GPK.
Besides, we formulate the asymptotic behaviors of GNTK in the large depth,
which enables us to reveal the dropping trainability of wide and deep GCNs at
an exponential rate. Additionally, we extend our theoretical framework to
analyze residual connection-resemble techniques. We found that these techniques
can mildly mitigate exponential decay, but they failed to overcome it
fundamentally. Finally, all theoretical results in this work are corroborated
experimentally on a variety of graph-structured datasets.Comment: 23 pages, 4 figure
Identificación automática de bots en Twitter basada en contexto
Máster Universitario en Ingeniería InformáticaDesde hace algunos años, las redes sociales se han consolidado como canal para divulgar información, siendo para muchos de sus usuarios medios con los que estar informado de los acontecimientos que les rodean y a la vez, participar activamente de ellos. El impacto que generan en la vida cotidiana es tan grande que llegan a influir sobre las opiniones y tendencias de las personas, considerándose herramientas útiles que permiten la interacción con otros usuarios y disponen la capacidad para emitir contenidos a un gran número de receptores de forma inmediata. Sin embargo, este potencial puede emplearse de forma malintencionada para tergiversar y manipular la información y así la opinión de quienes la consumen, divulgando información falsa, rumores, o incluso promoviendo campañas de desinformación a gran escala alterando la opinión pública de la sociedad. Uno de los pilares tecnológicos fundamentales que permiten esta difusión a gran escala son los denominados bots, que se definen como cuentas automatizadas creadas y/o controladas por botmasters. Desde el punto de vista de la seguridad estas noticias falsas, se extienden rápidamente por la red y no solo aplican en la intoxicación de la información, si no que pueden ser la puerta de entrada de ataques como spam, phishing o incluso malware. Haciendo indispensable disponer de medios para su identificación. Este Trabajo Fin de Máster, “Identificación automática de bots en Twitter basada en contexto”, se centrará en Twitter, una plataforma de microblogging online que permite a sus usuarios comunicación directa a través de publicaciones de un máximo de 280 caracteres denominados tweets. Y su objetivo pretende analizar el empleo de algoritmos de clasificación para identificar si una cuenta de Twitter es un usuario humano, o por lo contrario se trata de un bot. Con este fin, se ha examinado la posibilidad de utilizar redes convolucionales basadas en grafos, analizando su uso en contexto. Para ello se han generado grafos basados en las relaciones de los perfiles de Twitter, como las de seguimiento (seguidores/seguidos), o en base a los retweets o replies generados. Estos grafos han sido utilizados como entrada de algoritmos de aprendizaje automático que fuesen capaces de diferenciar bots de perfiles legítimos utilizando la estructura de dicha red, además de la información propia de cada perfil. Siendo el contexto de interés la denominada inteligencia de fuentes abiertas (OSINT), por lo que se ha trabajado con datos disponibles públicamente en Twitter, analizando desde las herramientas existentes para la extracción de datos hasta el detalle de la información disponible en cada caso. Tras el proceso, se puede concluir en última instancia que los clasificadores que combinan los atributos de nodo y las relaciones de los usuarios expuestas en grafos aportan mayor precisión al inducir datos que no han sido vistos durante el entrenamiento que los modelos que no los contemplan