14 research outputs found
Author Verification Using Syntactic N-grams Notebook for PAN at CLEF 2015
Abstract This paper describes our approach to tackle the Author Verification task at PAN 2015. Our method builds a representation of an author's style by using the information contained in dependency trees. This information is represented as syntactic n-grams and used to conform a vector space. Using unsupervised machine learning approach, each instance is associated to the correponding author using the Jaccard distance. In this paper, we describe the features that were used and the employed unsupervised machine learning algorithm
Improving Feature Representation Based on a Neural Network for Author Profiling in Social Media Texts
We introduce a lexical resource for preprocessing social media data. We show that a neural network-based feature representation is enhanced by using this resource. We conducted experiments on the PAN 2015 and PAN 2016 author profiling corpora and obtained better results when performing the data preprocessing using the developed lexical resource. The resource includes dictionaries of slang words, contractions, abbreviations, and emoticons commonly used in social media. Each of the dictionaries was built for the English, Spanish, Dutch, and Italian languages. The resource is freely available
Detección automática de plagio usando información sintáctica
La acción de plagiar consiste en utilizar, de manera parcial o total, el trabajo creativo de alguien más sin el debido reconocimiento a los autores de dicho trabajo. Se considera al plagio como una acción delictiva porque quién lo realiza busca obtener beneficios mediante la falsa atribución de la autorÃa del trabajo creativo.
La detección automática de plagio de textos se puede realizar desde un enfoque intrÃnseco o un enfoque extrÃnseco. En el enfoque extrÃnseco se realiza una comparación directa entre un conjunto de textos para determinar cuáles han cometido plagio, mientras que en el enfoque intrÃnseco se realiza un análisis sobre el estilo de escritura presente en las diferentes secciones del texto para detectar aquellas que presenten un estilo marcadamente diferente y que se asume corresponden a un autor diferente.
La atribución de autorÃa es un caso particular de detección de plagio intrÃnseco donde se busca determinar si un texto fue escrito por un autor o si fue escrito por alguien más. Para resolver el problema de atribución de autorÃa se cuenta con un conjunto de autores candidatos y de algunas muestras de textos escritos por ellos, mediante un análisis de las muestras se construye un modelo sobre el estilo de escritura de los autores candidatos asà como la obtención del estilo presente en un texto de autorÃa desconocida, se busca asociar el texto de autorÃa desconocida necesariamente con alguno de los autores candidatos.
En el problema de atribución de autorÃa se requiere de la construcción de un modelo sobre el estilo de escritura de un autor, es decir, la forma en que un autor utiliza el lenguaje escrito para expresar sus ideas. El estilo de escritura de un autor o simplemente el estilo de un autor se construye utilizando marcadores de estilo, los cuales hacen referencia a caracterÃstica sobre el uso del lenguaje escrito que permite identificar y cuantificar hábitos del autor.
En esta tesis se propone un método para la atribución de autorÃa cerrada (detección de plagio intrÃnseca) utilizando un enfoque de aprendizaje automático supervisado. Se proponen dos estrategias para modelar el estilo de un autor: la primer estrategia utiliza una representación distribuida a nivel de documentos (doc2vec) en la que se analiza el contexto de ocurrencia de las palabras y bigramas de palabras para obtener un modelo sobre el estilo de un autor, la segunda estrategia se basa en el uso de n-gramas sintácticos analizando las variante de n-gramas mixtos.
El método propuesto se evaluó utilizando diferentes corpus reportados en la literatura para la atribución de autorÃa en los que se abarcan escenarios con distintos tipos de texto y con diferentes temáticas. Los resultados obtenidos utilizando una representación distribuida igualan o superan los resultados reportados en el estado del arte, mientras que el uso de n-gramas sintácticos demostró igualar la eficiencia obtenida en algunos corpus del estado del arte
Compilación de un corpus paralelo español-inglés alineado a nivel de oraciones
MaestrÃa en Ciencias de la Computació
Resumen de FakeDeS en IberLEF 2021: Tarea compartida para la detección de noticias falsas en español
This paper presents the overview of FakeDeS 2021, the second edition of this lab under the IberLEF conference. The FakeDeS shared task aims to explore different methodologies and strategies related to fake news detection in Spanish. This year edition brings two main challenges: thematic and language variation. For this purpose, we introduce a new testing corpus containing news related to COVID-19 and news from other Ibero-American countries.Este artÃculo hace una presentación general de la tarea compartida FakeDeS 2021, cuya segunda edición ha tenido lugar en 2021 bajo el congreso IberLEF, aunque se trata de la primera vez con esta denominación. La tarea FakeDeS tiene por objetivo explorar diferentes métodos y estategias relacinados con la detección de noticias falsas en español, principalmente en su variante de México. La edición de este año propone dos desafÃos principales: variación temática y variación lingüÃstica. Para ello, se introduce un nuevo corpus de prueba que contiene noticias relacionadas con COVID 19 y noticias de otros paÃses de Iber-América.This research was funded by CONACyT project CB A1-S-27780, DGAPA-UNAM PAPIIT grants number TA400121 and TA100520. The authors also thank CONACYT for the computer resources provided through the INAOE Supercomputing Laboratory's Deep Learning Platform for Language Technologies
Identificación de cambios en el estilo de escritura literaria con aprendizaje automático
This research aims to identify changes in the writing style over time of 7 authors of Englishspeaking novels. For each author, an organization of the novels was carried out according to
the date of publication. The novels were classified in three stages called initial, intermediate
and final; each stage contains 3 novels. Between two consecutive stages there are at least
2 years of separation between the publication dates of the novels. To solve the problem of
detecting changes in writing style over time, it is proposed to use a supervised automatic
learning-based approach. Vector space models were created from the frequencies of use of
n-grams of different types and lengths. In addition, the algorithm of Principal Component
Analysis (PCA) was used as the n-gram selection method. The solution was addressed as a
classification problem using the Vector Support Machine algorithms (Support Vector Machine, SVM), Naive Bayes Multinomial (Multinomial Naive Bayes, MNB), Logistic Regression (LG) and Liblinear as classifiers. The metric to measure the efficiency of the learning algorithms
was accuracy. The research showed significant changes in five of the authors with an average
accuracy between 70% and 80% in the different types of n-gramsEsta investigación tiene como objetivo identificar cambios en el estilo de escritura a través
del tiempo de 7 autores de novelas de habla inglesa. Para cada autor se realizó una organización de las novelas de acuerdo a la fecha de publicación. Las novelas se clasificaron en
tres etapas denominadas inicial, intermedia y final; cada etapa contiene 3 novelas. Entre dos
etapas consecutivas existe por lo menos 2 años de separación entre las fechas de publicación
de las novelas. Para resolver el problema de detección de cambios en el estilo de escritura a
través del tiempo se propone utilizar un enfoque basado en aprendizaje automático supervisado. Se crearon modelos de espacio vectorial a partir de las frecuencias de uso de n-gramas
de distintos tipos y longitudes. Además, se utilizó el algoritmo de Análisis de Componentes
Principales (Principal Component Analysis, PCA) como método de selección de n-gramas. La
solución se abordó como un problema de clasificación utilizando los algoritmos de Máquinas
de Soporte Vectorial (Support Vector Machine, SVM), Naive Bayes Multinomial (Multinomial
Naive Bayes, MNB), Regresión LogÃstica (Logistic Regression, LG) y Liblinear como clasificadores. La métrica para medir la eficiencia de los algoritmos de aprendizaje fue la exactitud
(accuracy). La investigación mostró cambios significativos en cinco de los autores con una
exactitud promedio de entre 70% y 80% en los distintos tipos de n-gramas
Energy-Efficient Industrial Internet of Things Software-Defined Network by Means of the Peano Fractal
The Industrial Internet of Things (IIoT) network generates great economic benefits in processes, system installation, maintenance, reliability, scalability, and interoperability. Wireless sensor networks (WSNs) allow the IIoT network to collect, process, and share data of different parameters among Industrial IoT sense Node (IISN). ESP8266 are IISNs connected to the Internet by means of a hub to share their information. In this article, a light-diffusion algorithm in WSN to connect all the IISNs is designed, based on the Peano fractal and swarm intelligence, i.e., without using a hub, simply sharing parameters with two adjacent IINSs, assuming that any IISN knows the parameters of the rest of these devices, even if they are not adjacent. We simulated the performance of our algorithm and compared it with other state-of-the-art protocols, finding that our proposal generates a longer lifetime of the IIoT network when few IISNs were connected. Thus, there is a saving-energy of approximately 5% but with 64 nodes there is a saving of more than 20%, because the IIoT network can grow in a 3 n way and the proposed topology does not impact in a linear way but log 3 , which balances energy consumption throughout the IIoT network
Biomedical Signal Acquisition Using Sensors under the Paradigm of Parallel Computing
There are several pathologies attacking the central nervous system and diverse therapies for each specific disease. These therapies seek as far as possible to minimize or offset the consequences caused by these types of pathologies and disorders in the patient. Therefore, comprehensive neurological care has been performed by neurorehabilitation therapies, to improve the patients’ life quality and facilitating their performance in society. One way to know how the neurorehabilitation therapies contribute to help patients is by measuring changes in their brain activity by means of electroencephalograms (EEG). EEG data-processing applications have been used in neuroscience research to be highly computing- and data-intensive. Our proposal is an integrated system of Electroencephalographic, Electrocardiographic, Bioacoustic, and Digital Image Acquisition Analysis to provide neuroscience experts with tools to estimate the efficiency of a great variety of therapies. The three main axes of this proposal are: parallel or distributed capture, filtering and adaptation of biomedical signals, and synchronization in real epochs of sampling. Thus, the present proposal underlies a general system, whose main objective is to be a wireless benchmark in the field. In this way, this proposal could acquire and give some analysis tools for biomedical signals used for measuring brain interactions when it is stimulated by an external system during therapies, for example. Therefore, this system supports extreme environmental conditions, when necessary, which broadens the spectrum of its applications. In addition, in this proposal sensors could be added or eliminated depending on the needs of the research, generating a wide range of configuration limited by the number of CPU cores, i.e., the more biosensors, the more CPU cores will be required. To validate the proposed integrated system, it is used in a Dolphin-Assisted Therapy in patients with Infantile Cerebral Palsy and Obsessive–Compulsive Disorder, as well as with a neurotypical one. Event synchronization of sample periods helped isolate the same therapy stimulus and allowed it to be analyzed by tools such as the Power Spectrum or the Fractal Geometry