14 research outputs found

    Author Verification Using Syntactic N-grams Notebook for PAN at CLEF 2015

    Get PDF
    Abstract This paper describes our approach to tackle the Author Verification task at PAN 2015. Our method builds a representation of an author's style by using the information contained in dependency trees. This information is represented as syntactic n-grams and used to conform a vector space. Using unsupervised machine learning approach, each instance is associated to the correponding author using the Jaccard distance. In this paper, we describe the features that were used and the employed unsupervised machine learning algorithm

    Improving Feature Representation Based on a Neural Network for Author Profiling in Social Media Texts

    Get PDF
    We introduce a lexical resource for preprocessing social media data. We show that a neural network-based feature representation is enhanced by using this resource. We conducted experiments on the PAN 2015 and PAN 2016 author profiling corpora and obtained better results when performing the data preprocessing using the developed lexical resource. The resource includes dictionaries of slang words, contractions, abbreviations, and emoticons commonly used in social media. Each of the dictionaries was built for the English, Spanish, Dutch, and Italian languages. The resource is freely available

    Detección automática de plagio usando información sintáctica

    No full text
    La acción de plagiar consiste en utilizar, de manera parcial o total, el trabajo creativo de alguien más sin el debido reconocimiento a los autores de dicho trabajo. Se considera al plagio como una acción delictiva porque quién lo realiza busca obtener beneficios mediante la falsa atribución de la autoría del trabajo creativo. La detección automática de plagio de textos se puede realizar desde un enfoque intrínseco o un enfoque extrínseco. En el enfoque extrínseco se realiza una comparación directa entre un conjunto de textos para determinar cuáles han cometido plagio, mientras que en el enfoque intrínseco se realiza un análisis sobre el estilo de escritura presente en las diferentes secciones del texto para detectar aquellas que presenten un estilo marcadamente diferente y que se asume corresponden a un autor diferente. La atribución de autoría es un caso particular de detección de plagio intrínseco donde se busca determinar si un texto fue escrito por un autor o si fue escrito por alguien más. Para resolver el problema de atribución de autoría se cuenta con un conjunto de autores candidatos y de algunas muestras de textos escritos por ellos, mediante un análisis de las muestras se construye un modelo sobre el estilo de escritura de los autores candidatos así como la obtención del estilo presente en un texto de autoría desconocida, se busca asociar el texto de autoría desconocida necesariamente con alguno de los autores candidatos. En el problema de atribución de autoría se requiere de la construcción de un modelo sobre el estilo de escritura de un autor, es decir, la forma en que un autor utiliza el lenguaje escrito para expresar sus ideas. El estilo de escritura de un autor o simplemente el estilo de un autor se construye utilizando marcadores de estilo, los cuales hacen referencia a característica sobre el uso del lenguaje escrito que permite identificar y cuantificar hábitos del autor. En esta tesis se propone un método para la atribución de autoría cerrada (detección de plagio intrínseca) utilizando un enfoque de aprendizaje automático supervisado. Se proponen dos estrategias para modelar el estilo de un autor: la primer estrategia utiliza una representación distribuida a nivel de documentos (doc2vec) en la que se analiza el contexto de ocurrencia de las palabras y bigramas de palabras para obtener un modelo sobre el estilo de un autor, la segunda estrategia se basa en el uso de n-gramas sintácticos analizando las variante de n-gramas mixtos. El método propuesto se evaluó utilizando diferentes corpus reportados en la literatura para la atribución de autoría en los que se abarcan escenarios con distintos tipos de texto y con diferentes temáticas. Los resultados obtenidos utilizando una representación distribuida igualan o superan los resultados reportados en el estado del arte, mientras que el uso de n-gramas sintácticos demostró igualar la eficiencia obtenida en algunos corpus del estado del arte

    Compilación de un corpus paralelo español-inglés alineado a nivel de oraciones

    No full text
    Maestría en Ciencias de la Computació

    Resumen de FakeDeS en IberLEF 2021: Tarea compartida para la detección de noticias falsas en español

    Get PDF
    This paper presents the overview of FakeDeS 2021, the second edition of this lab under the IberLEF conference. The FakeDeS shared task aims to explore different methodologies and strategies related to fake news detection in Spanish. This year edition brings two main challenges: thematic and language variation. For this purpose, we introduce a new testing corpus containing news related to COVID-19 and news from other Ibero-American countries.Este artículo hace una presentación general de la tarea compartida FakeDeS 2021, cuya segunda edición ha tenido lugar en 2021 bajo el congreso IberLEF, aunque se trata de la primera vez con esta denominación. La tarea FakeDeS tiene por objetivo explorar diferentes métodos y estategias relacinados con la detección de noticias falsas en español, principalmente en su variante de México. La edición de este año propone dos desafíos principales: variación temática y variación lingüística. Para ello, se introduce un nuevo corpus de prueba que contiene noticias relacionadas con COVID 19 y noticias de otros países de Iber-América.This research was funded by CONACyT project CB A1-S-27780, DGAPA-UNAM PAPIIT grants number TA400121 and TA100520. The authors also thank CONACYT for the computer resources provided through the INAOE Supercomputing Laboratory's Deep Learning Platform for Language Technologies

    Identificación de cambios en el estilo de escritura literaria con aprendizaje automático

    No full text
    This research aims to identify changes in the writing style over time of 7 authors of Englishspeaking novels. For each author, an organization of the novels was carried out according to the date of publication. The novels were classified in three stages called initial, intermediate and final; each stage contains 3 novels. Between two consecutive stages there are at least 2 years of separation between the publication dates of the novels. To solve the problem of detecting changes in writing style over time, it is proposed to use a supervised automatic learning-based approach. Vector space models were created from the frequencies of use of n-grams of different types and lengths. In addition, the algorithm of Principal Component Analysis (PCA) was used as the n-gram selection method. The solution was addressed as a classification problem using the Vector Support Machine algorithms (Support Vector Machine, SVM), Naive Bayes Multinomial (Multinomial Naive Bayes, MNB), Logistic Regression (LG) and Liblinear as classifiers. The metric to measure the efficiency of the learning algorithms was accuracy. The research showed significant changes in five of the authors with an average accuracy between 70% and 80% in the different types of n-gramsEsta investigación tiene como objetivo identificar cambios en el estilo de escritura a través del tiempo de 7 autores de novelas de habla inglesa. Para cada autor se realizó una organización de las novelas de acuerdo a la fecha de publicación. Las novelas se clasificaron en tres etapas denominadas inicial, intermedia y final; cada etapa contiene 3 novelas. Entre dos etapas consecutivas existe por lo menos 2 años de separación entre las fechas de publicación de las novelas. Para resolver el problema de detección de cambios en el estilo de escritura a través del tiempo se propone utilizar un enfoque basado en aprendizaje automático supervisado. Se crearon modelos de espacio vectorial a partir de las frecuencias de uso de n-gramas de distintos tipos y longitudes. Además, se utilizó el algoritmo de Análisis de Componentes Principales (Principal Component Analysis, PCA) como método de selección de n-gramas. La solución se abordó como un problema de clasificación utilizando los algoritmos de Máquinas de Soporte Vectorial (Support Vector Machine, SVM), Naive Bayes Multinomial (Multinomial Naive Bayes, MNB), Regresión Logística (Logistic Regression, LG) y Liblinear como clasificadores. La métrica para medir la eficiencia de los algoritmos de aprendizaje fue la exactitud (accuracy). La investigación mostró cambios significativos en cinco de los autores con una exactitud promedio de entre 70% y 80% en los distintos tipos de n-gramas

    Energy-Efficient Industrial Internet of Things Software-Defined Network by Means of the Peano Fractal

    No full text
    The Industrial Internet of Things (IIoT) network generates great economic benefits in processes, system installation, maintenance, reliability, scalability, and interoperability. Wireless sensor networks (WSNs) allow the IIoT network to collect, process, and share data of different parameters among Industrial IoT sense Node (IISN). ESP8266 are IISNs connected to the Internet by means of a hub to share their information. In this article, a light-diffusion algorithm in WSN to connect all the IISNs is designed, based on the Peano fractal and swarm intelligence, i.e., without using a hub, simply sharing parameters with two adjacent IINSs, assuming that any IISN knows the parameters of the rest of these devices, even if they are not adjacent. We simulated the performance of our algorithm and compared it with other state-of-the-art protocols, finding that our proposal generates a longer lifetime of the IIoT network when few IISNs were connected. Thus, there is a saving-energy of approximately 5% but with 64 nodes there is a saving of more than 20%, because the IIoT network can grow in a 3 n way and the proposed topology does not impact in a linear way but log 3 , which balances energy consumption throughout the IIoT network

    Biomedical Signal Acquisition Using Sensors under the Paradigm of Parallel Computing

    No full text
    There are several pathologies attacking the central nervous system and diverse therapies for each specific disease. These therapies seek as far as possible to minimize or offset the consequences caused by these types of pathologies and disorders in the patient. Therefore, comprehensive neurological care has been performed by neurorehabilitation therapies, to improve the patients’ life quality and facilitating their performance in society. One way to know how the neurorehabilitation therapies contribute to help patients is by measuring changes in their brain activity by means of electroencephalograms (EEG). EEG data-processing applications have been used in neuroscience research to be highly computing- and data-intensive. Our proposal is an integrated system of Electroencephalographic, Electrocardiographic, Bioacoustic, and Digital Image Acquisition Analysis to provide neuroscience experts with tools to estimate the efficiency of a great variety of therapies. The three main axes of this proposal are: parallel or distributed capture, filtering and adaptation of biomedical signals, and synchronization in real epochs of sampling. Thus, the present proposal underlies a general system, whose main objective is to be a wireless benchmark in the field. In this way, this proposal could acquire and give some analysis tools for biomedical signals used for measuring brain interactions when it is stimulated by an external system during therapies, for example. Therefore, this system supports extreme environmental conditions, when necessary, which broadens the spectrum of its applications. In addition, in this proposal sensors could be added or eliminated depending on the needs of the research, generating a wide range of configuration limited by the number of CPU cores, i.e., the more biosensors, the more CPU cores will be required. To validate the proposed integrated system, it is used in a Dolphin-Assisted Therapy in patients with Infantile Cerebral Palsy and Obsessive–Compulsive Disorder, as well as with a neurotypical one. Event synchronization of sample periods helped isolate the same therapy stimulus and allowed it to be analyzed by tools such as the Power Spectrum or the Fractal Geometry
    corecore