268 research outputs found

    Attention-based Approaches for Text Analytics in Social Media and Automatic Summarization

    Full text link
    [ES] Hoy en día, la sociedad tiene acceso y posibilidad de contribuir a grandes cantidades de contenidos presentes en Internet, como redes sociales, periódicos online, foros, blogs o plataformas de contenido multimedia. Todo este tipo de medios han tenido, durante los últimos años, un impacto abrumador en el día a día de individuos y organizaciones, siendo actualmente medios predominantes para compartir, debatir y analizar contenidos online. Por este motivo, resulta de interés trabajar sobre este tipo de plataformas, desde diferentes puntos de vista, bajo el paraguas del Procesamiento del Lenguaje Natural. En esta tesis nos centramos en dos áreas amplias dentro de este campo, aplicadas al análisis de contenido en línea: análisis de texto en redes sociales y resumen automático. En paralelo, las redes neuronales también son un tema central de esta tesis, donde toda la experimentación se ha realizado utilizando enfoques de aprendizaje profundo, principalmente basados en mecanismos de atención. Además, trabajamos mayoritariamente con el idioma español, por ser un idioma poco explorado y de gran interés para los proyectos de investigación en los que participamos. Por un lado, para el análisis de texto en redes sociales, nos enfocamos en tareas de análisis afectivo, incluyendo análisis de sentimientos y detección de emociones, junto con el análisis de la ironía. En este sentido, se presenta un enfoque basado en Transformer Encoders, que consiste en contextualizar \textit{word embeddings} pre-entrenados con tweets en español, para abordar tareas de análisis de sentimiento y detección de ironía. También proponemos el uso de métricas de evaluación como funciones de pérdida, con el fin de entrenar redes neuronales, para reducir el impacto del desequilibrio de clases en tareas \textit{multi-class} y \textit{multi-label} de detección de emociones. Adicionalmente, se presenta una especialización de BERT tanto para el idioma español como para el dominio de Twitter, que tiene en cuenta la coherencia entre tweets en conversaciones de Twitter. El desempeño de todos estos enfoques ha sido probado con diferentes corpus, a partir de varios \textit{benchmarks} de referencia, mostrando resultados muy competitivos en todas las tareas abordadas. Por otro lado, nos centramos en el resumen extractivo de artículos periodísticos y de programas televisivos de debate. Con respecto al resumen de artículos, se presenta un marco teórico para el resumen extractivo, basado en redes jerárquicas siamesas con mecanismos de atención. También presentamos dos instancias de este marco: \textit{Siamese Hierarchical Attention Networks} y \textit{Siamese Hierarchical Transformer Encoders}. Estos sistemas han sido evaluados en los corpora CNN/DailyMail y NewsRoom, obteniendo resultados competitivos en comparación con otros enfoques extractivos coetáneos. Con respecto a los programas de debate, se ha propuesto una tarea que consiste en resumir las intervenciones transcritas de los ponentes, sobre un tema determinado, en el programa "La Noche en 24 Horas". Además, se propone un corpus de artículos periodísticos, recogidos de varios periódicos españoles en línea, con el fin de estudiar la transferibilidad de los enfoques propuestos, entre artículos e intervenciones de los participantes en los debates. Este enfoque muestra mejores resultados que otras técnicas extractivas, junto con una transferibilidad de dominio muy prometedora.[CA] Avui en dia, la societat té accés i possibilitat de contribuir a grans quantitats de continguts presents a Internet, com xarxes socials, diaris online, fòrums, blocs o plataformes de contingut multimèdia. Tot aquest tipus de mitjans han tingut, durant els darrers anys, un impacte aclaparador en el dia a dia d'individus i organitzacions, sent actualment mitjans predominants per compartir, debatre i analitzar continguts en línia. Per aquest motiu, resulta d'interès treballar sobre aquest tipus de plataformes, des de diferents punts de vista, sota el paraigua de l'Processament de el Llenguatge Natural. En aquesta tesi ens centrem en dues àrees àmplies dins d'aquest camp, aplicades a l'anàlisi de contingut en línia: anàlisi de text en xarxes socials i resum automàtic. En paral·lel, les xarxes neuronals també són un tema central d'aquesta tesi, on tota l'experimentació s'ha realitzat utilitzant enfocaments d'aprenentatge profund, principalment basats en mecanismes d'atenció. A més, treballem majoritàriament amb l'idioma espanyol, per ser un idioma poc explorat i de gran interès per als projectes de recerca en els que participem. D'una banda, per a l'anàlisi de text en xarxes socials, ens enfoquem en tasques d'anàlisi afectiu, incloent anàlisi de sentiments i detecció d'emocions, juntament amb l'anàlisi de la ironia. En aquest sentit, es presenta una aproximació basada en Transformer Encoders, que consisteix en contextualitzar \textit{word embeddings} pre-entrenats amb tweets en espanyol, per abordar tasques d'anàlisi de sentiment i detecció d'ironia. També proposem l'ús de mètriques d'avaluació com a funcions de pèrdua, per tal d'entrenar xarxes neuronals, per reduir l'impacte de l'desequilibri de classes en tasques \textit{multi-class} i \textit{multi-label} de detecció d'emocions. Addicionalment, es presenta una especialització de BERT tant per l'idioma espanyol com per al domini de Twitter, que té en compte la coherència entre tweets en converses de Twitter. El comportament de tots aquests enfocaments s'ha provat amb diferents corpus, a partir de diversos \textit{benchmarks} de referència, mostrant resultats molt competitius en totes les tasques abordades. D'altra banda, ens centrem en el resum extractiu d'articles periodístics i de programes televisius de debat. Pel que fa a l'resum d'articles, es presenta un marc teòric per al resum extractiu, basat en xarxes jeràrquiques siameses amb mecanismes d'atenció. També presentem dues instàncies d'aquest marc: \textit{Siamese Hierarchical Attention Networks} i \textit{Siamese Hierarchical Transformer Encoders}. Aquests sistemes s'han avaluat en els corpora CNN/DailyMail i Newsroom, obtenint resultats competitius en comparació amb altres enfocaments extractius coetanis. Pel que fa als programes de debat, s'ha proposat una tasca que consisteix a resumir les intervencions transcrites dels ponents, sobre un tema determinat, al programa "La Noche en 24 Horas". A més, es proposa un corpus d'articles periodístics, recollits de diversos diaris espanyols en línia, per tal d'estudiar la transferibilitat dels enfocaments proposats, entre articles i intervencions dels participants en els debats. Aquesta aproximació mostra millors resultats que altres tècniques extractives, juntament amb una transferibilitat de domini molt prometedora.[EN] Nowadays, society has access, and the possibility to contribute, to large amounts of the content present on the internet, such as social networks, online newspapers, forums, blogs, or multimedia content platforms. These platforms have had, during the last years, an overwhelming impact on the daily life of individuals and organizations, becoming the predominant ways for sharing, discussing, and analyzing online content. Therefore, it is very interesting to work with these platforms, from different points of view, under the umbrella of Natural Language Processing. In this thesis, we focus on two broad areas inside this field, applied to analyze online content: text analytics in social media and automatic summarization. Neural networks are also a central topic in this thesis, where all the experimentation has been performed by using deep learning approaches, mainly based on attention mechanisms. Besides, we mostly work with the Spanish language, due to it is an interesting and underexplored language with a great interest in the research projects we participated in. On the one hand, for text analytics in social media, we focused on affective analysis tasks, including sentiment analysis and emotion detection, along with the analysis of the irony. In this regard, an approach based on Transformer Encoders, based on contextualizing pretrained Spanish word embeddings from Twitter, to address sentiment analysis and irony detection tasks, is presented. We also propose the use of evaluation metrics as loss functions, in order to train neural networks for reducing the impact of the class imbalance in multi-class and multi-label emotion detection tasks. Additionally, a specialization of BERT both for the Spanish language and the Twitter domain, that takes into account inter-sentence coherence in Twitter conversation flows, is presented. The performance of all these approaches has been tested with different corpora, from several reference evaluation benchmarks, showing very competitive results in all the tasks addressed. On the other hand, we focused on extractive summarization of news articles and TV talk shows. Regarding the summarization of news articles, a theoretical framework for extractive summarization, based on siamese hierarchical networks with attention mechanisms, is presented. Also, we present two instantiations of this framework: Siamese Hierarchical Attention Networks and Siamese Hierarchical Transformer Encoders. These systems were evaluated on the CNN/DailyMail and the NewsRoom corpora, obtaining competitive results in comparison to other contemporary extractive approaches. Concerning the TV talk shows, we proposed a text summarization task, for summarizing the transcribed interventions of the speakers, about a given topic, in the Spanish TV talk shows of the ``La Noche en 24 Horas" program. In addition, a corpus of news articles, collected from several Spanish online newspapers, is proposed, in order to study the domain transferability of siamese hierarchical approaches, between news articles and interventions of debate participants. This approach shows better results than other extractive techniques, along with a very promising domain transferability.González Barba, JÁ. (2021). Attention-based Approaches for Text Analytics in Social Media and Automatic Summarization [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/172245TESI

    Cleopatra o Ariadna: retorno a un debate superado

    Get PDF
    The iconography of the Hellenistic statue called Sleeping Ariadne, known throw several Roman copies, has been interpreted in various ways from the Renaissance till today. We shall re-examine this set of problems in the context of the ideological evolution.La iconografía de la escultura helenística llamada Ariadna dormida, conocida por varias copias romanas, ha dado lugar a diversas interpretaciones desde el Renacimiento hasta hoy. Deseamos repasar esta problemática insertándola en la evolución de las mentalidades

    Dos miradas sobre la mujer etrusca

    Get PDF
    This paper studies two concrete aspects of the role of women in Etruria in the VIth century BC: on the one part, her situation in society and family, and on the other, the possibilities that women had, within the previous context, of choosing their outward appearance and clothing. These questions will be analyzed using classical texts, inscriptions, and above all, Etruscan art of the Archaic Period

    Gender Differences in the Application of Spanish Criteria for Initiation of Enzyme Replacement Therapy for Fabry Disease in the Fabry Outcome Survey

    Get PDF
    Both male/female patients with Fabry disease (FD) may receive enzyme replacement therapy (ERT). Previously published analyses of the Fabry Outcome Survey (FOS; Shire-sponsored) database suggested gender differences in timing of ERT initiation. We assessed alignment of criteria for ERT initiation in the Spanish adult population included in FOS with recommendations of a Spanish national consensus. This retrospective analysis examined baseline clinical data of 88 adults (49 females) enrolled in the FOS database up to August 2014. Thirty-five (39.8%) patients were not receiving ERT: five (12.8%) males and 30 (61.2%) females. Baseline disease severity on the FOS-derived Mainz Severity Score Index was lower in untreated males (median (interquartile range), 0.0 (0.0-1.0)) than treated males (TM; 15.0 (7.5-26.5)), and was similar in untreated and treated females. The percentage of untreated females with at least one criterion for treatment initiation was 76.7% versus 100.0% of treated females (p = 0.0340) and 97.1% (p = 0.0210) of TM. In discordance with Spanish consensus recommendations, a substantial number of females with evidence of FD who might benefit from ERT have not yet initiated treatment. These results suggest unequal gender perceptions with respect to ERT initiation in Spain

    Temperature and strain rate dependences on hardening and softening behaviours in semi-crystalline polymers: Application to PEEK

    Get PDF
    Semi-crystalline polymers often present a complex non-linear behaviour that combines thermo-viscoelastic and thermo-viscoplastic contributions associated to different deformation mechanisms. During the initial deformation stages, the process is influenced by the rupture and reorientation of crystalline phases while, during the final deformation stages, the process is mainly governed by the mobility and orientation of the amorphous molecular chains. Moreover, the level of reorientation of crystalline and amorphous phases is strongly affected by variables such as temperature and strain rate. This work focusses on the role of such mechanisms in the mechanical behaviour of polyether-ether-ketone (PEEK) within its different thermal-behaviour regions: initial glassy region, glass transition and final rubbery region. To this end, samples of PEEK are subjected to large deformations under uniaxial tension at temperatures from 20 to 240 °C, and strain rates from 0.0001 to 0.1s^-1 (covering both isothermal and adiabatic conditions). In addition, a constitutive model is proposed to complementarily explain the experimental observations by means of entropic strain hardening due to reorientation of polymer chains influenced by thermo-viscoelastic effects, as well as thermo-viscoplastic behaviours defining the material yielding by means of crystallites deformation and breaking. These results provide new insights into the deformation mechanisms of semi-crystalline polymers below and above glass transition, which are significantly relevant for thermoforming processes of biomedical prosthesis

    Diseño de un robot autónomo bioinspirado utilizando un microcontrolador PIC

    Get PDF
    Los dispositivos de hoy día son cada vez más avanzados. La tecnología se supera año tras año, y esto no atañe solo a coches más potentes o materiales más ligeros y fuertes, sino ,sobre todo, a la tecnología electrónica. La electrónica nos permite manejar electrones de formas jamás soñadas haciendo que cualquier cosa que se nos ocurra sea posible. Los teléfonos móviles, antes eran eso, meros teléfonos portátiles, ahora se han convertido en mucho más; son dispositivos cuya función de llamada quizás represente la parte menos importante de todo lo que hacen. Hace unos años nadie podría haber imaginado que los ordenadores pudieran ser tan pequeños y extremadamente potentes como lo son ahora; y lo que es más, los robots (autómatas antiguamente programados mecánicamente) que son capaces de realizar hoy día cualquier función y tarea para los seres humanos, ya sea por peligrosa o simplemente por ser tediosa. Los diseños actuales se basan en la naturaleza ya que presentan mayores ventajas y solventan más dificultades, que los nuevos diseños presentados. Esta es la vía de actuación que se ha elegido para el presente proyecto fin de carrera, el construir un robot inspirado en los movimientos de los hexápodos (bioinspirado), de tal forma que realice sus tareas de una manera mucho más eficiente y con los movimientos que caracterizan a este tipo de seresEscuela Técnica Superior de Ingeniería IndustrialUniversidad Politécnica de Cartagen

    Discursive practices on masculinity

    Get PDF
    Este escrito es la presentación de una investigación denomindad Prácticas discursivas sobre la masculinidad en la población universitaria (UNAB-USTA-UPB) del municipio de Bucaramanga.This writing is the presentation of an investigation denomindad Discursive practices on masculinity in the university population (UNAB-USTA-UPB) of the municipality of Bucaramanga

    Descubrimiento automático de conocimiento

    Full text link
    [ES] En el presente proyecto se proponen, evalúan y estudian soluciones basadas en representaciones vectoriales continuas y discretas de palabras y frases a algunos de los problemas más significativos del descubrimiento automático de conocimiento aplicado al lenguaje natural y en general a lenguajes formales. Entre estos problemas destacan la detección de temática, identificación de idioma, análisis de sentimiento y detección de malware. Además, debido a la complejidad que supone el aprendizaje y la utilización de dichas representaciones vectoriales, se ha desarrollado un sistema que facilita las tareas de evaluación, preprocesamiento, extracción de características y visualización de resultados; generalizando los aspectos comunes a todos los problemas abordados. Destacamos, también, los buenos resultados obtenidos mediante el empleo de las representaciones mencionadas sobre el problema de detección de temática, que constituye el principal problema del proyecto, superando los mejores resultados conocidos, haciendo uso del mismo corpus, que han sido cosechados por investigadores de la Universidad Politécnica de Madrid.[EN] In this project, solutions based on continuous and discrete vector representations of word and sentences are proposed, evaluated and studied by using them in some of the most significant problems in automatic knowledge discovery applied to natural language and generally to formal languages. Among these problems, we highlight topic detection, language identification, sentiment analysis and malware detection. Furthermore, due to the complexity of learning and use of vector representations, a system that facilitates evaluation tasks, preprocessing, feature extraction and results display has been developed; generalizing this way the common aspects to all the addressed problems. We highlight too the good results obtained by means of using these representations on topic detection, which is the main problem of the project, surpassing the best known results that have been reached by Polytechnic University of Madrid researchers which uses the same corpus.[CA] En el present projecte es proposen, avaluen i estudien solucions basades en representacions vectorials contínues i discretes de paraules i frases a alguns dels problemes més significatius del descobriment automàtic de coneixement aplicat al llenguatge natural i en general a llenguatges formals. Entre aquests problemes destaquem la detecció de temàtica, identificació d’idiomes, anàlisi de sentiment i detecció de malware. A més, a causa de la complexitat que suposa l’aprenentatge i la utilització d’aquestes representacions vectorials, s’ha implementat un sistema que facilita les tasques d’avaluació, preprocessament, extracció de característiques i visualització de resultats; generalitzant els aspectes en comú a tots els problemes abordats. Destaquem, també, els bons resultats obtinguts mitjançant l’ús d’aquestes representacions en el problema de detecció de temàtica, que constitueix el principal problema del projecte i se superen els millors resultats coneguts, fent ús del mateix corpus, que han sigut aconseguits per investigadors de la Universitat Politècnica de Madrid.González Barba, JÁ. (2016). Descubrimiento automático de conocimiento. http://hdl.handle.net/10251/69227.TFG

    Aprendizaje profundo para el procesamiento del lenguaje natural

    Full text link
    The work carried out is part of natural language processing area and it is focused specifically on text classification problems like sentiment analysis and topic detection about content published on Twitter, using deep learning models such as convolutional and recurrent neural networks. In order to estimate the parameters of these models in problems where the input is a sequence of linguistic units, a representation that retains the most discriminative information for a given task (contextual information, semantic, syntactic, etc.) is required. For this reason, in the present work, suitable representations for the addressed tasks are proposed and comparisons are made among the different representations, as well as among the different models of neural networks that use these representations. All the tasks addressed have been proposed in workshops of national and international congresses such as SemEval and IberEval. Furthermore, in these tasks we have obtained competitive results, reaching a 1st place in the tasks COSET and Gender (Ibereval 2017@SEPLN), a 4th place in Stance (Ibereval 2017@SEPLN) and a 3rd place in Sentiment Analysis in Twitter (SemEval 2017@ACL).El trabajo realizado se enmarca en el área del procesamiento del lenguaje natural y se centra, concretamente, en problemas de clasificación de texto como sentiment analysis y topic detection sobre contenido publicado en Twitter, haciendo uso de modelos basados en aprendizaje profundo como redes convolucionales y redes recurrentes. Para poder estimar los parámetros de estos modelos, en problemas donde la entrada es una secuencia de unidades lingüísticas, se requiere una representación que retenga la información más discriminativa para una tarea determinada (información contextual, semántica, sintáctica, entre otras). Por este motivo, en el presente trabajo se proponen representaciones adecuadas para las tareas tratadas y se realizan comparaciones entre las diferentes representaciones, así como entre los diferentes modelos de redes neuronales que hacen uso de dichas representaciones. Todas las tareas abordadas han sido propuestas en talleres de congresos nacionales e internacionales como SemEval e IberEval. Además, en dichas tareas se han obtenido resultados competitivos, llegando a alcanzar un 1º puesto en las tareas COSET y Gender (Ibereval 2017@SEPLN), un 4º puesto en Stance (Ibereval 2017@SEPLN) y un 3º puesto en Sentiment Analysis in Twitter (SemEval 2017@ACL).[CA] El treball realitzat s’emmarca en l’`area del processament del llenguatge natural i es centra, concretament, en problemes de classificaci´o de text com sentiment analysis i topic detection sobre contingut publicat en Twitter, fent ´us de models basats en aprenentatge profund com xarxes convolucionals i xarxes recurrents. Per poder estimar els par`ametres d’aquests models, en problemes on l’entrada ´es una seq¨u`encia d’unitats ling¨u´ıstiques, es requereix una representaci´o que retinga la informaci´o m´es discriminativa per a una determinada tasca (informaci´o contextual, sem`antica, sint`actica, entre altres). Per aquest motiu, en el present treball es proposen representacions adequades per las tasques tractades i es realitzen comparacions entre les diferents representacions, aix´ı com entre els diferents models de xarxes neuronals que fan ´us d’aquestes representacions. Totes les tasques abordades han sigut propostes en tallers de congressos nacionals i internacionals com SemEval i IberEval. A m´es, en aquestes tasques s’han obtingut resultats competitius, aconseguint un 1r lloc en les tasques COSET i Gender (Ibereval 2017@SEPLN ), un 4t lloc en Stance (Ibereval 2017@SEPLN ) i un 3r lloc en Sentiment Analysis in Twitter (SemEval 2017@ACL).González Barba, JÁ. (2017). Aprendizaje profundo para el procesamiento del lenguaje natural. http://hdl.handle.net/10251/86279TFG

    Los Almendros (La Roda): a new Paleolithic site in Albacete

    Get PDF
    El yacimiento de Los Almendros se ubica en la localidad manchega de La Roda (Albacete). El material lítico estudiado fue recogido utilizando un sistema radial de sectorización que cubría 2500 metros cuadrados de una superficie problemática, con zonas de abundante monte bajo, y otras, más despejadas. En total se hallaron 1004 restos líticos, fundamentalmente en cuarcita. De ellos, 163 son útiles, destacando las raederas, lascas retocadas, y raspadores. Una primera aproximación a las características de la industria lítica nos ha permitido sugerir su atribución crono-cultural al tecno-complejo Musteriense.The site of Los Almendros is located in La Roda (Albacete). The lithic material studied was gathered through a radial sectorization collecting system which covered a problematic surface of 2500 m2, including zones of abundant scrubland and others clearer. A total amount of 1004 lithic pieces were registred, mainly in quartzite, 163 of which were tools. The side-scrapers, retouched flakes, and scrapers are the most numerous. A first approach to the features of the lithic industry has allowed us to suggest the crono-cultural attribution of this site to a Mousterian period
    corecore