4 research outputs found

    Detecting subjectivity through lexicon-grammar. strategies databases, rules and apps for the italian language

    Get PDF
    2014 - 2015The present research handles the detection of linguistic phenomena connected to subjectivity, emotions and opinions from a computational point of view. The necessity to quickly monitor huge quantity of semi-structured and unstructured data from the web, poses several challenges to Natural Language Processing, that must provide strategies and tools to analyze their structures from a lexical, syntactical and semantic point of views. The general aim of the Sentiment Analysis, shared with the broader fields of NLP, Data Mining, Information Extraction, etc., is the automatic extraction of value from chaos; its specific focus instead is on opinions rather than on factual information. This is the aspect that differentiates it from other computational linguistics subfields. The majority of the sentiment lexicons has been manually or automatically created for the English language; therefore, existent Italian lexicons are mostly built through the translation and adaptation of the English lexical databases, e.g. SentiWordNet and WordNet-Affect. Unlike many other Italian and English sentiment lexicons, our database SentIta, made up on the interaction of electronic dictionaries and lexicon dependent local grammars, is able to manage simple and multiword structures, that can take the shape of distributionally free structures, distributionally restricted structures and frozen structures. Moreover, differently from other lexicon-based Sentiment Analysis methods, our approach has been grounded on the solidity of the Lexicon-Grammar resources and classifications, that provides fine-grained semantic but also syntactic descriptions of the lexical entries. According with the major contribution in the Sentiment Analysis literature, we did not consider polar words in isolation. We computed they elementary sentence contexts, with the allowed transformations and, then, their interaction with contextual valence shifters, the linguistic devices that are able to modify the prior polarity of the words from SentIta, when occurring with them in the same sentences. In order to do so, we took advantage of the computational power of the finite-state technology. We formalized a set of rules that work for the intensification, downtoning and negation modeling, the modality detection and the analysis of comparative forms. With regard to the applicative part of the research, we conducted, with satisfactory results, three experiments on the same number of Sentiment Analysis subtasks: the sentiment classification of documents and sentences, the feature-based Sentiment Analysis and the Semantic Role Labeling based on sentiments. [edited by author]XIV n.s

    Redes sociales y comunicación publicitaria. La metodología SETAL para la obtención de insights publicitarios

    Get PDF
    L'objecte principal d'estudi d'aquesta tesi doctoral es basa en la recerca i desenvolupament d'una nova metodologia per a l'elaboració d’insights publicitaris, realitzada a partir de l'anàlisi netnogràfic de les converses que els usuaris realitzen de forma lliure i espontània a la xarxa social Twitter (en el nostre àmbit de recerca i per raons de capacitat i conveniència, ho hem limitat a la xarxa social Twitter). A partir de l'anàlisi de la literatura acadèmica hem documentat les tècniques de recerca majorment utilitzades pels investigadors per a l'elaboració d’insights publicitaris. Aquestes tècniques es basen en entrevistes i reunions de grups reduïts d'entrevistats (habitualment amb menys de deu), dirigits per un entrevistador. Hem analitzat els seus avantatges i inconvenients valorant els estudis i treballs de referència en l'àmbit acadèmic i conclòs que els biaixos produïts per les pròpies dinàmiques de les reunions de grup i de la interpretació dels resultats per part dels entrevistadors suposen un inconvenient important. Amb l'objectiu de superar aquestes limitacions, tant de representativitat com de biaix, hem investigat les possibilitats que l'entorn d'Internet i les xarxes socials poden aportar per a l'obtenció d'una font d'informació més àmplia, representativa i sense biaix. D'una banda, hem substituït les reunions de grup per les converses que realitzen milers de persones en Twitter. D'altra banda, eliminem la figura de l'entrevistador per una recerca d'anàlisi de contingut mitjançant la tècnica netnogràfica, on el procés de recerca es basa en l'observació del consumidor sense intervenció directa de l'entrevistador, eliminant pràcticament el biaix que ocasiona la seva presència. Per poder aconseguir aquest objectiu principal de recerca s'ha requerit el desenvolupament d'una eina específica de resum i anàlisi de textos, tant des de l'anàlisi gramatical com dels sentiments expressats pels usuaris en les seves comunicacions. Hem utilitzat l'eina “SETAL”, acrònim de Sentiment Text Analysis. SETAL és una nova eina de resum i anàlisi gramatical i semàntic de textos en fase beta, desenvolupada pel Dr. Enric Monte, professor de la Universitat Politècnica de Catalunya, provada adequadament per a aquesta tesi doctoral. Per una costat, SETAL ordena tots els continguts per paraules, oracions, textos i fins i tot usuaris, segons la seva ordre d'importància, elaborat per la coocurrencia⁠ de paraules clau, les propietats de la Teoria de Grafs i de la seva distribució estadística (similar a l'algoritme utilitzat pel motor de cerca de Google per determinar el PageRank dels llocs web, a partir d'una cadena de Markov). Hem dedicat una part d'aquesta tesi a l'explicació del funcionament de SETAL. D'altra banda, hem incorporat a la recerca gramatical i semàntica la variable sentiment expressat pels usuaris en els seus comentaris en Twitter. La nostra intenció ha estat voler superar l'anàlisi de la polaritat positiva, negativa o neutra i passar a la precisió que permet puntuar cada oració en funció de l'expressió dels sentiments (dins d'un sentit ampli detallat en el punt 4 d'aquesta tesi). Per a això hem utilitzat com a punt de partida el diccionari LIWC (Linguistic Inquiry and Word Count), desenvolupat pel Dr. James Pennebaker et al., i adaptat al castellà i català per a aquesta tesi. Hem partit d'aquest diccionari per puntuar les paraules que formen les oracions i que reconeguts grups de recerca en psicologia han determinat que estan associades amb una determinada intensitat de sentiments/emocions. Afegim a l'anàlisi de sentiments la utilització dels adverbis i els temps gramaticals, així com els bigrames (combinacions de dues paraules la càrrega emocional de les quals es potencia a partir de la seva confluència). Mitjançant la prova realitzada amb l'eina SETAL hem donat resposta a la gestió d'1.200.000 tuits i ens ha resultat imprescindible per poder gestionar i analitzar de forma automàtica un volum d'informació tan elevat. En posar en pràctica l'eina seguint un procés propi emparat per les referències acadèmiques, proposem una nova metodologia per a l'elaboració d’insights. La seva principal aportació pot resumir-se en tres apartats. En primer lloc, ampliem considerablement la mostra de l'estudi superant amb escreix les limitacions de les entrevistes presencials i passem d'un màxim recomanat de deu entrevistats per a aquest tipus d'entrevistes a poder estudiar diversos centenars de persones amb la nostra metodologia. En segon lloc, aconseguim eliminar el biaix donada la no intervenció de la figura de l'entrevistador en el procés d'obtenció de la informació. En tercer lloc, proposem una sèrie de dades obtingudes de forma científica que ens permeten reduir o eliminar la dependència de la intuïció, el descobriment sobtat o el "ajá" associat a la troballa d'un insight (explicat detingudament en les parts teòriques d'aquesta tesi). En resum, aquesta tesi doctoral busca fer un pas més en el procés que ens permet elaborar continguts publicitaris amb la solidesa que aporta partir d'una base científica i objectiva. Per aconseguir-ho, aquesta visió científica ha estat vinculada al potencial que ofereix l'anàlisi dels continguts que els usuaris creen i desenvolupen en Internet, concretament a les xarxes socials, i que ens aporten una nova forma d'obtenir informació fonamental sobre tot allò que els importa i decideixen compartir. Per a una empresa, estar el més a prop possible del dia a dia del consumidor a través de les xarxes socials suposa una oportunitat de vital importància per seguir oferint-li tots els productes, serveis i comunicacions que necessita, amb la millor comunicació possible i podent demostrar-li que se l’escolta en ser el seu benestar la major prioritat i comesa de tota labor empresarial.El objeto principal de estudio de esta tesis doctoral se basa en la investigación y desarrollo de una nueva metodología para la elaboración de insights publicitarios, realizada a partir del análisis netnográfico de las conversaciones que los usuarios realizan de forma libre y espontánea en la red social Twitter (en nuestro ámbito de investigación y por razones de capacidad y conveniencia, lo hemos limitado a la red social Twitter). A partir del análisis de la literatura académica hemos documentado las técnicas de investigación mayormente utilizadas por los investigadores para la elaboración de insights publicitarios. Dichas técnicas se basan en entrevistas y reuniones de grupos reducidos de entrevistados (habitualmente con menos de diez), dirigidos por un entrevistador. Hemos analizado sus ventajas e inconvenientes valorando los estudios y trabajos de referencia en el ámbito académico y concluido que los sesgos producidos por las propias dinámicas de las reuniones de grupo y de la interpretación de los resultados por parte de los entrevistadores suponen un inconveniente importante. Con el objetivo de superar estas limitaciones, tanto de representatividad como de sesgo, hemos investigado las posibilidades que el entorno de Internet y las redes sociales pueden aportar para la obtención de una fuente de información más amplia, representativa y sin sesgo. Por un lado, hemos sustituido las reuniones de grupo por las conversaciones que realizan miles de personas en Twitter. Por otro lado, eliminamos la figura del entrevistador por una investigación de análisis de contenido mediante la técnica netnográfica, donde el proceso de investigación se basa en la observación del consumidor sin intervención directa del entrevistador, eliminando prácticamente el sesgo que ocasiona su presencia. Para poder alcanzar este objetivo principal de investigación se ha requerido el desarrollo de una herramienta específica de resumen y análisis de textos, tanto desde el análisis gramatical como de los sentimientos expresados por los usuarios en sus comunicaciones. Hemos utilizado la herramienta “SETAL”, acrónimo de Sentiment Text Analysis. SETAL es una nueva herramienta de resumen y análisis gramatical y semántico de textos en fase beta, desarrollada por el Dr. Enric Monte, profesor de la Universidad Politécnica de Cataluña, probada adecuadamente para esta tesis doctoral. Por una lado, SETAL ordena todos los contenidos por palabras, oraciones, textos e incluso usuarios, según su orden de importancia, elaborado por la coocurrencia⁠ de palabras clave, las propiedades de la Teoría de Grafos y de su distribución estadística (similar al algoritmo utilizado por el motor de búsqueda de Google para determinar el PageRank de los sitios web, a partir de una cadena de Markov). Hemos dedicado una parte de esta tesis a la explicación del funcionamiento de SETAL. Por otro lado, hemos incorporado a la investigación gramatical y semántica la variable sentimiento expresado por los usuarios en sus comentarios en Twitter. Nuestra intención ha sido querer superar el análisis de la polaridad positiva, negativa o neutra y pasar a la precisión que permite puntuar cada oración en función de la expresión de los sentimientos (dentro de un sentido amplio detallado en el punto 4 de esta tesis). Para ello hemos utilizado como punto de partida el diccionario LIWC (Linguistic Inquiry and Word Count), desarrollado por el Dr. James Pennebaker et al., y adaptado al castellano y catalán para esta tesis. Hemos partido de este diccionario para puntuar las palabras que forman las oraciones y que reconocidos grupos de investigación en psicología han determinado que están asociadas con una determinada intensidad de sentimientos/emociones. Añadimos al análisis de sentimientos la utilización de los adverbios y los tiempos gramaticales, así como los bigramas (combinaciones de dos palabras cuya carga emocional se potencia a partir de su confluencia). Mediante la prueba realizada con la herramienta SETAL hemos dado respuesta a la gestión de 1.200.000 tuits y nos ha resultado imprescindible para poder gestionar y analizar de forma automática un volumen de información tan elevado. Al poner en práctica la herramienta siguiendo un proceso propio amparado por las referencias académicas, proponemos una nueva metodología para la elaboración de insights. Su principal aportación puede resumirse en tres apartados. En primer lugar, ampliamos considerablemente la muestra del estudio superando con creces las limitaciones de las entrevistas presenciales y pasamos de un máximo recomendado de diez entrevistados para ese tipo de entrevistas a poder estudiar varios cientos de personas con nuestra metodología. En segundo lugar, logramos eliminar el sesgo dada la no intervención de la figura del entrevistador en el proceso de obtención de la información. En tercer lugar, proponemos una serie de datos obtenidos de forma científica que nos permiten reducir o eliminar la dependencia de la intuición, el descubrimiento súbito o el "¡ajá" asociado al hallazgo de un insight (explicado detenidamente en las partes teóricas de esta tesis). En resumen, esta tesis doctoral busca dar un paso más en la dirección que nos permite elaborar contenidos publicitarios con la solidez que aporta partir de una base científica y objetiva. Para lograrlo, esta visión científica ha sido vinculada al potencial que ofrece el análisis de los contenidos que los usuarios crean y desarrollan en Internet, concretamente en las redes sociales, y que nos aportan una novedosa forma de obtener información fundamental acerca de todo aquello que les importa y deciden compartir. Para una empresa, estar lo más cerca posible del día a día del consumidor a través de las redes sociales supone una oportunidad de vital importancia para seguir ofreciéndole todos los productos, servicios y comunicaciones que necesita, con la mejor comunicación posible y pudiendo demostrarle que se le escucha al ser su bienestar la mayor prioridad y cometido de toda labor empresarial.The main object of study of this doctoral thesis is the research and development of a new methodology for the improvement of advertising insights, through the netnographic analysis of the conversations that users of the social network Twitter perform freely and spontaneously (we have limited our field of study to Twitter for capacity and operational reasons). From the analysis of academic literature we have documented the investigation techniques reasearchers mostly use for the development of advertising insights. Such techniques are based on interviews and meetings of small groups of individuals (usually less than ten), led by an interviewer. We have analyzed their pros and cons evaluating the academic studies of reference and concluded that the biases produced by the dynamics of the group meetings and the interpretation of the results by the interviewers pose a major drawback. In order to overcome these limitations, regarding biases and representativeness, we have investigated the possibilities that the field of Internet and Social Media can contribute with towards the obtention of a broader, more representative and unbiased source of information. On one hand, we have replaced the group meetings by the conversations that thousands of people have on Twitter. On the other we have removed the interviewer, and have substituted its figure with a content analysis research of netnographic technique where the research process is based on the observation of consumers without the direct intervention of the interviewers, therefore virtually eliminating biases caused by their presence. The achievement of this main objective of research has required the development of a specific tool for the summary and analysis of texts, both grammatical and emotional, that users express in their communications. We have used "SETAL", which stands for Sentiment Text Analysis. SETAL is a new tool for grammatical and semantic summary analysis of texts in phase beta, developed by Dr. Enric Monte, professor of the Polytechnic University of Catalonia, and adequately tested for this thesis. On one hand, SETAL organized all content by words, sentences, texts and even users, according to their importance, elaborated by the concurrence of keywords, the properties of the Graph Theory and its statistical distribution (similar to the algorithm used by the search engine Google to determine the PageRank of websites, from a chain of Markov). We have devoted a part of this thesis in explaining the operation of SETAL. On the other, we have incorporated to the grammatical and semantic research the emotion variable expressed by users in their comments on Twitter. Our aim has been to take further the analysis of positive, negative or neutral polarity and reach an accuracy that scores each sentence on the basis of the expression of feelings (broadly detailed in paragraph 4 of this thesis). So we've used as a starting point the LIWC (Linguistic Inquiry and Word Count) dictionary developed by Dr. James Pennebaker et al., and adapted it to Castilian and Catalan for this thesis. We have started from this dictionary to score the words and sentences that recognized psychology research groups have identified as associated with certain intensity of feelings / emotions. We add to Sentiment Analysis the use of adverbs and grammatical tenses as well as bigrams (two-word combinations whose emotional power is increased by its confluence). Through the SETAL test we have managed 1,200,000 tweets. The tool has proved essential to manage and automatically analyze such an important volume of information. In implementing the tool following a proper process under academic references, we propose a new methodology for the development of insights. Its main contribution can be summarized in three sections. First, we significantly expand the study sample, far exceeding the limitations of face interviews and its recommended maximum of 10 subjects, to study several hundred people through our methodology. Second, we eliminate bias thanks to the non presence of the interviewer in the process of obtaining information. Thirdly, we propose a series of scientific data that reduces or eliminates the reliance on intuition, the sudden discovery or "aha" associated with the finding of an insight (that we carefully explain in the theoretical part of this thesis). In summary, this thesis seeks to go a step further in the direction that allows us to develop advertising content with the confidence provided by a scientific and objective basis. To achieve this, this scientific vision has been linked to the potential of the analysis of the content that users create and develop online, particularly on social networks, and we provide a novel way to obtain basic information about all that matters to them and that they decide to share. For a company, to be as close as possible to the daily life of consumers through social networks is of vital importance. To keep on offering all products, services and releases, with the best possible communication with them as a way to prove that they are listened, as their wellbeing is the highest priority and commitment of any business

    Proceedings of the Eighth Italian Conference on Computational Linguistics CliC-it 2021

    Get PDF
    The eighth edition of the Italian Conference on Computational Linguistics (CLiC-it 2021) was held at Università degli Studi di Milano-Bicocca from 26th to 28th January 2022. After the edition of 2020, which was held in fully virtual mode due to the health emergency related to Covid-19, CLiC-it 2021 represented the first moment for the Italian research community of Computational Linguistics to meet in person after more than one year of full/partial lockdown
    corecore