34 research outputs found

    Corpus specificity in LSA and Word2vec: the role of out-of-domain documents

    Full text link
    Latent Semantic Analysis (LSA) and Word2vec are some of the most widely used word embeddings. Despite the popularity of these techniques, the precise mechanisms by which they acquire new semantic relations between words remain unclear. In the present article we investigate whether LSA and Word2vec capacity to identify relevant semantic dimensions increases with size of corpus. One intuitive hypothesis is that the capacity to identify relevant dimensions should increase as the amount of data increases. However, if corpus size grow in topics which are not specific to the domain of interest, signal to noise ratio may weaken. Here we set to examine and distinguish these alternative hypothesis. To investigate the effect of corpus specificity and size in word-embeddings we study two ways for progressive elimination of documents: the elimination of random documents vs. the elimination of documents unrelated to a specific task. We show that Word2vec can take advantage of all the documents, obtaining its best performance when it is trained with the whole corpus. On the contrary, the specialization (removal of out-of-domain documents) of the training corpus, accompanied by a decrease of dimensionality, can increase LSA word-representation quality while speeding up the processing time. Furthermore, we show that the specialization without the decrease in LSA dimensionality can produce a strong performance reduction in specific tasks. From a cognitive-modeling point of view, we point out that LSA's word-knowledge acquisitions may not be efficiently exploiting higher-order co-occurrences and global relations, whereas Word2vec does

    Análisis de la dinámica del contenido semántico de textos

    Get PDF
    El presente trabajo es el primer eslabón de un proyecto en proceso que apunta a analizar la dinámica de distintos conceptos, desde un enfoque semántico, buscando identificar patrones temporales comunes en varios corpus de texto. Como primer paso utilizaremos textos provenientes de libros o subtítulos de películas, sin embargo este análisis puede extenderse a cualquier corpus de texto. En este trabajo en particular estudiaremos la evolución semántica de conceptos a lo largo de las distintas novelas de la saga Harry Potter con el objetivo último de analizar variaciones del contenido semántico en textos utilizando herramientas de Procesamiento de Lenguaje Natural (PLN). En este contexto, mostraremos una primera aproximación a la comprensión del alcance y de las limitaciones de las herramientas clásicas de PLN para cuantificar la evolución del concepto “oscuridad” con el avance temporal de los libros. La saga de novelas de Harry Potter resulta ser un corpus de texto ideal para testear estas herramientas debido a que es de público conocimiento que dicha saga presenta un aumento gradual de la “oscuridad” a medida que se suceden los libros.Sociedad Argentina de Informática e Investigación Operativa (SADIO

    Análisis de la dinámica del contenido semántico de textos

    Get PDF
    El presente trabajo es el primer eslabón de un proyecto en proceso que apunta a analizar la dinámica de distintos conceptos, desde un enfoque semántico, buscando identificar patrones temporales comunes en varios corpus de texto. Como primer paso utilizaremos textos provenientes de libros o subtítulos de películas, sin embargo este análisis puede extenderse a cualquier corpus de texto. En este trabajo en particular estudiaremos la evolución semántica de conceptos a lo largo de las distintas novelas de la saga Harry Potter con el objetivo último de analizar variaciones del contenido semántico en textos utilizando herramientas de Procesamiento de Lenguaje Natural (PLN). En este contexto, mostraremos una primera aproximación a la comprensión del alcance y de las limitaciones de las herramientas clásicas de PLN para cuantificar la evolución del concepto “oscuridad” con el avance temporal de los libros. La saga de novelas de Harry Potter resulta ser un corpus de texto ideal para testear estas herramientas debido a que es de público conocimiento que dicha saga presenta un aumento gradual de la “oscuridad” a medida que se suceden los libros.Sociedad Argentina de Informática e Investigación Operativa (SADIO

    Análisis de la dinámica del contenido semántico de textos

    Get PDF
    El presente trabajo es el primer eslabón de un proyecto en proceso que apunta a analizar la dinámica de distintos conceptos, desde un enfoque semántico, buscando identificar patrones temporales comunes en varios corpus de texto. Como primer paso utilizaremos textos provenientes de libros o subtítulos de películas, sin embargo este análisis puede extenderse a cualquier corpus de texto. En este trabajo en particular estudiaremos la evolución semántica de conceptos a lo largo de las distintas novelas de la saga Harry Potter con el objetivo último de analizar variaciones del contenido semántico en textos utilizando herramientas de Procesamiento de Lenguaje Natural (PLN). En este contexto, mostraremos una primera aproximación a la comprensión del alcance y de las limitaciones de las herramientas clásicas de PLN para cuantificar la evolución del concepto “oscuridad” con el avance temporal de los libros. La saga de novelas de Harry Potter resulta ser un corpus de texto ideal para testear estas herramientas debido a que es de público conocimiento que dicha saga presenta un aumento gradual de la “oscuridad” a medida que se suceden los libros.Sociedad Argentina de Informática e Investigación Operativa (SADIO

    Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database

    Get PDF
    This summary presents the results obtained in our work, Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database.Sociedad Argentina de Informática e Investigación Operativ

    Zero-shot Multi-Domain Dialog State Tracking Using Descriptive Rules

    Get PDF
    In this work, we present a framework for incorporating descriptive logical rules in state-of-the-art neural networks, enabling them to learn how to handle unseen labels without the introduction of any new training data. The rules are integrated into existing networks without modifying their architecture, through an additional term in the network’s loss function that penalizes states of the network that do not obey the designed rules.As a case of study, the framework is applied to an existing neuralbased Dialog State Tracker. Our experiments demonstrate that the inclusion of logical rules allows the prediction of unseen labels, without deteriorating the predictive capacity of the original system.Fil: Altszyler Lemcovich, Edgar Jaim. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; ArgentinaFil: Brusco, Pablo. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; ArgentinaFil: Basiou, Nikoletta. Sri International; Estados UnidosFil: Byrnes, John. Sri International; Estados UnidosFil: Vergyri, Dimitra. Sri International; Estados Unido

    Impact of upstream and downstream constraints on a signaling module's ultrasensitivity

    Get PDF
    Much work has been done on the study of the biochemical mechanisms that result in ultrasensitive behavior of simple biochemical modules. However, in a living cell, such modules are embedded in a bigger network that constrains the range of inputs that the module will receive as well as the range of the module’s outputs that network will be able to detect. Here, we studied how the effective ultrasensitivity of a modular system is affected by these restrictions. We use a simple setup to explore to what extent the dynamic range spanned by upstream and downstream components of an ultrasensitive module impact on the effective sensitivity of the system. Interestingly, we found for some ultrasensitive motifs that dynamic range limitations imposed by downstream components can produce effective sensitivities much larger than that of the original module when considered in isolation.Fil: Altszyler Lemcovich, Edgar Jaim. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Fisiología, Biología Molecular y Neurociencias. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Fisiología, Biología Molecular y Neurociencias; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Física de Buenos Aires. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Física de Buenos Aires; ArgentinaFil: Ventura, Alejandra. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Fisiología, Biología Molecular y Neurociencias. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Fisiología, Biología Molecular y Neurociencias; ArgentinaFil: Colman Lerner, Alejandro Ariel. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Fisiología, Biología Molecular y Neurociencias. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Fisiología, Biología Molecular y Neurociencias; ArgentinaFil: Chernomoretz, Ariel. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Física de Buenos Aires. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Física de Buenos Aires; Argentina. Fundación Instituto Leloir; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Física; Argentin

    Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database

    Get PDF
    This summary presents the results obtained in our work, Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database.Sociedad Argentina de Informática e Investigación Operativ

    Gender bias in magazines oriented to men and women: a computational approach

    Get PDF
    Cultural products are a source to acquire individual values and behaviours. Therefore, the differences in the content of the magazines aimed specifically at women or men are a means to create and reproduce gender stereotypes. In this study, we compare the content of a women-oriented magazine with that of a men-oriented one, both produced by the same editorial group, over a decade (2008-2018). With Topic Modelling techniques we identify the main themes discussed in the magazines and quantify how much the presence of these topics differs between magazines over time. Then, we performed a word-frequency analysis to validate this methodology andextend the analysis to other subjects that did not emerge automatically. Our results show that the frequency of appearance of the topics Family, Business and Women as sex objects, present an initial bias that tends to disappear over time. Conversely, in Fashion and Science topics, the initial differences between both magazines are maintained. Besides, we show that in 2012, the content associated with horoscope increased in the women-oriented magazine, generating a new gap that remained open over time. Also, we show a strong increase in the use of words associated with feminism since 2015 and specifically the word abortion in 2018. Overall, these computational tools allowed us to analyse more than 24,000 articles. Up to our knowledge, this is the first study to compare magazines in such a large dataset, a task that would have been prohibitive using manual content analysis methodologies.Fil: Diego Kozlowski. University of Luxembourg; LuxemburgoFil: Lozano Rubello, Gabriela. Universidad de Buenos Aires. Facultad de Filosofía y Letras. Instituto Interdisciplinario de Estudios de Género; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; ArgentinaFil: Felcher, Carla María. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Fisiología, Biología Molecular y Neurociencias. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Fisiología, Biología Molecular y Neurociencias; ArgentinaFil: Gonzalez, Fernando. Universidad de Buenos Aires; ArgentinaFil: Altszyler Lemcovich, Edgar Jaim. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentin

    Linguistic analysis of Latinx patients’ responses to a text messaging adjunct during cognitive behavioral therapy for depression

    Get PDF
    Cognitive behavioral therapy (CBT) is efficacious to treat depression, however more research is needed to understand its functions among Latinxs. This study analyzed qualitative responses that were paired with a mood rating (1–9 scale) from daily ecological momentary assessments via text-messaging of 52 low-income, Spanish-speaking patients to assess the relationship between word use and changes in mood during group CBT. Based on previous research, we chose 11 linguistic dimensions from the Linguistic Inquiry and Word Count text analysis software that conceptually related to core CBT treatment elements and sociocultural factors of depression in Latinxs. Results showed that the use of words from the categories of Friends, Religion, Positive Emotions, and Leisure (proxy for behavioral activation) were significantly associated with a significant increase in mood. The use of Negative Emotions and Health words were significantly associated with a significant decrease in mood. Post-hoc analysis revealed that Certainty (proxy for cognitive inflexibility) words were related to a significant decrease in mood when Negative Emotional words were present. Findings contribute to our understanding of the role of sociocultural factors and core CBT elements in changes in mood among Latinxs. Lastly, this paper demonstrates the potential for analyzing language content during a digital health intervention to better understand user experiences.Fil: Hernandez Ramos, Rosa. University of California at Irvine; Estados Unidos. University of California at Berkeley; Estados UnidosFil: Altszyler Lemcovich, Edgar Jaim. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; ArgentinaFil: Figueroa, Caroline A.. University of California at Berkeley; Estados UnidosFil: Avila Garcia, Patricia. University of California at Berkeley; Estados UnidosFil: Aguilera, Adriana Lucia. University of California at Berkeley; Estados Unidos. University of San Francisco; Estados Unido
    corecore