62 research outputs found

    Generating and Evaluating Tests for K-12 Students with Language Model Simulations: A Case Study on Sentence Reading Efficiency

    Full text link
    Developing an educational test can be expensive and time-consuming, as each item must be written by experts and then evaluated by collecting hundreds of student responses. Moreover, many tests require multiple distinct sets of questions administered throughout the school year to closely monitor students' progress, known as parallel tests. In this study, we focus on tests of silent sentence reading efficiency, used to assess students' reading ability over time. To generate high-quality parallel tests, we propose to fine-tune large language models (LLMs) to simulate how previous students would have responded to unseen items. With these simulated responses, we can estimate each item's difficulty and ambiguity. We first use GPT-4 to generate new test items following a list of expert-developed rules and then apply a fine-tuned LLM to filter the items based on criteria from psychological measurements. We also propose an optimal-transport-inspired technique for generating parallel tests and show the generated tests closely correspond to the original test's difficulty and reliability based on crowdworker responses. Our evaluation of a generated test with 234 students from grades 2 to 8 produces test scores highly correlated (r=0.93) to those of a standard test form written by human experts and evaluated across thousands of K-12 students.Comment: Accepted to EMNLP 2023 (Main

    Accurate and budget-efficient text, image, and video analysis systems powered by the crowd

    Full text link
    Crowdsourcing systems empower individuals and companies to outsource labor-intensive tasks that cannot currently be solved by automated methods and are expensive to tackle by domain experts. Crowdsourcing platforms are traditionally used to provide training labels for supervised machine learning algorithms. Crowdsourced tasks are distributed among internet workers who typically have a range of skills and knowledge, differing previous exposure to the task at hand, and biases that may influence their work. This inhomogeneity of the workforce makes the design of accurate and efficient crowdsourcing systems challenging. This dissertation presents solutions to improve existing crowdsourcing systems in terms of accuracy and efficiency. It explores crowdsourcing tasks in two application areas, political discourse and annotation of biomedical and everyday images. The first part of the dissertation investigates how workers' behavioral factors and their unfamiliarity with data can be leveraged by crowdsourcing systems to control quality. Through studies that involve familiar and unfamiliar image content, the thesis demonstrates the benefit of explicitly accounting for a worker's familiarity with the data when designing annotation systems powered by the crowd. The thesis next presents Crowd-O-Meter, a system that automatically predicts the vulnerability of crowd workers to believe \enquote{fake news} in text and video. The second part of the dissertation explores the reversed relationship between machine learning and crowdsourcing by incorporating machine learning techniques for quality control of crowdsourced end products. In particular, it investigates if machine learning can be used to improve the quality of crowdsourced results and also consider budget constraints. The thesis proposes an image analysis system called ICORD that utilizes behavioral cues of the crowd worker, augmented by automated evaluation of image features, to infer the quality of a worker-drawn outline of a cell in a microscope image dynamically. ICORD determines the need to seek additional annotations from other workers in a budget-efficient manner. Next, the thesis proposes a budget-efficient machine learning system that uses fewer workers to analyze easy-to-label data and more workers for data that require extra scrutiny. The system learns a mapping from data features to number of allocated crowd workers for two case studies, sentiment analysis of twitter messages and segmentation of biomedical images. Finally, the thesis uncovers the potential for design of hybrid crowd-algorithm methods by describing an interactive system for cell tracking in time-lapse microscopy videos, based on a prediction model that determines when automated cell tracking algorithms fail and human interaction is needed to ensure accurate tracking

    Large scale crowdsourcing and characterization of Twitter abusive behavior

    Full text link
    In recent years online social networks have suffered an increase in sexism, racism, and other types of aggressive and cyberbullying behavior, often manifesting itself through offensive, abusive, or hateful language. Past scientific work focused on studying these forms of abusive activity in popular online social networks, such as Facebook and Twitter. Building on such work, we present an eight month study of the various forms of abusive behavior on Twitter, in a holistic fashion. Departing from past work, we examine a wide variety of labeling schemes, which cover different forms of abusive behavior. We propose an incremental and iterative methodology that leverages the power of crowdsourcing to annotate a large collection of tweets with a set of abuse-related labels.By applying our methodology and performing statistical analysis for label merging or elimination, we identify a reduced but robust set of labels to characterize abuse-related tweets. Finally, we offer a characterization of our annotated dataset of 80 thousand tweets, which we make publicly available for further scientific exploration.Accepted manuscrip

    CoupleNet: Paying Attention to Couples with Coupled Attention for Relationship Recommendation

    Full text link
    Dating and romantic relationships not only play a huge role in our personal lives but also collectively influence and shape society. Today, many romantic partnerships originate from the Internet, signifying the importance of technology and the web in modern dating. In this paper, we present a text-based computational approach for estimating the relationship compatibility of two users on social media. Unlike many previous works that propose reciprocal recommender systems for online dating websites, we devise a distant supervision heuristic to obtain real world couples from social platforms such as Twitter. Our approach, the CoupleNet is an end-to-end deep learning based estimator that analyzes the social profiles of two users and subsequently performs a similarity match between the users. Intuitively, our approach performs both user profiling and match-making within a unified end-to-end framework. CoupleNet utilizes hierarchical recurrent neural models for learning representations of user profiles and subsequently coupled attention mechanisms to fuse information aggregated from two users. To the best of our knowledge, our approach is the first data-driven deep learning approach for our novel relationship recommendation problem. We benchmark our CoupleNet against several machine learning and deep learning baselines. Experimental results show that our approach outperforms all approaches significantly in terms of precision. Qualitative analysis shows that our model is capable of also producing explainable results to users.Comment: Accepted at ICWSM 201

    A Study of Commonsense Reasoning with Language Models

    Get PDF
    Tese de mestrado, Ciência de Dados, Universidade de Lisboa, Faculdade de Ciências, 2021Artificial Intelligence (AI) has gone through an increasing growth in the past decades, which in the present day translates to its usage in almost every sector of society. From its inception, AI pursues the reproduction of human intelligence. Currently, AI¬equipped devices are capable of solving particular problems within specific domains with varying degrees of success. The goal and hope is that the combination of these systems will eventually approximate human intelligence. This dissertation addresses a problem in Natural Language Processing (NLP), a central subfield of AI that aims to produce devices capable of handling human language for problems such as translation, parsing, commonsense reasoning, and others. Deep learning has fueled state¬of¬the¬art NLP research. The current most prominent methodology leverages large scale neural networks and large amounts of data to achieve outstanding performances. Recent research has started to uncover how these neural networks obtain state¬of¬the¬art results. In some cases the models appear to latch on to so called data artifacts, whether they sustain valid generalizations or not, which happen to minimize loss w.r.t. the training dataset distribution. Although this is generally the rationale behind a machine learning approach, it can be error inducing, as models can fail miserably when the distribution of the input data differs from the training data. Our work reported in this dissertation investigates whether models learn to perform commonsense reasoning, a cognitively demanding task inherent to the human experience, by resorting to such shortcuts. Five state¬of¬the¬art models of different major types are trained to perform four most prominent commonsense reasoning tasks. Models undergo stress testing with five additional tasks devised to provide hints of possible shortcut learning and of memorization. The results indicate that the models seem to be resorting to shortcut learning in three of the four commonsense reasoning tasks; they seem to be learning a different task from the one the data is meant to convey by relying on spurious patterns present in the dataset. For example, the trained models can pick the answer from a set of options without even being supplied with the question they are meant to answer. Further experimentation confirmed that this behavior could not be attributed to memorization. This behavior is worrisome, as the field measures progress by the capabilities of these models to perform these tasks, and show that their cognitive abilities are disappointingly still low, susceptible to simple deceptions in spite of the overwhelming good scores obtained under mainstream performance metrics. Parts of this work have passed peer review and were accepted for publication (Branco et al., 2021a,b).A Inteligência Artificial (IA) teve um enorme crescimento nas últimas décadas, que se traduziu hoje em dia na sua utilização em quase todos os setores da sociedade. Por exemplo, está presente no sector financeiro, onde modelos neuronais são utilizados para fazer previsões em mercados financeiros; está presente na nossa vida social através das redes sociais, que utilizam modelos de IA para todo o tipo de tarefas e análises; esta dissertação aborda um problema de Processamento de Linguagem Natural (PLN), uma subárea da IA que visa produzir dispositivos capazes de usar e compreender a linguagem humana. Desde o início, a IA visa reproduzir a inteligência humana. Atualmente, produzimos dispositivos capazes de resolver problemas específicos, em domínios específicos, com algum grau de sucesso. A esperança para o futuro é que, através da combinação desses sistemas, as suas capacidades cognitivas conjuntas se aproximem da inteligência humana. Em PLN, os modelos são aplicados a vários problemas, como tradução, análise sintática, argumentação, raciocínio de senso comum, entre outros. Esta dissertação apresenta um estudo sobre consequências negativas da metodologia mais proeminente em PLN na sua aplicação ao raciocínio de senso comum, um desafio/tarefa central em IA. Essa metodologia consiste em utilizar redes neuronais de grande escala, geralmente modelos Transformer, e pré treiná¬los com grandes quantidades de texto através de modelação de linguagem. Dado este pré¬treino, onde as redes aprendem as nuances da linguagem natural, os modelos quando aplicados a tarefas específicas obtêm desempenhos excecionais, que podem em alguns casos rivalizar e até superar as capacidades humanas. O raciocínio de senso comum é uma tarefa clássica em IA, tendo sido objeto de estudo de um dos pioneiros da IA, John McCarthy. É uma capacidade humana essencial, que está em constante utilização, pois o conhecimento de senso comum emerge naturalmente da experiência humana: observar e atuar no nosso ambiente. É necessário raciocinar com este conhecimento de base para tomar decisões, por muito imediatas que sejam. Em PLN, as tarefas deste género geralmente são de pergunta & resposta que necessitam de raciocínio de senso comum para serem respondidas. Ensinar uma máquina, que por enquanto não consegue facilmente interagir com o ambiente e aprender dele, continua a ser um desafio central. A investigação recente começa a descobrir como as redes neuronais obtêm resultados que constituem o estado da arte. Por meio de aprendizagem por atalhos, os modelos prendem¬se aos chamados artefactos presentes nos dados, quer estes produzam generalizações válidas ou não, os quais procuram minimizar perdas relativamente à distribuição do conjunto de dados. Um exemplo deste fenômeno foi descoberto numa tarefa de SemEval 2018, Argument Reasoning Comprehension Task, onde os modelos classificavam texto através de palavras¬chave como “not”, “is”, “do” e “are”, que estavam altamente cor relacionadas com o resultado desejado. Embora minimizar as perdas com base em padrões nos dados seja a abordagem subjecente à aprendizagem automática, pode acabar por ser detrimental fazê¬lo, pois os padrões podem não refletir uma generalização sobre a tarefa em questão, mas podem resultar fortuita mente do processo de construção dos dados. Quando a distribuição dos dados muda, o que pode acontecer quando, por exemplo, utilizamos dados de entrada que podem ser consideravelmente diferentes dos dados de treino, os modelos exibem falhas aparatosas. Este trabalho investiga se os modelos realmente aprendem raciocínio de senso comum, uma tarefa cognitivamente exigente e inerentemente de cariz humano. Cinco modelos de Transformer de estado da arte são aplicados a quatro tarefas diferentes de raciocínio de senso comum, de modo a perceber a sua aptidão na tarefa e estabelecer dados comparativos. Dois modelos são escolhidos para serem submetidos a um teste de pressão, com cinco tarefas concebidas para obter indícios de aprendizagem por atalhos e memorização: (i) Treino com dados de entrada parciais (Partial Input Training), onde segmentos dos dados de entrada, essenciais para completar a tarefa, são retirados, e o efeito nos modelos é observado. Se os modelos forem capazes de cumprir a tarefa igualmente bem, então é um indício que estarão a usar arte factos nos dados. (ii) Ataque adversarial (Adversarial Attack), que consiste na utilização de algoritmos que modificam a frase de entrada, de forma que a semântica é conservada, e que levam o modelo a mudar a sua decisão para uma classificação errada. Se a degradação dos resultados for significativa, pode ser um indício de uma aprendizagem superficial, potenciada por atalhos nos dados. (iii) Contaminação de dados (Data Contamination), que procura descobrir se existe uma sobreposição entre os dados de teste de uma tarefa com os dados de pré¬treino. Como previamente referido, a metodologia mais atual utiliza grandes volumes de dados de texto para pré¬treinar modelos, que podem ser obtidos das mesmas fontes utilizadas para construir dados para outras tarefas. Os modelos têm capacidade de reter informação, portanto, podem utilizar mais tarde durante a avaliação, quebrando princípios de senso comum de testes de modelos: modelos devem ser testado em dados que não teram sido vistos previamente. (iv) Avaliação cruzada de tarefas (Cross¬Task Evaluation), que consiste em pegar num modelo treinado numa certa tarefa e avaliar noutra, sem que o modelo tivesse aprendendo¬a. Isto permite observar se há transferência de conheci mento, que seria possível pois as tarefas têm o mesmo conceito comum subjacente, que é raciocínio de senso comum. Caso haja degradação forte nos resultados, isto é indicativo que os modelos aprenderam atalhos que não foram transferidos para as outras tarefas, pois eram específicos aos dados onde treinou. (v) Exploração de atalhos (Shortcut Exploration), que investiga dois tipos de atalhos: desiquilíbrio de classes e “sinais” (cues) lexicais, que são palavras que fornecem indícios da classe pertencente a cada examplo. Modelos que são treinados com um conjunto de dados que tenha desiquilíbrio de classes conseguem obter melhores resultados ao tirar proveito desse desquilíbrio, enquanto que “sinais” lexicais providenciam um sinal útil para os modelos obterem uma boa prestação. As experiências mostram que os modelos parecem recorrer a aprendizagem por atalho em três das quatro tarefas. Na experiência (i), em três das quatro tarefas de raciocínio de senso comum, é possível chegar perto dos resultados impressionantes retirando segmentos dos dados fundamentais, no ponto de vista do raciocínio humano, para resolver a tarefa. Como exemplo, os modelos conseguem escolher respostas corretas a perguntas que não são fornecidas. Na experiência (ii), as mesmas tarefas sofreram uma degradação superior. No geral, a degradação é alta, mostrando que os modelos ainda são frágeis perante ataques adversários. Com a experiência (iii) observa¬se que embora existe diferentes níveis de contaminação dos dados das tarefas, estes não conseguem explicar os resultados obtido nas experiências anteriores, e, portanto, memorização não poderá ser o fenômeno conducente aos resultados obtidos. Na experiência (iv), verifica¬se que os modelos na sua maioria consegue transferir o seu conhecimento para outras tarefas, sem serem treinados nelas. Finalmente, na experiência (v), descarta¬se desiquilíbrio de classes como um possível atalho e identifica¬se alguns “sinais” lexicais presentes nos dados, embora que não são abrangentes o suficiente para explicar os resultados obtidos nas experiências (i), (ii) e (iv). Estes indícios mostram que os modelos não estarão a realizar a tarefa pretendida, em vez disso, estão a aprender e realizar tarefas diferentes que acontece que maximizam as métricas da tarefa pretendida, através de padrões encontrados nos dados. O facto de estes fenômenos se verificarem é preocupante por vários motivos. A área (PLN) consegue medir o progresso através da capacidade destes modelos realizarem tarefas, como as utilizadas nesta dissertação. Mas se os modelos conseguem obter bons resultados não através da tarefa pretendida, mas uma derivada, o progresso pode ser inflacionado. Outra preocupação refere¬se ao grande objetivo traçado desde o começo da área, a reprodução de inteligência humana. Dado que os modelos não aprendem as tarefas supostas, talvez por falta de especificação, e são suscetíveis a simples enganos como mudar apenas uma palavra para um sinónimo, é difícil de argumentar a capacidade cognitiva que eles possuem, por muito impressionante que seja o desempenho e tamanho. Investigação futura é necessária, através de uma revisão cuidadosa e comparação entre os métodos e procedimentos usados no desenvolvimento de dados, modelos e metodologia de treino. Partes deste trabalho foram alvo de revisão por pares e aceites para publicação (Branco et al., 2021a,b)

    A Pilot Study of Sidewalk Equity in Seattle Using Crowdsourced Sidewalk Assessment Data

    Full text link
    We examine the potential of using large-scale open crowdsourced sidewalk data from Project Sidewalk to study the distribution and condition of sidewalks in Seattle, WA. While potentially noisier than professionally gathered sidewalk datasets, crowdsourced data enables large, cross-regional studies that would be otherwise expensive and difficult to manage. As an initial case study, we examine spatial patterns of sidewalk quality in Seattle and their relationship to racial diversity, income level, built density, and transit modes. We close with a reflection on our approach, key limitations, and opportunities for future work.Comment: Workshop paper presented at "The 1st ASSETS'22 Workshop on The Future or urban Accessibility (UrbanAccess'22)

    R4C: A Benchmark for Evaluating RC Systems to Get the Right Answer for the Right Reason

    Get PDF
    Recent studies have revealed that reading comprehension (RC) systems learn to exploit annotation artifacts and other biases in current datasets. This prevents the community from reliably measuring the progress of RC systems. To address this issue, we introduce R4C, a new task for evaluating RC systems' internal reasoning. R4C requires giving not only answers but also derivations: explanations that justify predicted answers. We present a reliable, crowdsourced framework for scalably annotating RC datasets with derivations. We create and publicly release the R4C dataset, the first, quality-assured dataset consisting of 4.6k questions, each of which is annotated with 3 reference derivations (i.e. 13.8k derivations). Experiments show that our automatic evaluation metrics using multiple reference derivations are reliable, and that R4C assesses different skills from an existing benchmark.Comment: Accepted by ACL2020. See https://naoya-i.github.io/r4c/ for more informatio
    corecore