Can chatbots solve coding assignments assessed by automatic grading tools in higher education? : A case of ChatGPT

Abstract

The present study examines ChatGPT-3's ability to generate code solutions for introductory programming courses in computer science and the potential implications for academic integrity. An experiment was conducted where ChatGPT was tested on programming problems from Kattis, an automatic software grading tool for computer programs, used in higher education. The results showed that ChatGPT independently could solve 19 out of 127 programming tasks assessed by Kattis. The study’s results also show that ChatGPT could generate accurate code solutions for simple problems on Kattis but encounters difficulties with more complex programming tasks. A qualitative follow up investigation was also carried out. To provide comments on methodology and discuss cheating in higher education concerning programming courses the two teachers were interviewed. The Kattis system is considered to have useful features for preventing cheating, such as hidden test cases, but it also has limitations in detecting AI-generated code. The report concludes by discussing the implications for various stakeholders, including teachers, students, and researchers.Studien undersöker ChatGPT-3:s förmåga att generera kodlösningar för grundläggande programmeringskurser inom datavetenskap och de potentiella konsekvenserna för akademisk integritet. Ett experiment utfördes där ChatGPT testades med programmeringsproblem från Kattis, ett automatiskt rättningsverktyg för datorprogram som används inom högre utbildning. Resultaten visade att ChatGPT självständigt löste 19 av 127 programmeringsuppgifter som bedömdes av Kattis. Studien konstaterar att ChatGPT kan generera korrekta kodlösningar för problem med låg svårighetsgrad enligt Kattis, men stöter på svårigheter med mer komplexa programmeringsuppgifter. En kvalitativ uppföljningsundersökning genomfördes även där två lärare från KTH intervjuades för att ge sina kommentarer om metodvalet och diskutera fusket inom högre utbildning när det gäller programmeringskurser. Kattis-systemet anses ha användbara funktioner för att förhindra fusk, såsom dolda testfall, men har också begränsningar när det gäller att upptäcka AI-genererad kod. Rapporten avslutas med att diskutera implikationerna för olika intressenter, inklusive lärare, studenter och forskare

    Similar works

    Full text

    thumbnail-image

    Available Versions