Einsatzpotenziale von Large Language Models zur Verbesserung der Barrierefreiheit im automatisierten Website-Testing

Kopp, Caroline

Search results>Research output from Hochschulschriftenserver der Hochschule der Medien Stuttgart

thesis

oai:hdms.bsz-bw.de:7244

Einsatzpotenziale von Large Language Models zur Verbesserung der Barrierefreiheit im automatisierten Website-Testing

Authors: Caroline Kopp
Publication date: 1 January 2025
Publisher

Abstract

Barrierefreiheit im Web bedeutet die Ermöglichung von gesellschaftlicher Teilhabe. Die Prüfung von Websites auf Barrierefreiheit ist allerdings im Moment ein aufwendiger manueller Prozess, der fachbezogene Kenntnisse erfordert. Dieser könnte durch den Einsatz von Large Language Models (LLMs) vereinfacht werden, indem sie automatisiert Fehler erkennen und Verbesserungsvorschläge liefern. In dieser Arbeit werden drei LLMs auf ihre Fähigkeit dazu untersucht, wobei auch die Potenziale von Retrieval Augmented Generation und Fine-Tuning beleuchtet werden. Dies wurde durch die Verwendung eines Datensatzes an beispielhaften Bewertungen nach den Kriterien des BITV-Tests umgesetzt. Getestet wurden die LLMs von OpenAI, Google und Mistral, wobei nur letzteres Open-Source ist. Die vielversprechendsten Ergebnisse erzielte ChatGPT, welches in 37% der Tests die Existenz von Mängeln erfolgreich erkannte. Google Gemini und Mistral erreichten eine Erfolgsquote von 26%. Lediglich das erstellte Fine-Tuned Modell von Gemini schnitt mit einer Erfolgsquote von 7% deutlich schlechter ab. Die Ergebnisse zeigen, dass LLMs potenziell gut geeignet zur Automatisierung der Barrierefreiheitsprüfung sind. Für eine Vollautomatisierung ohne manuelle Überprüfung bedarf es allerdings noch weiterer Forschung.Web accessibility means enabling social participation. However, checking websites for accessibility is currently a time-consuming manual process that requires specialized knowledge. This could be simplified through the use of large language models (LLMs), which automatically detect errors and provide suggestions for improvement. In this paper, three LLMs are examined for their ability to do this, also highlighting the potential of Retrieval Augmented Generation and fine-tuning. This was implemented by using a data set of exemplary evaluations according to the criteria of the BITV test. The LLMs of OpenAI, Google and Mistral were tested, with only the latter being open source. The most promising results were achieved by ChatGPT, which successfully detected the existence of defects in 37% of the tests. Google Gemini and Mistral achieved a success rate of 26%. Only the fine-tuned model created using Gemini performed significantly worse with a success rate of 7%. The results show that LLMs are potentially well suited for automating the accessibility assessment. However, further research is needed for full automation without manual checking

Similar works

Full text

Open in the Core reader

Download PDF

Hochschulschriftenserver der Hochschule der Medien Stuttgart

oai:hdms.bsz-bw.de:7244

Last time updated on 10/04/2025

This paper was published in Hochschulschriftenserver der Hochschule der Medien Stuttgart.

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.

Licence: info:eu-repo/semantics/openAccess