Improving source code plagiarism detection systems

Abstract

Образовање у области рачунарства укључује практичан рад кроз програмске задатке који су честа мета плагијаризма. У овом раду су дискутовани различити аспекти плагијаризма у програмском коду у академском окружењу, извршена је упоредна анализа софтверских система за детекцију сличности и предложена њихова унапређења. Изабрани системи су евалуирани коришћењем три различита програма над којима је коришћено више од 20 типова лексичких и структуралних измена које су примењиване на код током 1, 2, 4, и 8 сати рада. Примењено је и реално оптерећење које је укључивало задатке обима од 50 до 1000 линија програмског кода са три различита предмета које је похађало од 100 до 300 студената. Резултати су показали да 5-10% студената, сходно метрици и критеријумима ове тезе, плагира своја решења...Computing education involves practical training through programming assignments which are frequent targets for plagiarism. In this thesis, different aspects of source code plagiarism in academic environment are discussed. Comparative analysis of source code similarity detection systems was performed and several improvеments were proposed. Selected systems were evaluated using simulated plagiarism based on three programming assignments produced after 1, 2, 4, and 8 hours of work on baseline version using more than 20 types of lexical and structural modifications. Real-life student codes from three different courses were also used for evaluation. The courses were attended by 100 to 300 students, and the solutions varied from 50 to 1000 lines of code. The results show that 5-10% of students plagiarized their solutions, according to the criteria used in this thesis..

    Similar works