25 research outputs found

    Heterogeneous Queries for Synoptic and Phrasal Search

    Get PDF
    This paper describes our approaches for the Plagiarism Detection – Source Retrieval task of PAN 2014. We combined and improved methodology used at PAN 2012 and PAN 2013. Our system combines three types of queries: The keywords-based queries; the paragraph-based queries; and the headers-based queries. The queries are distinguished also by other properties such as the phrase query or the positional query. The queries are submitted to two search engines – Chatnoir and Indri – according to their properties. The query’s position serves for the search control, minimization of the total number of executed queries is the system’s priority. Downloaded documents are textually compared with the suspicious document and if a similarity is found, the downloaded document is reported

    Approaches for Candidate Document Retrieval

    Get PDF
    Plagiarism has become a serious problem mainly because of the electronically available documents. An online document retrieval is weighty part of a modern anti-plagiarism tool. This paper describes an architecture and concepts of a real-world document retrieval system, which is a part of a general anti-plagiarism software. A similar system was developed as a part of nationwide plagiarism solution at Masaryk University. The design can be adapted into many situations. Provided recommendation stem from experience of the system operation for several years. The proper usage of such systems contributes to gradual improvement of the quality of student theses

    Improving Synoptic Querying for Source Retrieval

    Get PDF
    Source retrieval is a part of plagiarism discovery process, where only a selected set of candidate documents are retrieved from a large corpus of potential source documents and passed for detailed document comparison in order to highlight potential plagiarism. This paper describes used methodology and the architecture of source retrieval system developed for PAN 2015 lab on uncovering plagiarism, authorship, and social software misuse. The system is based on our previous systems used at PAN since 2012. The majority of features were adopted with some improvements described in this paper. The paper analyzes used methodology and discuss the queries performance. The paper provides explanation for many implementation settings in the source retrieval process. The source retrieval subsystem forms an integral part of a modern system for plagiarism discovery.Source retrieval is a part of plagiarism discovery process, where only a selected set of candidate documents are retrieved from a large corpus of potential source documents and passed for detailed document comparison in order to highlight potential plagiarism. This paper describes used methodology and the architecture of source retrieval system developed for PAN 2015 lab on uncovering plagiarism, authorship, and social software misuse. The system is based on our previous systems used at PAN since 2012. The majority of features were adopted with some improvements described in this paper. The paper analyzes used methodology and discuss the queries performance. The paper provides explanation for many implementation settings in the source retrieval process. The source retrieval subsystem forms an integral part of a modern system for plagiarism discovery

    Determining Window Size from Plagiarism Corpus for Stylometric Features

    Get PDF
    The sliding window concept is a common method for computing a profile of a document with unknown structure. This paper outlines an experiment with stylometric word-based feature in order to determine an optimal size of the sliding window. It was conducted for a vocabulary richness method called ‘average word frequency class’ using the PAN 2015 source retrieval training corpus for plagiarism detection. The paper shows the pros and cons of the stop words removal for the sliding window document profiling and discusses the utilization of the selected feature for intrinsic plagiarism detection. The experiment resulted in the recommendation of setting the sliding windows to around 100 words in length for computing the text profile using the average word frequency class stylometric feature.The sliding window concept is a common method for computing a profile of a document with unknown structure. This paper outlines an experiment with stylometric word-based feature in order to determine an optimal size of the sliding window. It was conducted for a vocabulary richness method called ‘average word frequency class’ using the PAN 2015 source retrieval training corpus for plagiarism detection. The paper shows the pros and cons of the stop words removal for the sliding window document profiling and discusses the utilization of the selected feature for intrinsic plagiarism detection. The experiment resulted in the recommendation of setting the sliding windows to around 100 words in length for computing the text profile using the average word frequency class stylometric feature

    Tvorba multimediálních a interaktivních objektů na Masarykově univerzitě pro rapid e-learning

    Get PDF
    Používanou formou na MU je tzv. rapid e-learning. Jde o elektronickou podporu výuky, která se snaží umožnit rychle ke studentům dostat studijní objekty, dělit kurz spíše na více menších aktivit, sledovat, co na studenty funguje, rychle objekty modifikovat - vylepšovat - aktualizovat a reagovat na zpětnou vazbu. Kurzy jsou na základě interakce se studenty kontinuálně vylepšovány. Rapid e-learning vyžaduje analýzu toho, co je pro konkrétní kurz užitečná elektronická podpora výuky, na co se zaměřit, čím se v poměru cena/výkon zabývat. Pro předání těchto zkušeností vznikl v roce 2006 na MU E learningový portál MU, tzv. Elportál (http://is.muni.cz/elportal/). Slouží učitelům a studentům MU pro inspiraci v rozvoji e learningu, stejně jako široké veřejnosti.One such method, called rapid e-learning, has been deployed at Masaryk University. Its primary objective is to allow the teacher to get his/her learning objects up and running as quickly as possible, divide his/her course into several small elements, monitor their efficiency, and consequently modify these according to some findings. Rapid e-learning requires that a needs analysis be conducted for the course, which subsequently provides helpful tips as regards what areas the electronic tools should target. For teachers to be able to share their experience of the e-learning applications, a portal named Elportál (available at http://is.muni.cz/elportal/) was set up in 2006. Teachers (and students) can search it for useful tips while the general public may also learn through it about the development of e-learning at Masaryk University

    Participation of the National security organization in action "B" (Bandera's members in Bohemia and Moravia)

    Get PDF
    Diplomová práce se snaží zmapovat účast bezpečnostních složek na potírání Ukrajinské povstalecké armády (UPA), která procházela přes Československo v roce 1947 do americké okupační zóny v Německu. Pozornost je hlavně zaměřena na území Čech a Moravy.This diploma work deals with the participation of national security units in abatement of the Ukrainian rebellious army that was crossing the territory of Czechoslovakia in 1947 with the aim of reaching the American zone of occupation in Germany. Attention is mainly focused on the territory of Bohemia and Moravia.Katedra historických vědDokončená práce s úspěšnou obhajobo

    Three Way Search Engine Queries with Multi-feature Document Comparison for Plagiarism Detection

    Get PDF
    In this paper, we describe our approach at the PAN 2012 plagiarism detection competition. Our candidate retrieval system is based on extraction of three different types of Web queries with narrowing their execution by skipping certain passages of an input document. We have created queries based on keywords extraction, intrinsic plagiarism detection and headers extraction. We have also compared the performance of constructed queries used during the PAN 2012 test process. The proposed methodology was the best performing one in case of long term operation and also the most cost-effective one. Our detailed comparison system is based on detecting common features of several types (in the final submission, we have used two types of features: sorted word 5-grams and unsorted stop word 8-grams) in the input document pair. We propose a method of computing so called valid intervals from those features, represented by their offset and length attributes in both source and suspicious document. Previous works use the feature ordering as the measure of distance, which is not usable for multiple types of features, which do not have any natural ordering. From those valid intervals we compute final detections in the post-processing phase, where we merge neighbouring valid intervals and remove some types of overlapping detections. We further discuss other approaches which we explored, but which have not been used in our final submission. In the paper we also discuss the performance aspects of our program, parameter settings, and the relevance of current PAN 2012 rules (including the plagdet score) to the real-world plagiarism detection systems.V tomto článku popisujeme náš přístup v soutěži PAN 2012 v detekci plagiátorství. V první části, vyhledávání podezřelých dokumentů, jsme použili přístup založený na extrakci tří odlišných typů Webových dotazů a aplikovali heuristiku pro minimalizaci celkového počtu použitých dotazů na základě nalezených podobností dokumentů. Jednotlivé typy dotazů byly vytvořeny z klíčových slov dokumentu, z částí textu detekovaných metodou pro detekci vnitřního plagiátorství a na základě lokálních nadpisů v textu. Tato metodika pro vyhledávání podezřelých dokumentů byla v rámci soutěže nejefektivnější. Náš systém pro detailní porovnávání párů dokumentů je založen na hledání výskytu společných vlastností (například společné skupiny slov), přičemž systém vyhodnocuje společné vlastnosti více různých typů. Náš finální výsledek byl založen na dvou typech vlastností: setříděné pětice slov a nesetříděné osmice stop-slov. Navrhujeme metodu výpočtu takzvaných platných rozsahů na základě těchto společných vlastností, kde platný rozsah je reprezentován svým počátečním znakem a délkou jak ve zdrojovém, tak v podezřelém dokumentu. Předchozí práce používaly pro reprezentaci vzdálenosti pořadí výskytu jednotlivých společných vlastností. Toto není použitelné pro systém s více typy vlastností, které nemusejí mít mezi sebou navzájem žádné přirozené uspořádání. Z těchto platných rozsahů počítáme výsledné detekované pasáže textu ve fázi následného zpracování, kde se snažíme slučovat blízké platné rozsahy a odstraňovat některé typy překrývajících se rozsahů. Dále rozebíráme jiné přístupy které jsme vyzkoušeli, ale nepoužili v našem finálním výsledku. V tomto článku také diskutujeme výkonnostní aspekty našeho programu, nastavení parametrů, a relevantnost kritérií hodnocení PAN 2012 (včetně hodnoty plagdet) pro reálné systémy na odhalování plagiátů.In this paper, we describe our approach at the PAN 2012 plagiarism detection competition. Our candidate retrieval system is based on extraction of three different types of Web queries with narrowing their execution by skipping certain passages of an input document. We have created queries based on keywords extraction, intrinsic plagiarism detection and headers extraction. We have also compared the performance of constructed queries used during the PAN 2012 test process. The proposed methodology was the best performing one in case of long term operation and also the most cost-effective one. Our detailed comparison system is based on detecting common features of several types (in the final submission, we have used two types of features: sorted word 5-grams and unsorted stop word 8-grams) in the input document pair. We propose a method of computing so called valid intervals from those features, represented by their offset and length attributes in both source and suspicious document. Previous works use the feature ordering as the measure of distance, which is not usable for multiple types of features, which do not have any natural ordering. From those valid intervals we compute final detections in the post-processing phase, where we merge neighbouring valid intervals and remove some types of overlapping detections. We further discuss other approaches which we explored, but which have not been used in our final submission. In the paper we also discuss the performance aspects of our program, parameter settings, and the relevance of current PAN 2012 rules (including the plagdet score) to the real-world plagiarism detection systems

    Multimédia a interaktivní studijní materiály na MU

    Get PDF
    Již v roce 2005 implementoval vývojový tým Informačního systému Masarykovy univerzity (IS MU) vlastní nástroje pro elektronickou podporu výuky (e-learningové nástroje) pro tvorbu a spravování kurzů. V té době se začali první učitelé, nadšeni těmito nástroji v IS MU, věnovat zavádění elektronických aktivit do svých předmětů. Postupné zkušenosti ukázaly, že pokud chce univerzita nabídnout svým studenům kvalitní a moderní elektronické studijní materiály, je nutné dlouhodobé vzdělávání a metodické vedení učitelů MU při využívání e-learningových aplikací, které mají v IS MU k dispozici. Předpokládá se, že učitel by se měl soustředit na obsah a zvládnutí jednoduchých nástrojů a pro tvorbu animací nebo využití složitějšího software pro tvorbu grafiky je potřeba odborníků z řad informatiků. Tuto podporu poskytuje vývojový tým IS MU od roku 2006 a od roku 2009 je proto realizován projekt Systém vzdělávání pro inovaci studijních programů s podporou IT, který je spolufinancován z Operačního programu Vzdělávání pro konkurenceschopnost (Evropský sociální fond) a ze státního rozpočtu ČR. V rámci projektu mají zaměstnanci MU k dispozici tým pracovníků uživatelské podpory (který zajišťuje školení, osvětu a vzdělávání v oblasti využívání e-learningových nástrojů) a tým ICT odborníků na multimédia, kteří ve spolupráci s učiteli vytvářejí kvalitní multimediální studijní materiály (2D a 3D animace, interaktivní tutoriály, schémata, webové prezentace obsahující video i audio ukázky, slovníky či digitalizované materiály a další). Učitelé MU rádi využívají této bezplatné spolupráce s ICT odborníky, aby mohli poskytnout svým studentům studijní materiály využívajíce nejmo-dernější technologie a trendy v ICT. Příspěvek se věnuje vedle představení samotného projektu především ukázkám práce techniků.As early as 2005, the development team of Information System of Masaryk University (IS MU) implemented their own e-learning tools used for designing and administering courses. At that time, some of the teachers working at the University enthusiastic about the project began to incorporate some electronic material in their own courses. Later on, the need for training teachers in the use of the tools and their methodological guidance arose as these turned out to be indispensable in the process of producing the study material of satisfactory quality and, at the same time, that which meets current students’ needs. The idea underlying the present development is that of teachers focusing on the material contents and use of some basic e-learning tools while having the animation part and other more complicated tasks (e.g. use of additional software) attended to by IT professionals – a support provided by the development team since 2006. This is also the philosophy behind the project System of Education for Programs of Studies Innovation with IT Support (co-funded by European Social Fund within the Operational Program of Education for Competitiveness and Czech government), which has been under way since 2009. The project gave rise to a technical support team tutoring the teachers in the use of the tools as well as an ICT one comprising multimedia specialists, who, cooperating with teachers, design multimedia study material such as 2D and 3D animations, interactive tutorials, Web presentations containing audio and video, dictionaries, digitized material, etc. The teachers welcome both the types of support as it enables them to incorporate the latest technologies in their own courses. Apart from introducing the project, the paper also aims to present samples of concrete material designed by the multimedia team

    Využití nástrojů elektronického zkoušení IS MU při přijímacích a státních závěrečných zkouškách

    Get PDF
    Učitelé Masarykovy univerzity mají k dispozici v Informačním systému Masarykovy univerzity (IS MU) nástroje na tvorbu e-learningu již od roku 2004. Pomocí těchto nástrojů lze vytvářet komplexní e-learningové kurzy, kde součástí přehledných interaktivních osnov jsou také odkazy na studijní materiály, diskusní fóra, odpovědníky (testy) s multimediálními objekty nebo odkazy do Internetu. Učitelé mají možnost v systému vytvářet testy pro písemnou zkoušku, které se po vyplnění studenty a naskenování automaticky vyhodnotí a ušetří tak čas potřebný na jejich opravu. Novinkou v IS MU je unikátní aplikace Dril pro zapamatování velkého množství memorovacích jednotek (typicky slovíček cizího jazyka). Předpokladem tvorby e-learningových kurzů je určitá úroveň počítačové gramotnosti. Masarykova univerzita se proto vydala cestou vzdělávání svých pedagogů a poskytování uživatelské podpory, která je učitelům k dispozici pro individuální i hromadná školení, elektronické, telefonické i osobní konzultace. Ve spolupráci s pracovníky uživatelské podpory se postupně učí využívat e-learningové nástroje IS MU i začátečníci v oblasti IT. Motivací učitelů pro využívání těchto nástrojů je nejčastěji propojenost e-learningových aplikací se studijními aplikacemi, což umožní např. automaticky vyhodnotit písemky, jednoduše zapsat do systému známky a informovat o výsledcích studenty e-mailem. Snahou autorů této myšlenky není vychovat z pedagogů IT specialisty, ale naučit je samostatně si elektronické materiály v IS MU spravovat a ty jednodušší vytvářet. Složitější multimediální objekty (video, audio, 2D a 3D animace, obrázky apod.), které učitelé využívají ve svých elektronických publikacích, odpovědnících a dalších studijních materiálech, pro ně vytvářejí techničtí pracovníci disponující vedle odborných znalostí i vhodným softwarovým vybavením. Článek představuje projekt Systém vzdělávání pro inovaci studijních programů s podporou IT spolufinancovaný Evropským sociálním fondem a státním rozpočtem České republiky (http://is.muni.cz/elportal/opvk22/index.pl), který v rámci Operačního programu Vzdělávání pro konkurenceschopnost realizuje MU v letech 2009 – 2012 a jehož cílem je zajistit inovaci předmětů na MU s podporou ICT, vytvořit systém vzdělávání pedagogů, pracovníků, studentů a zvýšit tak IT gramotnost učitelů nebo pracovníků MU a jejich dovednosti pro pokročilou inovaci předmětů, s využitím e-learningových nástrojů IS MU.The Information System of Masaryk University (IS MU) offers its users next to the nowadays standard tools for study administration also some pioneering solutions of other university needs, e.g. complex e-learning, an internet electronic shop for selling education and services, an electronic dossier service for processing applications and issues connected with the study, Alumni network and other uses. In 2005, when putting teaching study materials, electronic discussions in subjects or Submission boxes for collecting and checking tasks in IS MU had become common, the teachers began to use also Answering tests (selfservice electronic tests), Interactive syllabi (integral e-learning syllabi housing multimedia objects) and to make the testing easier for themselves by means of PC or the forms that can be scanned with an automatic correction and transfer of the results into marks. Since the first enthusiastic steps electronic testing has become a common practice not only in the subjects of all the nine faculties of MU but also a part of the entrance examinations or state final examinations. The contribution will present the possibilities of electronic testing in IS MU and the experience with its usage during the entrance and state final examinations at the selected faculties of MU and the project System of Education for Study Programs’Innovation with IT Support, within the frame of which the teachers are supported by specialized technicians while using the IS MU e-learning tools