Automatic annotation of English on the tectogrammatical level

Abstract

Tektogramatick á rovina je velmi slo žit á a jej í anotace je n aročná a n ákladná. Na rozdí l od jiných korpusů je Prague English Dependency Treebank (pedt) zalo žen na datech, pro které již existuje syntaktick á anotace, byť principi álně odli šná. C ílem pr áce je navrhnout a implementovat metody automatické anotace vyu ží vaj cí dostupná data a vedoucí k minimalizaci usilí vynaloženého na manu ální anotací. Důule žité je kvalitně vyhodnocen , aby bylo mo žnée ověřit pří nos použit ých metod. Vzniklo n ěkolik desí tek modulů, které jsou zam ěřeny na r ůzné aspekty anotace. Anal ýza jejich činnosti je komplikovaná a vyž adala si vytvo řen složitého syst ému, s jehož pomoc í je možné prov ést velmi podrobný rozbor. Dosa žen e výsledky jsou pozitivní a vybí zejí k pokračov aní v započaté pr áci a jej í mu dal ší mu rozšiřov aní .Tectogrammatical layer is very complex and its annotation is di cult and expensive. Unlike other corpora, the Prague English Dependency Treebank (pedt) is based on data for which there already exists a syntactic annotation, even though a fundamentally di erent one. The goal of this work is to propose and implement methods of automatic annotation that are using the available data and (preferably) would lead to minimization of the e ort needed for a manual annotation. A high-quality evaluation is important so that the contribution of the used methods can be veri ed. Tens of modules, which focus on various aspects of annotation, were created. The analysis of their activity is complicated and required a complex system to be created. The analyses created with it are very detailed. The outcome is positive and urges to continue the work and extend it further.Institute of Formal and Applied LinguisticsÚstav formální a aplikované lingvistikyFaculty of Mathematics and PhysicsMatematicko-fyzikální fakult

    Similar works

    Full text

    thumbnail-image

    Available Versions