22 research outputs found

    Challenging stylometry: The authorship of the baroque play La Segunda Celestina

    Get PDF
    The aim of this study was to verify the possibility of Sor Juana Ine´ s de la Cruz authoring the anonymous part of the baroque play La Segunda Celestina, commissioned to Agustın de Salazar, and left unfinished after his death. This is a first systematic stylometric study on this problem and a baroque hispanoamerican text. In our study, we faced building a balanced corpus from few available resources, and took extensive evaluation measures to deal with unclear stylometric signals. We use a variety of established attribution and verification methods, and introduce a novel evaluation procedure of examining historic texts with scarce corpora. The results support Sor Juana’s authorship, and unravel new connections between her and other authors of the time, showing, still undermined, powerful impact of her works on the epoch. The solutions adopted in solving methodological problems of such a complex task show how stylometry can overcome similar challenges

    Scalable handwritten text recognition system for lexicographic sources of under-resourced languages and alphabets

    Full text link
    The paper discusses an approach to decipher large collections of handwritten index cards of historical dictionaries. Our study provides a working solution that reads the cards, and links their lemmas to a searchable list of dictionary entries, for a large historical dictionary entitled the Dictionary of the 17th- and 18th-century Polish, which comprizes 2.8 million index cards. We apply a tailored handwritten text recognition (HTR) solution that involves (1) an optimized detection model; (2) a recognition model to decipher the handwritten content, designed as a spatial transformer network (STN) followed by convolutional neural network (RCNN) with a connectionist temporal classification layer (CTC), trained using a synthetic set of 500,000 generated Polish words of different length; (3) a post-processing step using constrained Word Beam Search (WBC): the predictions were matched against a list of dictionary entries known in advance. Our model achieved the accuracy of 0.881 on the word level, which outperforms the base RCNN model. Within this study we produced a set of 20,000 manually annotated index cards that can be used for future benchmarks and transfer learning HTR applications

    Attributing Authorship in the Noisy Digitized Correspondence of Jacob and Wilhelm Grimm

    Get PDF
    This article presents the results of a multidisciplinary project aimed at better understanding the impact of different digitization strategies in computational text analysis. More specifically, it describes an effort to automatically discern the authorship of Jacob and Wilhelm Grimm in a body of uncorrected correspondence processed by HTR (Handwritten Text Recognition) and OCR (Optical Character Recognition), reporting on the effect this noise has on the analyses necessary to computationally identify the different writing style of the two brothers. In summary, our findings show that OCR digitization serves as a reliable proxy for the more painstaking process of manual digitization, at least when it comes to authorship attribution. Our results suggest that attribution is viable even when using training and test sets from different digitization pipelines. With regards to HTR, this research demonstrates that even though automated transcription significantly increases the risk of text misclassification when compared to OCR, a cleanliness above ≈ 20% is already sufficient to achieve a higher-than-chance probability of correct binary attribution

    Recenzja książki Cornelii Wilhelminy Koolen "Reading beyond the female: The relationship between perception of author gender and literary quality"

    No full text
    Niniejszy tekst stanowi recenzję książki "Reading beyond the female: The relationship between perception of author gender and literary quality" holenderskiej badaczki Cornelii Koolen. Prezentowana książka podejmuje tematykę relacji między płcią autora, oceną jakości literackiej jego lub jej twórczości i rzeczywistymi cechami tekstów, wpisując się w tym samym w nurt badań nad stereotypami płciowymi w języku i literaturze. Dzięki innowacyjnemu zastosowaniu ilościowych metod analizy tekstu, stanowi też istotną pozycję w zakresie metodologii stylometrycznej, nadając całości pracy interdyscyplinarny charakter.Presented text is a review of the book "Reading beyond the female: The relationship between perception of author gender and literary quality" by Dutch researcher Cornelia Koolen. Discussed book undertakes the issues of relations between the gender of the author, evaluation of literary quality of their work and actual features of the texts, thus fitting in the larger trend of research on gender stereotypes in language and literature. The innovative use of quantitative methods also grants it an important place within literatureon stylometric, making it an interdisciplinary work

    "Kittelsen's world"

    No full text
    Niniejsza praca stanowi dokumentację projektu serwisu internetowego prezentującego twórczość oraz biografię Theodora Kittelsena, mało znanego w Polsce norweskiego artysty zajmującego się malarstwem, rysunkiem oraz rzeźbą. System zawiera informacje na temat twórcy oraz możliwości oglądania jego prac na żywo, a część zdigitalizowanych dzieł została przedstawiona w galeriach. Projekt pozwala użytkownikom na dzielenie się swoimi opiniami na temat twórczości artysty.This thesis is a documentation of the project of a website presenting works and biography of Theodor Kittelsen, Norwegian artist creating paintings, drawings and sculptures, relatively little known in Poland. The system offers the information on the artist and on the options of seeing his works in museums; some of the digitised art was presented in the website galleries. The project grants website users the opportunity to share their opinions on Kittelsen’s art

    Nauczanie języków obcych dla przyszłości - nowe technologie i metodyka

    No full text
    Celem niniejszej pracy jest przedstawienie wpływu nowoczesnych technologii na sposób przyswajania wiedzy oraz zdolności komunikacyjne u dzieci, a także na proces i techniki nauczania języków obcych. W pracy przedstawiono również zmiany w podejściu do nauczania języków obcych i modyfikacje wprowadzane w celu sprostania potrzebom uczniów którzy w życie naukowe i zawodowe wchodzą już w XXI wieku. W części teoretycznej pracy na bazie literatury przedstawiono trudności naukowe współczesnych uczniów: brak umiejętności efektywnego komunikowania się, pracy w grupie oraz rozwiązywania skomplikowanych problemów, a także kreatywnego wyrażania swoich pomysłów. Opisano również wpływ nowoczesnych technologii na proces przyswajania wiedzy oraz metody pedagogiczne wykorzystujące technologie do łatwiejszej nauki ucznia i pracy nauczyciela oraz rozwoju umiejętności interpersonalnych, przede wszystkim Blended Learning i 21 Century Skills.Część praktyczna pracy opisuje badania przeprowadzone na potrzeby tej pracy, których celem było wykazanie wpływu umiejętnego stosowania technologii podczas lekcji na zwiększenie zainteresowania i zaangażowania uczniów oraz pobudzenie ich kreatywności. W tym celu przeprowadzono pięć specjalnie zaprojektowanych lekcji w sześciu grupach uczniów klasy IV szkoły podstawowej. Każda lekcja zawierała autorskie materiały multimedialne, m.in. prezentacje, historyjki obrazkowe, komiksy, krótkie filmy, a także zaadaptowane do potrzeb lekcji gry komputerowe oraz artykuły. Stworzono również blog klasowy, na którym umieszczano materiały z lekcji oraz dodatkowe ćwiczenia, zarówno dla uczniów z problemami, jak i wybitnie uzdolnionych.Badania wykazały, że wzbogacenie lekcji multimediami, angażującymi uczniów do działania, pozytywnie wpływa na przyswajanie słownictwa oraz satysfakcję uczniów.The aim of this thesis is to present the influence of new technologies and media on the contemporary children, especially on their ability to learn and communicate effectively and on the process and techniques of learning foreign languages. The study examines the changes in Second Language Teaching, specifically the modifications and adaptations of teaching approaches to the needs of students obtaining education in the beginning of 21 century. It attempts to analyse the problem and to find a solution that satisfies both children and teachers. The first part of the study examines the profile of contemporary young learners, their universal characteristic, learning attitudes and problems as well as the difficulties that have been noticed only recently. The study assesses the impact of the development of technology on thinking and learning patterns and attempts to illuminate various approaches in using technology in facilitating educational processes with a focus on blended learning and 21 Century Skills Framework models.The empirical part of the thesis presents the methods and results of the research conducted in winter 2014/2015. The subjects of the study were the six groups of 4th grade students of primary school in Kraków. They participated in five lessons designed for the purpose of this research. Each lesson was enhanced with the use of technology and digital tools, e.g. comics, picture stories, games, videos and presentations, and encouraged students to communicate their creative ideas and collaborate with classmates. The study was conducted during vocabulary teaching and revising classes and explored various ways of presenting and practicing vocabulary and providing students with an interesting and inspiring context. After each class, the subjects were encouraged to revise and explore the topic with the help of the materials gathered on the class blog.The research has shown that lessons enhanced with technology and multimedia had positive impact on vocabulary acquisition, student satisfaction and motivation to produce language output

    Głosy w Doktorze Who

    No full text
    Celem niniejszej pracy było zastosowanie komputerowych metod badania tekstu w analizach idiolektów postaci oraz wpływu showrunnera – osoby łączącej role głównego scenarzysty i producenta wykonawczego – na styl pojedynczych scenarzystów serialu Doctor Who – kultowego serialu science-fiction. Serial, stosunkowo mało znany w Polsce, jest nie tylko najdłużej na świecie emitowanym serialem science-fiction, stanowi również ciekawy problem badawczy, zwłaszcza w kontekście idiolektów. Dbając o utrzymanie zainteresowania widzów, producenci zastosowali nowatorski koncept „odświeżania” formy serialu, przez wprowadzenie regeneracji głównego bohatera – w momencie śmierci odradza się on w nowym ciele i z nową osobowością. Dzięki temu, w ciągu 54 lat istnienia serialu, główny bohater miał już dwanaście, bardzo się od siebie różniących, wcieleń. Głównym przedmiotem badań w niniejszej pracy była analiza tekstów tzw. New Who, czyli odcinków powstałych po wznowieniu serialu w 2005 roku. Dodatkowym celem badawczym było zweryfikowanie skuteczności metod stylometrycznych wykorzystywanych w analizie tekstów literackich w badaniu stylometrycznym tekstów przeznaczonych dla telewizji.W pierwszym rozdziale pracy przedstawiony został zarys dotychczasowych badań nad autorstwem w serialach telewizyjnych i nad rolą showrunnera, ze szczególnym uwzględnieniem publikacji omawiających relacje i różnice między sposobem prowadzenia serialu przez Russella T Daviesa (2005-10) i Stevena Moffata (2010-2017) – showrunnerów New Who. Drugi rozdział pracy stanowi próbę analizy konstrukcji głównych postaci występujących w New Who oraz określenia czynników, które mogą mieć potencjalny wpływ na ich idiolekty. Znalazło się tu także porównanie proporcji w długości wypowiedzi głównych bohaterów (liczonej w słowach) w poszczególnych odcinkach, obrazujące zmiany na przestrzeni ostatnich 12 lat.Trzeci rozdział pracy zawiera wyniki analizy stylometrycznej. Przedmiotem badań był korpus 130 list dialogowych serialu, w zależności od zagadnienia modyfikowany do postaci korpusu wypowiedzi poszczególnych postaci lub twórczości poszczególnych scenarzystów. Dla ubogacenia perspektywy, do określenia związków między Classic Who (1963-89) i New Who oraz wszystkimi regeneracjami głównego bohatera wykorzystano rozszerzony korpus, zawierający wszystkie odcinki serialu (289) wydane przed rokiem 2017 oraz listę dialogową filmu z 1989 roku. W badaniach wykorzystano programy do analizy stylometrycznej oraz dodatkowo do wizualizacji i analizy skupień.Badania potwierdziły istniejącą klasyfikację serialu na ery: klasyczną, Daviesa oraz Moffata, oraz na poziomie badań szczegółowych umożliwiły wykrycie interesujących zależności, co daje nadzieję na możliwość dalszego wykorzystywania metod stylometrycznych w analizie idiolektów i stylu tekstów przeznaczonych dla telewizji.The aim of this work was to conduct analysis of character idiolects and the influence of the showrunner - a person who combines roles of lead writer and executive producer – on the style of individual writers of Doctor Who - an iconic science-fiction series using computer text analysis methods. The series, relatively unknown in Poland, is not only the world's longest-running science-fiction series, it also poses an interesting research problem, especially in the context of studying idiolects. In an attempt to maintain viewers' interest, the producers used the innovative concept of "refreshing" the form of the show by introducing regeneration of the main character – at the time of his death he is reborn in a new body and with a new personality. Thanks to that, during the 54 years of the show's existence, the main character has already been seen in twelve versions, each very different from other. The main subject of this study was an analysis of the so-called New Who, that is the episodes released after the relaunch of the series in 2005. An additional research goal was to verify the effectiveness of stylometric methods used in the analysis of literary texts in the stylometric analysis of texts written for television. In the first chapter of this thesis presented is an overview of the existent research on the authorship of television shows and the role of the showrunner, with particular attention given to the publications discussing the similarities and differences between how the series was run by Russell T Davies (2005-10) and Steven Moffat (2010-2017) - showrunners of New Who. The second chapter attempts to analyze how New Who's main characters were built, and to identify factors that may have a potential impact on their idiolects. This part also includes a comparison of the proportions in the number of lines spoken by the main characters (measured in words) in the particular episodes, showing trends and changes over the last 12 years.The third chapter contains the results of the stylometric analysis. The subject of the study was a corpus of 130 dialogue lists of the series, which, depending on the subject, were modified into corpora of lines of individual characters or works of particular writers. To enrich perspective, to determine relation between the classic Who (1963-89) and New Who, and to examine all regenerations of the main character, used was also an expanded corpus, including all episodes of the series (289) released before 2017, and a 1989 film's dialogue list. In the study used were programs for stylometric analysis, and for visualization and community analysis.The research confirmed the existing classification of the series into three eras: Classic, Davies and Moffat, and detailed analysis revealed interesting dependencies within the series, which gives hope that stylometric methods could be further applied in the analysis of idiolects and the style of texts created for television

    A krakkói Computational Stylistics Group bemutatkozása

    Get PDF
    Elősz

    Feature Selection in Authorship Attribution: Ordering the Wordlist

    No full text
    Abstract of paper 0930 presented at the Digital Humanities Conference 2019 (DH2019), Utrecht , the Netherlands 9-12 July, 2019
    corecore