2 research outputs found

    An open stylometric system based on multilevel text analysis

    Get PDF
    An open stylometric system based on multilevel text analysisStylometric techniques are usually applied to a limited number of typical tasks, such as authorship attribution, genre analysis, or gender studies. However, they could be applied to several tasks beyond this canonical set, if only stylometric tools were more accessible to users from different areas of the humanities and social sciences. This paper presents a general idea, followed by a fully functional prototype of an open stylometric system that facilitates its wide use through to two aspects: technical and research flexibility. The system relies on a server installation combined with a web-based user interface. This frees the user from the necessity of installing any additional software. At the same time, the system offers a variety of ways in which the input texts can be analysed: they include not only the usual lexical level, but also deep-level linguistic features. This enables a range of possible applications, from typical stylometric tasks to the semantic analysis of text documents. The internal architecture of the system relies on several well-known software packages: a collection of language tools (for text pre-processing), Stylo (for stylometric analysis) and Cluto (for text clustering). The paper presents: (1) The idea behind the system from the user鈥檚 perspective. (2) The architecture of the system, with a focus on data processing. (3) Features for text description. (4) The use of analytical systems such as Stylo and Cluto. The presentation is illustrated with example applications.聽Otwarty system stylometryczny wykorzystuj膮cy wielopoziomow膮 analiz臋 j臋zyka聽Zastosowania metod stylometrycznych na og贸艂 ograniczaj膮 si臋 do kilku typowych problem贸w badawczych, takich jak atrybucja autorska, styl gatunk贸w literackich czy studia nad zr贸偶nicowaniem stylistycznym kobiet i m臋偶czyzn. Z pewno艣ci膮 da艂oby si臋 je z powodzeniem zastosowa膰 r贸wnie偶 do wielu innych problem贸w klasyfikacji tekst贸w, gdyby tylko owe metody oraz odpowiednie narz臋dzia by艂y bardziej dost臋pne dla uczonych reprezentuj膮cych r贸偶ne dyscypliny nauk humanistycznych i spo艂ecznych. Artyku艂 niniejszy omawia za艂o偶enia teoretyczne oraz w pe艂ni funkcjonalny prototyp otwartego systemu stylometrycznego, kt贸rego szerokie zastosowanie umo偶liwi膮 dwie jego cechy: elastyczno艣膰 techniczna oraz dostosowywalno艣膰 do r贸偶nych pyta艅 badawczych. System opiera si臋 na instalacji serwerowej sprz臋gni臋tej z sieciowym interfejsem u偶ytkownika. Uwalnia to u偶ytkownika od konieczno艣ci instalowania jakichkolwiek dodatkowych program贸w. Jednocze艣nie system oferuje wiele sposob贸w analizowania tekst贸w nie tylko na poziomie leksykalnym, lecz tak偶e poprzez cechy j臋zykowe niskiego poziomu. Daje to mo偶liwo艣膰 stosowania systemu na wiele r贸偶nych sposob贸w, od typowych test贸w stylometrycznych do analizy semantycznej dokument贸w. Wewn臋trzna architektura systemu sk艂ada si臋 z wielu element贸w znanych ze swej funkcjonalno艣ci, w tym z pakietu Stylo przeznaczonego do analiz stylometrycznych oraz pakietu Cluto s艂u偶膮cego do zaawansowanej analizy skupie艅. Artyku艂 omawia: (1) Koncepcj臋 ca艂ego systemu, postrzegan膮 z punktu widzenia u偶ytkownika, (2) Architektur臋 systemu oraz jego elementy odpowiedzialne za przetwarzanie tekstu, (3) Cechy j臋zykowe s艂u偶膮ce do opisu dokument贸w, (4) Zastosowanie modu艂贸w analizy danych, takich jak Stylo czy Cluto. W artykule zosta艂y te偶 przedstawione przyk艂adowe zastosowania systemu

    An open stylometric system based on multilevel text analysis

    Get PDF
    An open stylometric system based on multilevel text analysis Stylometric techniques are usually applied to a limited number of typical tasks, such as authorship attribution, genre analysis, or gender studies. However, they could be applied to several tasks beyond this canonical set, if only stylometric tools were more accessible to users from different areas of the humanities and social sciences. This paper presents a general idea, followed by a fully functional prototype of an open stylometric system that facilitates its wide use through to two aspects: technical and research flexibility. The system relies on a server installation combined with a web-based user interface. This frees the user from the necessity of installing any additional software. At the same time, the system offers a variety of ways in which the input texts can be analysed: they include not only the usual lexical level, but also deep-level linguistic features. This enables a range of possible applications, from typical stylometric tasks to the semantic analysis of text documents. The internal architecture of the system relies on several well-known software packages: a collection of language tools (for text pre-processing), Stylo (for stylometric analysis) and Cluto (for text clustering). The paper presents: (1) The idea behind the system from the user鈥檚 perspective. (2) The architecture of the system, with a focus on data processing. (3) Features for text description. (4) The use of analytical systems such as Stylo and Cluto. The presentation is illustrated with example applications. 聽 Otwarty system stylometryczny wykorzystuj膮cy wielopoziomow膮 analiz臋 j臋zyka 聽Zastosowania metod stylometrycznych na og贸艂 ograniczaj膮 si臋 do kilku typowych problem贸w badawczych, takich jak atrybucja autorska, styl gatunk贸w literackich czy studia nad zr贸偶nicowaniem stylistycznym kobiet i m臋偶czyzn. Z pewno艣ci膮 da艂oby si臋 je z powodzeniem zastosowa膰 r贸wnie偶 do wielu innych problem贸w klasyfikacji tekst贸w, gdyby tylko owe metody oraz odpowiednie narz臋dzia by艂y bardziej dost臋pne dla uczonych reprezentuj膮cych r贸偶ne dyscypliny nauk humanistycznych i spo艂ecznych. Artyku艂 niniejszy omawia za艂o偶enia teoretyczne oraz w pe艂ni funkcjonalny prototyp otwartego systemu stylometrycznego, kt贸rego szerokie zastosowanie umo偶liwi膮 dwie jego cechy: elastyczno艣膰 techniczna oraz dostosowywalno艣膰 do r贸偶nych pyta艅 badawczych. System opiera si臋 na instalacji serwerowej sprz臋gni臋tej z sieciowym interfejsem u偶ytkownika. Uwalnia to u偶ytkownika od konieczno艣ci instalowania jakichkolwiek dodatkowych program贸w. Jednocze艣nie system oferuje wiele sposob贸w analizowania tekst贸w nie tylko na poziomie leksykalnym, lecz tak偶e poprzez cechy j臋zykowe niskiego poziomu. Daje to mo偶liwo艣膰 stosowania systemu na wiele r贸偶nych sposob贸w, od typowych test贸w stylometrycznych do analizy semantycznej dokument贸w. Wewn臋trzna architektura systemu sk艂ada si臋 z wielu element贸w znanych ze swej funkcjonalno艣ci, w tym z pakietu Stylo przeznaczonego do analiz stylometrycznych oraz pakietu Cluto s艂u偶膮cego do zaawansowanej analizy skupie艅. Artyku艂 omawia: (1) Koncepcj臋 ca艂ego systemu, postrzegan膮 z punktu widzenia u偶ytkownika, (2) Architektur臋 systemu oraz jego elementy odpowiedzialne za przetwarzanie tekstu, (3) Cechy j臋zykowe s艂u偶膮ce do opisu dokument贸w, (4) Zastosowanie modu艂贸w analizy danych, takich jak Stylo czy Cluto. W artykule zosta艂y te偶 przedstawione przyk艂adowe zastosowania systemu
    corecore