2 research outputs found

    Using TXM Platform for Research on Language Changes over Time: the Dynamics of Vocabulary and Punctuation in Russian Literary Texts

    No full text
    The aim of this article is to test the methodological tools provided by TXM open-source software for research on dynamics of vocabulary and punctuation marks in diachronic corpora. TXM provides both quantitative and qualitative analysis features. It is shown that Russian revolution of 1917 did make significant changes in the core vocabulary of the corpus of Russian Short Stories (1901-1930). The same methodology may be used both for diachronic studies of literature and for various NLP tasks.ЦСль настоящСй ΡΡ‚Π°Ρ‚ΡŒΠΈ - ΠΈΡΠΏΡ‹Ρ‚Π°Ρ‚ΡŒ инструмСнты Π°Π½Π°Π»ΠΈΠ·Π°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ прСдоставляСт ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° TXM для исслСдования Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΠΈ словарного состава ΠΈ ΠΏΡƒΠ½ΠΊΡ‚ΡƒΠ°Ρ†ΠΈΠΈ Π² диахроничСских корпусах тСкстов. TXM прСдставляСт собой комплСкс ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½ΠΎΠ³ΠΎ обСспСчСния для количСствСнного ΠΈ качСствСнного Π°Π½Π°Π»ΠΈΠ·Π° тСкстов, построСнный Π½Π° ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΠ°Ρ… ΠΏΡ€ΠΎΠ·Ρ€Π°Ρ‡Π½ΠΎΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ ΠΈ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠ³ΠΎ ΠΊΠΎΠ΄Π°. Π’ ΡΡ‚Π°Ρ‚ΡŒΠ΅ дСмонстрируСтся, ΠΊΠ°ΠΊ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΡƒ для диахроничСского исслСдования тСкстов с ΡƒΡ‡Π΅Ρ‚ΠΎΠΌ Π²Π½Π΅ΡˆΠ½ΠΈΡ… Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ², ΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΡ… влияниС Π½Π° ΡΠ²ΠΎΠ»ΡŽΡ†ΠΈΡŽ языка. ИсслСдованиС ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΎΡΡŒ Π½Π° ΠšΠΎΡ€ΠΏΡƒΡΠ΅ русских рассказов ΠΏΠ΅Ρ€Π²ΠΎΠΉ Ρ‚Ρ€Π΅Ρ‚ΠΈ XX Π². ΠšΠΎΡ€ΠΏΡƒΡ создавался нСзависимо ΠΎΡ‚ TXM с Ρ†Π΅Π»ΡŒΡŽ ΠΎΡ‚Ρ€Π°Π·ΠΈΡ‚ΡŒ максимально ΡˆΠΈΡ€ΠΎΠΊΠΈΠΉ спСктр ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠΉ русских писатСлСй ΠΈ ΡΠ»ΡƒΠΆΠΈΡ‚ΡŒ, Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΠΈΡΠΏΡ‹Ρ‚Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΏΠ»ΠΎΡ‰Π°Π΄ΠΊΠΎΠΉ для Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊ матСматичСского Π°Π½Π°Π»ΠΈΠ·Π° тСкстов. Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ этого ΠΏΠΈΠ»ΠΎΡ‚Π½ΠΎΠ³ΠΎ исслСдования ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‚ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ использования TXM для исслСдования Π΄ΠΈΠ½Π°ΠΌΠΈΠΊΠΈ развития языка ΠΈ ΠΏΠΎΠ΄Ρ‚Π²Π΅Ρ€ΠΆΠ΄Π°ΡŽΡ‚ явноС влияниС диахроничСского Ρ„Π°ΠΊΡ‚ΠΎΡ€Π° Π½Π° статистичСскоС распрСдСлСниС тСкстов ΠΈΠ·ΡƒΡ‡Π°Π΅ΠΌΠΎΠ³ΠΎ корпуса. ΠžΡΠ½ΠΎΠ²Π½Ρ‹ΠΌΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½Π½Ρ‹ΠΌΠΈ Π² ΡΡ‚Π°Ρ‚ΡŒΠ΅, явились Π°Π½Π°Π»ΠΈΠ· соотвСтствий ΠΈ индСкс спСцифичности, Π²Ρ‹Ρ‡ΠΈΡΠ»ΡΠ²ΡˆΠΈΠ΅ΡΡ Π½Π° Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Ρ€Π°Π·Π±ΠΈΠ²ΠΊΠ°Ρ… корпуса (ΠΏΠΎ Π³ΠΎΠ΄Π°ΠΌ, ΠΏΠΎ ΠΏΠ΅Ρ€ΠΈΠΎΠ΄Π°ΠΌ ΠΈ ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½ΠΎ ΠΏΠΎ тСкстам) Π½Π° Π±Π°Π·Π΅ 200 самых частотных Π»Π΅ΠΌΠΌ (слов ΠΈ Π·Π½Π°ΠΊΠΎΠ² прСпинания). ИспользованиС Π±Π°Π·ΠΎΠ²ΠΎΠΉ лСксики (Π²ΠΊΠ»ΡŽΡ‡Π°ΡŽΡ‰Π΅ΠΉ слуТСбныС слова) ΠΈ ΠΏΡƒΠ½ΠΊΡ‚ΡƒΠ°Ρ†ΠΈΠΈ позволяСт ΡΠΊΠΎΠ½Ρ†Π΅Π½Ρ‚Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΡΡ Π½Π° Π³Π»ΡƒΠ±ΠΈΠ½Π½Ρ‹Ρ… измСнСниях языка, Π°Π±ΡΡ‚Ρ€Π°Π³ΠΈΡ€ΡƒΡΡΡŒ ΠΎΡ‚ ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½Ρ‹Ρ… стилистичСских Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ². Π’ качСствС ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ΠΎΠ² Π±Ρ‹Π»ΠΈ Π²Ρ‹Π΄Π΅Π»Π΅Π½Ρ‹: ΠΌΠΈΡ€Π½ΠΎΠ΅ врСмя Π΄ΠΎ Ρ€Π΅Π²ΠΎΠ»ΡŽΡ†ΠΈΠΈ (1901-1913), ΠŸΠ΅Ρ€Π²Π°Ρ мировая Π²ΠΎΠΉΠ½Π° (1914-1916), Ρ€Π΅Π²ΠΎΠ»ΡŽΡ†ΠΈΡ ΠΈ ГраТданская Π²ΠΎΠΉΠ½Π° (1917-1922) ΠΈ ΠΏΠΎΡΡ‚Ρ€Π΅Π²ΠΎΠ»ΡŽΡ†ΠΈΠΎΠ½Π½ΠΎΠ΅ ΠΌΠΈΡ€Π½ΠΎΠ΅ врСмя (1923-1930). ΠžΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ Π½Π΅ΡΠ±Π°Π»Π°Π½ΡΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΡΡ‚ΡŒ ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ΠΎΠ² ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠ² ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… тСкстов компСнсируСтся ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΠΎΠΉ статистичСского Π°Π½Π°Π»ΠΈΠ·Π°. Π’ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ исслСдования Π±Ρ‹Π»ΠΎ ΠΏΠΎΠΊΠ°Π·Π°Π½ΠΎ, Ρ‡Ρ‚ΠΎ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ сущСствСнныС измСнСния Π² ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π»Π΅Π½ΠΈΠΈ Π±Π°Π·ΠΎΠ²ΠΎΠΉ лСксики ΠΈ ΠΏΡƒΠ½ΠΊΡ‚ΡƒΠ°Ρ†ΠΈΠΈ происходят сразу послС Ρ€Π΅Π²ΠΎΠ»ΡŽΡ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ 1917 Π³. ΠŸΡ€ΠΈ Π°Π½Π°Π»ΠΈΠ·Π΅ соотвСтствий ΠΏΠ΅Ρ€ΠΈΠΎΠ΄Ρ‹ Ρ€Π°ΡΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚ΡΡ строго Π² хронологичСском порядкС ΠΏΠΎ ΠΏΠ΅Ρ€Π²ΠΎΠΌΡƒ ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΡŽ Ρ„Π°ΠΊΡ‚ΠΎΡ€Π½ΠΎΠ³ΠΎ ΠΏΠ»Π°Π½Π°. Π’ Ρ‚ΠΎ ΠΆΠ΅ врСмя сопоставлСниС ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ΠΎΠ² Π½Π΅ выявило Ρ‡Π΅Ρ‚ΠΊΠΎΠ³ΠΎ противопоставлСния ΠΏΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΡƒ ΠΌΠΈΡ€Π½ΠΎΠ΅ / Π²ΠΎΠ΅Π½Π½ΠΎΠ΅ врСмя. Анализ спСцифичности ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΠ» Π²Ρ‹ΡΠ²ΠΈΡ‚ΡŒ Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€Π½Ρ‹Π΅ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΠ΅Ρ€ΠΈΠΎΠ΄Π° Π»Π΅ΠΌΠΌΡ‹, Π² Ρ‚ΠΎΠΌ числС мСстоимСния, слуТСбныС слова ΠΈ Π·Π½Π°ΠΊΠΈ прСпинания, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΠ½Ρ‚ΡƒΠΈΡ‚ΠΈΠ²Π½ΠΎ Π½Π΅ Π°ΡΡΠΎΡ†ΠΈΠΈΡ€ΡƒΡŽΡ‚ΡΡ с измСнСниями Π² языкС рассматриваСмой историчСской эпохи. НапримСр, мСстоимСния Ρ‚Ρ€Π΅Ρ‚ΡŒΠ΅Π³ΠΎ Π»ΠΈΡ†Π° ΠΎΠ½ ΠΈ ΠΎΠ½Π° Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€Π½Ρ‹ для ΠΏΠ΅Ρ€ΠΈΠΎΠ΄Π° Π΄ΠΎ Ρ€Π΅Π²ΠΎΠ»ΡŽΡ†ΠΈΠΈ, Π° Ρ‡Π°ΡΡ‚ΠΎΡ‚Π½ΠΎΡΡ‚ΡŒ Ρ‚ΠΎΡ‡ΠΊΠΈ, Ρ‚ΠΈΡ€Π΅ ΠΈ двоСточия ΠΏΠΎΠ²Ρ‹ΡˆΠ°Π΅Ρ‚ΡΡ статистичСски Π·Π½Π°Ρ‡ΠΈΠΌΡ‹ΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ послС 1917 Π³. ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²Π»Π΅Π½Π½Π°Ρ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΠ° Π°Π½Π°Π»ΠΈΠ·Π° Π² дальнСйшСм ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ ΠΊΠ°ΠΊ для диахроничСских исслСдований Π² Π»ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΡƒΡ€ΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠΈ, Ρ‚Π°ΠΊ ΠΈ для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡ автоматичСской ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ тСкста, Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½Π½Ρ‹Ρ… Π½Π° выявлСниС ΡΠ²ΠΎΠ»ΡŽΡ†ΠΈΠΈ Π² лингвистичСских, стилистичСских ΠΈ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… аспСктах ΠΏΠΎΠ΄ влияниСм ΠΊΠ°ΠΊΠΈΡ…-Π»ΠΈΠ±ΠΎ Π²Π½Π΅ΡˆΠ½ΠΈΡ… Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠ²

    ΠšΠžΠ Π Π•Π›Π―Π¦Π˜ΠžΠΠΠ«Π™ ΠΠΠΠ›Π˜Π— ЧАБВОВНЫΠ₯ Π‘Π›ΠžΠ’ΠΠ Π•Π™ Π›Π˜ΠΠ“Π’Π˜Π‘Π’Π˜Π§Π•Π‘ΠšΠ˜Π₯ ΠŸΠžΠšΠΠ—ΠΠ’Π•Π›Π•Π™ Π Π£Π‘Π‘ΠšΠžΠ™ ΠŸΠ ΠžΠ—Π« 1900-1930 Π³Π³. Π’ Π”Π˜ΠΠΠœΠ˜ΠšΠ•

    No full text
    The paper describes a comparative analysis of text subcorpuses referring to four periods of Russian literature 1900-1930, which was carried out using the coefficients of pairwise rank correlation of frequency dictionaries of different lexical characteristics. It is shown that social cataclysms influenced the use of verbs to a lesser extent than that of adjectives and nouns. It has been also established that other indicators that distinguish the considered temporal subcorpuses of fiction are noun and verb groups, as well as frequency sequences of symbols.ΠŸΡ€ΠΎΠ²Π΅Π΄Π΅Π½ ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· тСкстовых подкорпусов Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅Ρ… ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ΠΎΠ² русской Π»ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹ 1900-1930 Π³Π³. с использованиСм коэффициСнтов ΠΏΠΎΠΏΠ°Ρ€Π½ΠΎΠΉ Ρ€Π°Π½Π³ΠΎΠ²ΠΎΠΉ коррСляции частотных словарСй лСксичСских характСристик. Показано, Ρ‡Ρ‚ΠΎ ΡΠΎΡ†ΠΈΠ°Π»ΡŒΠ½Ρ‹Π΅ ΠΊΠ°Ρ‚Π°ΠΊΠ»ΠΈΠ·ΠΌΡ‹ Π² мСньшСй стСпСни повлияли Π½Π° ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π»Π΅Π½ΠΈΠ΅ Π³Π»Π°Π³ΠΎΠ»ΠΎΠ², Ρ‡Π΅ΠΌ ΠΏΡ€ΠΈΠ»Π°Π³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΈ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ…. УстановлСно, Ρ‡Ρ‚ΠΎ Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ показатСлями, ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‰ΠΈΠΌΠΈ рассматриваСмыС Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ подкорпусы худоТСствСнной ΠΏΡ€ΠΎΠ·Ρ‹, ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΈΠΌΠ΅Π½Π½Ρ‹Π΅ ΠΈ Π³Π»Π°Π³ΠΎΠ»ΡŒΠ½Ρ‹Π΅ Π³Ρ€ΡƒΠΏΠΏΡ‹, Π° Ρ‚Π°ΠΊΠΆΠ΅ частотныС ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ символов
    corecore