10 research outputs found

    Аналіз розробленого квантитативного методу автоматичного визначення автора україномовного текстового контенту науково-технічного спрямування

    Get PDF
    A formal approach was proposed to implement text content attribution. The study was conducted with Ukrainian scientific and technical texts. The results of application of the designed algorithms of automatic attribution of the text content based on the NLP and stylemetry methods were analyzed. Prospects and features of application of stylemetry information technologies for attribution of the text content were considered. Quantitative content analysis of scientific and technical text content takes advantage of content monitoring and text content analysis based on NLP, Web-Mining and stylemetry methods to identify the multitude of authors whose talking style is similar to that of the analyzed text fragment. This narrows the range of search for further use in the stylemetry methods to determine the degree of belonging of the analyzed text to a particular author.Decomposition of the attribution method was carried out based on analysis of such talking coefficients as lexical diversity, degree (measure) of syntactic complexity, talking coherence, indexes of exclusivity and concentration of the text. At the same time, author's style parameters such as the number of words in a certain text, the total number of words of this text, the number of sentences, the number of prepositions, the number of conjunctions, the number of words with occurrence frequency 1, the number of words with occurrence frequency 10 or more were analyzed. Further experimental study requires testing of the proposed method in identifying keywords of texts of other categories: scientific humanitarian, artistic, journalistic, etc.Предложен формальный подход реализации определения автора текста. Исследование проводилось в украиноязычных научных текстах технического профиля. Проанализированы результаты применения разработанных алгоритмов автоматического определения автора текстового контента на основе методов NLP и стилементрии. Рассмотрены перспективы и особенности применения информационных технологий стилеметрии для определения автора текстового контента. Квантитативных контент-анализ текстового контента научно-технического направления использует преимущества контент-мониторинга и контент-анализа текста на основе методов NLP, Web-Mining и стилеметрии для определения множества авторов, слыл вещание которых сходны с исследуемым фрагментом текста. Это сужает круг поиска при дальнейшем использовании в методах стилеметрии для определения степени принадлежности анализируемого текста конкретном автору.Проведена декомпозиция метода определения автора на основе анализа таких коэффициентов речи как лексическая разнообразие, степень (мера) синтаксической сложности, связность речи, индексы исключительности и концентрации текста. Параллельно проанализированы такие параметры авторского стиля как количество слов в определенном тексте, общее количество слов этого текста, количество предложений, количество предлогов, количество союзов, количество слов с частотой 1, количество слов с частотой 10 и больше. Дальнейшего экспериментального исследования требует апробация предложенного метода для определения ключевых слов из других категорий текстов – научных гуманитарного профиля, художественных, публицистических и др.Запропоновано формальний підхід реалізації визначення автора україномовного тексту. Дослідження проводилось в україномовних наукових текстах технічного профілю. Проаналізовані результати застосування розроблених алгоритмів автоматичного визначення автора текстового контенту на основі методів NLP та стилеметрії. Розглянуто перспективи та особливості застосування інформаційних технологій стилеметрії для визначення автора текстового контенту. Квантитативний контент-аналіз текстового контенту науково-технічного спрямування використовує переваги контент-моніторингу та контент-аналізу тексту на основі методів NLP, Web-Mining та стилеметрії для визначення множини авторів, стилі мовлення яких подібні з досліджуваним уривком тексту. Це звужує коло пошуку при подальшому використанні в методах стилеметрії для визначення ступеня приналежності аналізованого тексту конкретному авторові.Проведено декомпозицію методу визначення автора на основі аналізу таких коефіцієнтів мовлення як лексична різноманітність, ступінь (міра) синтаксичної складності, зв’язність мовлення, індекси винятковості та концентрації тексту. Паралельно проаналізовані такі параметри авторського стилю як кількість слів у певному тексті, загальна кількість слів цього тексту, кількість речень, кількість прийменників, кількість сполучників, кількість слів із частотою 1, та кількість слів із частотою 10 та більше. Подальшого експериментального дослідження потребує апробація запропонованого методу для визначення ключових слів з інших категорій текстів – наукових гуманітарного профілю, художніх, публіцистичних тощ

    Аналіз розробленого квантитативного методу автоматичного визначення автора україномовного текстового контенту науково-технічного спрямування

    Get PDF
    A formal approach was proposed to implement text content attribution. The study was conducted with Ukrainian scientific and technical texts. The results of application of the designed algorithms of automatic attribution of the text content based on the NLP and stylemetry methods were analyzed. Prospects and features of application of stylemetry information technologies for attribution of the text content were considered. Quantitative content analysis of scientific and technical text content takes advantage of content monitoring and text content analysis based on NLP, Web-Mining and stylemetry methods to identify the multitude of authors whose talking style is similar to that of the analyzed text fragment. This narrows the range of search for further use in the stylemetry methods to determine the degree of belonging of the analyzed text to a particular author.Decomposition of the attribution method was carried out based on analysis of such talking coefficients as lexical diversity, degree (measure) of syntactic complexity, talking coherence, indexes of exclusivity and concentration of the text. At the same time, author's style parameters such as the number of words in a certain text, the total number of words of this text, the number of sentences, the number of prepositions, the number of conjunctions, the number of words with occurrence frequency 1, the number of words with occurrence frequency 10 or more were analyzed. Further experimental study requires testing of the proposed method in identifying keywords of texts of other categories: scientific humanitarian, artistic, journalistic, etc.Предложен формальный подход реализации определения автора текста. Исследование проводилось в украиноязычных научных текстах технического профиля. Проанализированы результаты применения разработанных алгоритмов автоматического определения автора текстового контента на основе методов NLP и стилементрии. Рассмотрены перспективы и особенности применения информационных технологий стилеметрии для определения автора текстового контента. Квантитативных контент-анализ текстового контента научно-технического направления использует преимущества контент-мониторинга и контент-анализа текста на основе методов NLP, Web-Mining и стилеметрии для определения множества авторов, слыл вещание которых сходны с исследуемым фрагментом текста. Это сужает круг поиска при дальнейшем использовании в методах стилеметрии для определения степени принадлежности анализируемого текста конкретном автору.Проведена декомпозиция метода определения автора на основе анализа таких коэффициентов речи как лексическая разнообразие, степень (мера) синтаксической сложности, связность речи, индексы исключительности и концентрации текста. Параллельно проанализированы такие параметры авторского стиля как количество слов в определенном тексте, общее количество слов этого текста, количество предложений, количество предлогов, количество союзов, количество слов с частотой 1, количество слов с частотой 10 и больше. Дальнейшего экспериментального исследования требует апробация предложенного метода для определения ключевых слов из других категорий текстов – научных гуманитарного профиля, художественных, публицистических и др.Запропоновано формальний підхід реалізації визначення автора україномовного тексту. Дослідження проводилось в україномовних наукових текстах технічного профілю. Проаналізовані результати застосування розроблених алгоритмів автоматичного визначення автора текстового контенту на основі методів NLP та стилеметрії. Розглянуто перспективи та особливості застосування інформаційних технологій стилеметрії для визначення автора текстового контенту. Квантитативний контент-аналіз текстового контенту науково-технічного спрямування використовує переваги контент-моніторингу та контент-аналізу тексту на основі методів NLP, Web-Mining та стилеметрії для визначення множини авторів, стилі мовлення яких подібні з досліджуваним уривком тексту. Це звужує коло пошуку при подальшому використанні в методах стилеметрії для визначення ступеня приналежності аналізованого тексту конкретному авторові.Проведено декомпозицію методу визначення автора на основі аналізу таких коефіцієнтів мовлення як лексична різноманітність, ступінь (міра) синтаксичної складності, зв’язність мовлення, індекси винятковості та концентрації тексту. Паралельно проаналізовані такі параметри авторського стилю як кількість слів у певному тексті, загальна кількість слів цього тексту, кількість речень, кількість прийменників, кількість сполучників, кількість слів із частотою 1, та кількість слів із частотою 10 та більше. Подальшого експериментального дослідження потребує апробація запропонованого методу для визначення ключових слів з інших категорій текстів – наукових гуманітарного профілю, художніх, публіцистичних тощ

    Розроблення лінгвометричного методу автоматичного визначення автора текстового контенту на основі статистичного аналізу коефіцієнтів мовної різноманітності

    Get PDF
    We have developed the linguometric method for algorithmic support of content monitoring processes to solve the problem of the automatic identification of the author of the Ukrainian text content based on the technology of statistical analysis of the language diversity coefficients. The decomposition of the method for identification of the author based on the analysis of such speech factors as lexical diversity, degree (measure) of syntactic complexity, speech coherence, indexes of exclusivity and concentration of a text was performed. Such parameters of the author’s style as the number of words in the specified text, the total number of words in this text, the number of sentences, the number of prepositions, the number of conjunctions, the number of words with the frequency of 1, the number of words with the frequency of 10 and more were analyzed. The features of the developed methods are the adaptation of the morphological and syntactic analysis of lexical units to the peculiarities of the structures of Ukrainian words/texts. That is, when analyzing linguistic units of the word type, their belonging to a part of speech and declension within this part of speech was taken into account. For this, the flections of these words for their classification, separation of the base for the formation of the corresponding alphabetic-frequency dictionaries were analyzed. Filling these dictionaries was subsequently taken into consideration at the following stages of the identification of the authorship of a text, such as the calculation of parameters and coefficients of the author's speech. Syntactic words (stop or anchor) words are most essential for an individual style of an author, as they are not related to the subject and content of the publication. We compared the results in a set of 200 one-author papers in the technical area of more than 100 different authors over the period of 2001–2017 to determine if and how the coefficients of diversity of a text of these authors change within different periods of time. It was found that for the selected experimental base of more than 200 papers, the best results according to the density criterion are reached by the method for analysis of an article without the initial compulsory information, such as abstracts and keywords in different languages, as well as the list of literature.Разработано лингвометричний метод алгоритмического обеспечения процессов контент–мониторинга для решения задачи автоматического определения автора русскоязычного текстового контента на основе технологии статистического анализа коэффициентов языкового разнообразия. Проведения декомпозиции метода определения автора на основе анализа таких коэффициентов речи как лексическая разнообразие, степень (мера) синтаксической сложности, связность речи, индексы исключительности и концентрации текста. Проанализированы также параметры авторского стиля как количество слов в определенном тексте, общее количество слов этого текста, количество предложений, количество предлогов, количество союзов, количество слов с частотой 1, количество слов с частотой 10 и больше. Особенностями разработанного является адаптация морфологического и синтаксического анализа лексических единиц к особенностям конструкций украиноязычных слов / текстов. То есть при анализе лингвистических единиц типа слов, учитывалась их принадлежность к части речи и склонение в пределах этой части речи. Для этого проводился анализ флексий этих слов для их классификации, выделение основы для формирования соответствующих алфавитно–частотных словарей. Наполнение этих словарей в дальнейшем учитывались на следующих шагах определения авторства текста как расчет параметров и коэффициентов авторской речи. Для индивидуального стиля писателя показательны именно служебные (стоп или опорные) слова, поскольку они никак не связаны с темой и содержанием публикации. Проведено сравнение результатов на множестве 200 самостоятельных работ технического направления около 100 различных авторов период 2001–2017 гг. Для определения меняются и как коэффициенты разнообразия текста этих авторов в разные промежутки времени. Выявлено, что для выбранной экспериментальной базы из более 200 работ лучших результатов по критерию плотности достигает метод анализа статьи без начальной обязательной информации как аннотации и ключевые слова на разных языках, а также список литературыРозробленно лінгвометричний метод алгоритмічного забезпечення процесів контент-моніторінгу для розв’язання задачі автоматичного визначення автора україномовного текстового контенту на основі технології статистичного аналізу коефіцієнтів мовної різноманітності. Проведено декомпозицію методу визначення автора на основі аналізу таких коефіцієнтів мовлення як лексична різноманітність, ступінь (міра) синтаксичної складності, зв’язність мовлення, індекси винятковості та концентрації тексту. Проаналізовані також параметри авторського стилю як кількість слів у певному тексті, загальна кількість слів цього тексту, кількість речень, кількість прийменників, кількість сполучників, кількість слів із частотою 1, та кількість слів із частотою 10 та більше.Особливостями розробленого є адаптація морфологічного та синтаксичного аналізу лексичних одиниць до особливостей конструкцій україномовних слів/текстів. Тобто при аналізі лінгвістичних одиниць типу слів, враховувалась належність до частини мови та відмінювання в межах цієї частини мови. Для цього провадився аналіз флексій цих слів для класифікації, виділення основи для формування відповідних алфавітно-частотних словників. Наповнення цих словників в подальшому враховувалися на наступних кроках визначення авторства тексту як розрахунок параметрів та коефіцієнтів авторського мовлення. Для індивідуального стилю письменника показовими є саме службові (стопові або опорні) слова, оскільки вони ніяк не пов’язані з темою і змістом публікації.Проведено порівняння результатів на множині 200 одноосібних робіт технічного спрямування біля 100 різних авторів за період 2001–2017 рр. для визначення чи змінюються і як коефіцієнти різноманітності тексту цих авторів в різні проміжки часу. Виявлено, що для обраної експериментальної бази з понад 200 робіт найкращих результатів за критерієм щільності досягає метод аналізу статті без початкової обов’язкової інформації як анотації та ключові слова різними мовами, а також списку літератур

    Розроблення лінгвометричного методу автоматичного визначення автора текстового контенту на основі статистичного аналізу коефіцієнтів мовної різноманітності

    Get PDF
    We have developed the linguometric method for algorithmic support of content monitoring processes to solve the problem of the automatic identification of the author of the Ukrainian text content based on the technology of statistical analysis of the language diversity coefficients. The decomposition of the method for identification of the author based on the analysis of such speech factors as lexical diversity, degree (measure) of syntactic complexity, speech coherence, indexes of exclusivity and concentration of a text was performed. Such parameters of the author’s style as the number of words in the specified text, the total number of words in this text, the number of sentences, the number of prepositions, the number of conjunctions, the number of words with the frequency of 1, the number of words with the frequency of 10 and more were analyzed. The features of the developed methods are the adaptation of the morphological and syntactic analysis of lexical units to the peculiarities of the structures of Ukrainian words/texts. That is, when analyzing linguistic units of the word type, their belonging to a part of speech and declension within this part of speech was taken into account. For this, the flections of these words for their classification, separation of the base for the formation of the corresponding alphabetic-frequency dictionaries were analyzed. Filling these dictionaries was subsequently taken into consideration at the following stages of the identification of the authorship of a text, such as the calculation of parameters and coefficients of the author's speech. Syntactic words (stop or anchor) words are most essential for an individual style of an author, as they are not related to the subject and content of the publication. We compared the results in a set of 200 one-author papers in the technical area of more than 100 different authors over the period of 2001–2017 to determine if and how the coefficients of diversity of a text of these authors change within different periods of time. It was found that for the selected experimental base of more than 200 papers, the best results according to the density criterion are reached by the method for analysis of an article without the initial compulsory information, such as abstracts and keywords in different languages, as well as the list of literature.Разработано лингвометричний метод алгоритмического обеспечения процессов контент–мониторинга для решения задачи автоматического определения автора русскоязычного текстового контента на основе технологии статистического анализа коэффициентов языкового разнообразия. Проведения декомпозиции метода определения автора на основе анализа таких коэффициентов речи как лексическая разнообразие, степень (мера) синтаксической сложности, связность речи, индексы исключительности и концентрации текста. Проанализированы также параметры авторского стиля как количество слов в определенном тексте, общее количество слов этого текста, количество предложений, количество предлогов, количество союзов, количество слов с частотой 1, количество слов с частотой 10 и больше. Особенностями разработанного является адаптация морфологического и синтаксического анализа лексических единиц к особенностям конструкций украиноязычных слов / текстов. То есть при анализе лингвистических единиц типа слов, учитывалась их принадлежность к части речи и склонение в пределах этой части речи. Для этого проводился анализ флексий этих слов для их классификации, выделение основы для формирования соответствующих алфавитно–частотных словарей. Наполнение этих словарей в дальнейшем учитывались на следующих шагах определения авторства текста как расчет параметров и коэффициентов авторской речи. Для индивидуального стиля писателя показательны именно служебные (стоп или опорные) слова, поскольку они никак не связаны с темой и содержанием публикации. Проведено сравнение результатов на множестве 200 самостоятельных работ технического направления около 100 различных авторов период 2001–2017 гг. Для определения меняются и как коэффициенты разнообразия текста этих авторов в разные промежутки времени. Выявлено, что для выбранной экспериментальной базы из более 200 работ лучших результатов по критерию плотности достигает метод анализа статьи без начальной обязательной информации как аннотации и ключевые слова на разных языках, а также список литературыРозробленно лінгвометричний метод алгоритмічного забезпечення процесів контент-моніторінгу для розв’язання задачі автоматичного визначення автора україномовного текстового контенту на основі технології статистичного аналізу коефіцієнтів мовної різноманітності. Проведено декомпозицію методу визначення автора на основі аналізу таких коефіцієнтів мовлення як лексична різноманітність, ступінь (міра) синтаксичної складності, зв’язність мовлення, індекси винятковості та концентрації тексту. Проаналізовані також параметри авторського стилю як кількість слів у певному тексті, загальна кількість слів цього тексту, кількість речень, кількість прийменників, кількість сполучників, кількість слів із частотою 1, та кількість слів із частотою 10 та більше.Особливостями розробленого є адаптація морфологічного та синтаксичного аналізу лексичних одиниць до особливостей конструкцій україномовних слів/текстів. Тобто при аналізі лінгвістичних одиниць типу слів, враховувалась належність до частини мови та відмінювання в межах цієї частини мови. Для цього провадився аналіз флексій цих слів для класифікації, виділення основи для формування відповідних алфавітно-частотних словників. Наповнення цих словників в подальшому враховувалися на наступних кроках визначення авторства тексту як розрахунок параметрів та коефіцієнтів авторського мовлення. Для індивідуального стилю письменника показовими є саме службові (стопові або опорні) слова, оскільки вони ніяк не пов’язані з темою і змістом публікації.Проведено порівняння результатів на множині 200 одноосібних робіт технічного спрямування біля 100 різних авторів за період 2001–2017 рр. для визначення чи змінюються і як коефіцієнти різноманітності тексту цих авторів в різні проміжки часу. Виявлено, що для обраної експериментальної бази з понад 200 робіт найкращих результатів за критерієм щільності досягає метод аналізу статті без початкової обов’язкової інформації як анотації та ключові слова різними мовами, а також списку літератур

    Operation Heron – Latent topic changes in an abusive letter series

    Get PDF
    The paper presents a two-part forensic linguistic analysis of an historic collection of abuse letters, sent to individuals in the public eye and individuals’ private homes between 2007-2009. We employ the technique of structural topic modelling (STM) to identify distinctions in the core topics of the letters, gauging the value of this relatively underused methodology in forensic linguistics. Four key topics were identified in the letters, Politics A and B, Healthcare, and Immigration, and their coherence, correlation and shifts in topic evaluated. Following the STM, a qualitative corpus linguistic analysis was undertaken, coding concordance lines according to topic, with the reliability between coders tested. This coding demonstrated that various connected statements within the same topic tend to gain or lose prevalence over time, and ultimately confirmed the consistency of content within the four topics identified through STM throughout the letter series. The discussion and conclusions to the paper reflect on the findings as well as considering the utility of these methodologies for linguistics and forensic linguistics in particular. The study demonstrates real value in revisiting a forensic linguistic dataset such as this to test and develop methodologies for the fiel

    Розроблення квантитативного методу автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу N-грам

    Get PDF
    The peculiarities of the application of linguo-statistics technologies for the identification of the style of the author of text content of scientific and technical profile are considered. Quantitative linguistic analysis of a text uses the benefits of content monitoring based on the NLP methods to identify and analyze the set of stop words, keywords, set phrases and to study N-gram. The latter are used in the linguometry methods to determine in per cent if the given text belongs to a particular author. The quantitative method for automatic text content authorship attribution was developed based on statistical analysis of the 3-gram distribution. The approach to the implementation of identification of the author of the text in the Ukrainian language of the scientific and technical profile was proposed. Experimental results of the proposed method to determine the belonging of the analyzed text to a specific author in the presence of the reference text were obtained. Application of the linguo-statistical analysis of the 3-grams to a set of articles will make it possible to form a subset of publications that are similar in linguistic descriptions. Imposing additional conditions in the form of statistical and quantitative analyses (a set of keywords, set expressions, stylometric, linguometric analyses, etc.) on a subset will allow a significant reduction of this subset by specifying the list of the most likely author. For qualitative and effective content analysis when determining the degree of authorship of a particular author, we propose to analyze the reference text and the one under consideration at several stages: linguometric analysis of the coefficients of the diversity of the author's speech, stylometric analysis, analysis of set expressions, linguo-statistical analysis of 3-grams. For automated text processing, not only the frequency of occurrence of a certain category, but also its existence in the studied text in general are important. Quantitative computation makes it possible to draw objective conclusions about the orientation of materials by the number of using the units of analysis in the studied texts. Qualitative analysis does the same, but as a result of the study of whether (and in what context) there is a certain important original category in generalРассмотрены особенности применения технологий лингвостатистикы для идентификации стилистики автора текстового контента научно-технического профиля. Квантитативных лингвистический анализ текста использует преимущества контент-мониторинга на основе методов NLP для определения и анализа множества стоповых слов, ключевых слов, устойчивых словосочетаний и исследования N-грамм. Последние используют в методах лингвометрии для определения принадлежности анализируемого текста конкретном автору в процентах. Разработан квантитативных метод автоматического определения авторства текстового контента на основе статистического анализа распределения 3-грамм. Предложен подход реализации определения автора русскоязычного текста научно-технического профиля. Получены экспериментальные результаты предложенного метода для определения принадлежности анализируемого текста конкретном автору при наличии эталонного авторского текста. Применение лингвостатистичного анализа 3-грамм множеству статей позволит сформировать подмножество подобных по лингвистическим характеристикам публикаций. Наложение на подмножество дополнительных условий в виде проведения статистических и квантитативных анализов (множества ключевых слов, устойчивых словосочетаний, стилеметричних, лигвометричного т.д.) позволит значительно сократить эту подмножество, уточнив список наиболее вероятных авторских работ. Для качественного и эффективного анализа контента при определении степени авторства конкретном автору предлагаем анализировать эталонного текста и исследуемого в несколько этапов: лингвометричний анализ коэффициентов многообразие авторской речи, стилометричний анализ, анализ устойчивых словосочетаний, лингвостатистичний анализ 3-грам. Для автоматизированной обработки текста имеет большое значение не только частота появления той или иной категории, а вообще присутствие в исследуемом тексте. Количественный подсчет позволяет сделать объективные выводы о направленности материалов по количеству употреблений единиц анализа в исследуемых текстах. Качественный анализ делает то же, но с позиции того, встречается ли вообще (и в каком контексте) определенная важная оригинальная категорияРозглянуто особливості застосування технологій лінгвостатистики для ідентифікації стилістики автора текстового контенту науково-технічного профілю. Квантитативний лінгвістичний аналіз тексту використовує переваги контент-моніторінгу на основі методів NLP для визначення та аналізу множини стопових слів, ключових слів, стійких словосполучень та дослідження N-грам. Останні використовують в методах лінгвометрії для визначення приналежності аналізованого тексту конкретному авторові у відсотках. Розроблено квантитативний метод автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу 3-грам. Запропоновано підхід реалізації визначення автора україномовного тексту науково-технічного профілю. Отримано експериментальні результати запропонованого методу для визначення приналежності аналізованого тексту конкретному автору за наявності еталонного авторського тексту. Застосування лінгвостатистичного аналізу 3-грам до множини статей дозволить сформувати підмножину подібних за лінгвістичними характеристиками публікацій. Накладання на підмножину додаткових умов у вигляді проведення статистичних та квантитативних аналізів (множини ключових слів, стійких словосполучень, стилеметричного, лігвометричного тощо) дозволить значно скоротити цю підмножину, уточнивши список ймовірніших авторських робіт. Для якісного та ефективного аналізу контенту при визначенні ступеня авторства конкретному автору пропонуємо аналізувати еталонного тексту та досліджуваного в декілька етапів: лінгвометричний аналіз коефіцієнтів різноманіття авторського мовлення, стилометричний аналіз, аналіз стійких словосполучень, лінгвостатистичний аналіз 3-грам. Для автоматизованого опрацювання тексту має велике значення не тільки частота появи тієї чи іншої категорії, а взагалі присутність в досліджуваному тексті. Кількісний підрахунок дозволяє зробити об’єктивні висновки щодо спрямованості матеріалів за кількістю уживань одиниць аналізу в досліджуваних текстах. Якісний аналіз робить те саме, але внаслідок дослідження того, чи зустрічається (і в якому контексті) певна важлива оригінальна категорія взагал

    From Text to Thought: How Analyzing Language Can Advance Psychological Science

    Get PDF
    Humans have been using language for millennia but have only just begun to scratch the surface of what natural language can reveal about the mind. Here we propose that language offers a unique window into psychology. After briefly summarizing the legacy of language analyses in psychological science, we show how methodological advances have made these analyses more feasible and insightful than ever before. In particular, we describe how two forms of language analysis?natural-language processing and comparative linguistics?are contributing to how we understand topics as diverse as emotion, creativity, and religion and overcoming obstacles related to statistical power and culturally diverse samples. We summarize resources for learning both of these methods and highlight the best way to combine language analysis with more traditional psychological paradigms. Applying language analysis to large-scale and cross-cultural datasets promises to provide major breakthroughs in psychological science

    Розроблення квантитативного методу автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу N-грам

    Get PDF
    The peculiarities of the application of linguo-statistics technologies for the identification of the style of the author of text content of scientific and technical profile are considered. Quantitative linguistic analysis of a text uses the benefits of content monitoring based on the NLP methods to identify and analyze the set of stop words, keywords, set phrases and to study N-gram. The latter are used in the linguometry methods to determine in per cent if the given text belongs to a particular author. The quantitative method for automatic text content authorship attribution was developed based on statistical analysis of the 3-gram distribution. The approach to the implementation of identification of the author of the text in the Ukrainian language of the scientific and technical profile was proposed. Experimental results of the proposed method to determine the belonging of the analyzed text to a specific author in the presence of the reference text were obtained. Application of the linguo-statistical analysis of the 3-grams to a set of articles will make it possible to form a subset of publications that are similar in linguistic descriptions. Imposing additional conditions in the form of statistical and quantitative analyses (a set of keywords, set expressions, stylometric, linguometric analyses, etc.) on a subset will allow a significant reduction of this subset by specifying the list of the most likely author. For qualitative and effective content analysis when determining the degree of authorship of a particular author, we propose to analyze the reference text and the one under consideration at several stages: linguometric analysis of the coefficients of the diversity of the author's speech, stylometric analysis, analysis of set expressions, linguo-statistical analysis of 3-grams. For automated text processing, not only the frequency of occurrence of a certain category, but also its existence in the studied text in general are important. Quantitative computation makes it possible to draw objective conclusions about the orientation of materials by the number of using the units of analysis in the studied texts. Qualitative analysis does the same, but as a result of the study of whether (and in what context) there is a certain important original category in generalРассмотрены особенности применения технологий лингвостатистикы для идентификации стилистики автора текстового контента научно-технического профиля. Квантитативных лингвистический анализ текста использует преимущества контент-мониторинга на основе методов NLP для определения и анализа множества стоповых слов, ключевых слов, устойчивых словосочетаний и исследования N-грамм. Последние используют в методах лингвометрии для определения принадлежности анализируемого текста конкретном автору в процентах. Разработан квантитативных метод автоматического определения авторства текстового контента на основе статистического анализа распределения 3-грамм. Предложен подход реализации определения автора русскоязычного текста научно-технического профиля. Получены экспериментальные результаты предложенного метода для определения принадлежности анализируемого текста конкретном автору при наличии эталонного авторского текста. Применение лингвостатистичного анализа 3-грамм множеству статей позволит сформировать подмножество подобных по лингвистическим характеристикам публикаций. Наложение на подмножество дополнительных условий в виде проведения статистических и квантитативных анализов (множества ключевых слов, устойчивых словосочетаний, стилеметричних, лигвометричного т.д.) позволит значительно сократить эту подмножество, уточнив список наиболее вероятных авторских работ. Для качественного и эффективного анализа контента при определении степени авторства конкретном автору предлагаем анализировать эталонного текста и исследуемого в несколько этапов: лингвометричний анализ коэффициентов многообразие авторской речи, стилометричний анализ, анализ устойчивых словосочетаний, лингвостатистичний анализ 3-грам. Для автоматизированной обработки текста имеет большое значение не только частота появления той или иной категории, а вообще присутствие в исследуемом тексте. Количественный подсчет позволяет сделать объективные выводы о направленности материалов по количеству употреблений единиц анализа в исследуемых текстах. Качественный анализ делает то же, но с позиции того, встречается ли вообще (и в каком контексте) определенная важная оригинальная категорияРозглянуто особливості застосування технологій лінгвостатистики для ідентифікації стилістики автора текстового контенту науково-технічного профілю. Квантитативний лінгвістичний аналіз тексту використовує переваги контент-моніторінгу на основі методів NLP для визначення та аналізу множини стопових слів, ключових слів, стійких словосполучень та дослідження N-грам. Останні використовують в методах лінгвометрії для визначення приналежності аналізованого тексту конкретному авторові у відсотках. Розроблено квантитативний метод автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу 3-грам. Запропоновано підхід реалізації визначення автора україномовного тексту науково-технічного профілю. Отримано експериментальні результати запропонованого методу для визначення приналежності аналізованого тексту конкретному автору за наявності еталонного авторського тексту. Застосування лінгвостатистичного аналізу 3-грам до множини статей дозволить сформувати підмножину подібних за лінгвістичними характеристиками публікацій. Накладання на підмножину додаткових умов у вигляді проведення статистичних та квантитативних аналізів (множини ключових слів, стійких словосполучень, стилеметричного, лігвометричного тощо) дозволить значно скоротити цю підмножину, уточнивши список ймовірніших авторських робіт. Для якісного та ефективного аналізу контенту при визначенні ступеня авторства конкретному автору пропонуємо аналізувати еталонного тексту та досліджуваного в декілька етапів: лінгвометричний аналіз коефіцієнтів різноманіття авторського мовлення, стилометричний аналіз, аналіз стійких словосполучень, лінгвостатистичний аналіз 3-грам. Для автоматизованого опрацювання тексту має велике значення не тільки частота появи тієї чи іншої категорії, а взагалі присутність в досліджуваному тексті. Кількісний підрахунок дозволяє зробити об’єктивні висновки щодо спрямованості матеріалів за кількістю уживань одиниць аналізу в досліджуваних текстах. Якісний аналіз робить те саме, але внаслідок дослідження того, чи зустрічається (і в якому контексті) певна важлива оригінальна категорія взагал

    Understanding the Power of Framing: The Role of Policy Context and Stakeholder Characteristics in the EU Feedback Mechanism

    Get PDF
    Postponed access: the file will be accessible after 2023-07-01MasteroppgaveSAMPOL350MASV-SAP
    corecore