193 research outputs found
Placeboeffekte als erlebte Erkenntnis
Placeboeffekte sind mehr als nur ungewöhnliche Heilungsprozesse oder als Störung abgetane Nebenfolgen ärztlicher Behandlungen. Sie ermöglichen vielmehr neue Perspektiven auf die grundlegenden Aspekte der menschlichen Existenz. Uwe Heyll zeigt auf, dass hinter den Placeboeffekten Funktionen des Erkennens stehen, die Geist und Körper zu einer untrennbaren Einheit verschmelzen lassen: Sie erzeugen ein Erleben, in dem sich das menschliche Selbst als Ausdruck der eigenen Persönlichkeit ausbildet. Auf dem Weg zur wissenschaftlichen Medizin wurden diese Funktionen jedoch schrittweise ausgesondert, so dass Placeboeffekte die Erscheinung einer wissenschaftlichen Anomalie angenommen haben
AI: Limits and Prospects of Artificial Intelligence
The emergence of artificial intelligence has triggered enthusiasm and promise of boundless opportunities as much as uncertainty about its limits. The contributions to this volume explore the limits of AI, describe the necessary conditions for its functionality, reveal its attendant technical and social problems, and present some existing and potential solutions. At the same time, the contributors highlight the societal and attending economic hopes and fears, utopias and dystopias that are associated with the current and future development of artificial intelligence
Класифікація документів на основі векторних представлень словників при обробці природної мови у малоресурсному середовищі
Шаптала Р.В. Класифікація документів на основі векторних представлень
словників при обробці природної мови у малоресурсному середовищі. –
Кваліфікаційна наукова праця на правах рукопису.
Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю
122 «Комп’ютерні науки». – Національний технічний університет України «Київський
політехнічний інститут імені Ігоря Сікорського», 2023.
Метою дисертаційного дослідження є розробка та вдосконалення методів
класифікації документів, написаних природною мовою, у малоресурсному
середовищі за допомогою побудови векторних графових представлень словників
природної мови.
Проблема обробки природної мови у малоресурсному середовищі є складною
через брак даних, які можна використовувати для тренування сучасних алгоритмів
машинного навчання. Малоресурсне середовище може бути викликано відсутністю
чи дорожнечою ручної розмітки на початкових етапах побудови інформаційних
систем, а також низькими популярністю та розвитком природної мови у
інформаційному просторі.
Типові методи обробки природної мови вимагають наявність розмітки текстів
відповідно до задачі, яка розв’язується. Така розмітка часто виконується експертами
у прикладній галузі або людьми з високим рівнем лінгвістичної грамотності.
Анотатори, які здатні виконувати розмітку, можуть не бути доступними для великого
набору проєктів через відсутність фінансування (зазвичай це тимчасова робота, яка
може не виправдати операційні кошти) чи мотивації (анотування – рутинна та
одноманітна робота).
Зважаючи на те, що 63% контенту Інтернету написано англійською мовою, і
більшість мов представлена менш ніж 1% веб-сторінок, величезна кількість мов є
малоресурсними та, відповідно, менш дослідженими з точки зору підходів до обробки
природних мов. Це призводить до того, що інформаційні системи, які вимушені
працювати на основі малопредставлених мов, часто потерпають від низької якості,
порівняно з їх англомовними аналогами.
Тому, покращення вже існуючих та розробка нових методів обробки природної
мови у малоресурсному середовищі є актуальною задачею.
У першому розділі дисертаційної роботи проведено аналітичний огляд методів
та досліджень за темою дисертації. На основі огляду було сформовано класифікацію
методів обробки природної мови у малоресурсному середовищі та виділено їх основні
припущення, переваги і недоліки. У ході аналізу було з'ясовано, що існуючі методи
для обробки природної мови у малоресурсному середовищі вимагають додаткових
даних з суміжним до прикладної області змістом, що часто є не виправданим
припущенням. Тому дослідження було спрямовано на розробку нових методів з
використанням мінімальної кількості сторонніх даних, а саме – лінгвістичних
словників, які існують у великій кількості мов як додатковий ресурс.
Використання словникової інформації не є чимось новим – їх не рідко
використовують системи побудовані на правилах. Проблема таких підходів – вони
явно роблять запити до словників чи онтологій (побудованих на їх основі) щодо
зв'язків між сутностями у прикладних текстах. Таким чином, поєднання сучасних
методів обробки природної мови та словникової інформації ускладнюється, адже
перші оперують з векторними представленнями лінгвістичних сутностей, а другі – є
дискретними елементами у графових структурах. Тому методи перетворення
інформації, що міститься у словниках, у вектори, з якими можуть працювати новітні
підходи машинного навчання у контексті обробки природної мови можуть дозволити
більш ефективно розширити уявлення прикладних систем про мову, аніж явні правила
пошуку у словниках. Через це було сформовано наступне наукове завдання:
«Розробка методів обробки природної мови на основі векторних представлень
словників у малоресурсному середовищі».
У другому розділі представлено загальну методику побудови векторних
представлень словників та їх поєднання з методами обробки природної мови.
Проведено теоретичні дослідження щодо можливості отримання таких представлень,
їх бажаних властивостей та шляхів застосування. Отримано класифікацію методів
побудови векторних представлень графів, виділено їх ознаки та обмеження. До таких
методів відносяться методи на основі факторизації, такі як HOPE, факторизація графу,
Лапласівські проекції, GraRep, LLE; методи на основі випадкових блукань, такі як
Node2Vec, DeepWalk та Walklets; методи на основі глибокого навчання, такі як SDNE,
DNGR та GCN; та інші. Описано яким чином дані методи можна застосувати для
моделювання словників та варіанти модифікацій алгоритмів для роботи зі
словниковими даними.
Також було проаналізовано та упорядковано методи злиття кількох векторних
представлень для отримання фінальних векторів, які можна використовувати для
різноманітних задач обробки природної мови, наприклад класифікації документів.
При цьому було виділено ті, що практично застосовувати у малоресурсному
середовищі з обмеженим розміром розмічених даних, а саме метод конкатенації та
зваженої суми векторних представлень. Для використання даних методів у контексті
злиття векторних представлень документів на основі слів та словників була
запропонована модифікація даних методів через додавання етапу пошуку
відповідності слів.
У третьому розділі описано результати експериментальних досліджень. Для
перевірки впливу різних методів побудови векторних представлень словників, а також
злиття векторних представлень словників та методів обробки природної мови у
малоресурсному середовищі на результати моделювання у практичному завданні,
було обрано вирішення задачі класифікації документів. Експериментальні
дослідження проведено у прикладній області містобудування та урбаністики, а саме
класифікації петицій до Київської міської ради за напрямами, такими як транспорт,
освіта, благоустрій тощо. В якості додаткової словникової інформації, на основі якої
будуються векторні представлення для поєднання з типовими методами класифікації
документів, було обрано словник синонімів української мови. Для розуміння методів
передобробки та формулювання практичних рекомендацій при роботі з подібними
даними, у цьому розділі було детально описано та проаналізовано обидва джерела
інформації. Малоресурсність середовища забезпечено через два аспекти вирішуваної
задачі – петиції написані українською мовою, яка входить до третього десятка
найпоширеніших мов світу та має невелику кількість якісних наборів даних для
покращення якості роботи моделей, а також малим розміром набору даних при
високій змістовній варіативності петицій.
Результати проведених досліджень показали, що векторні представлення
словників на основі методів кодування вершин графів можна поєднувати з типовими
векторними представленнями документів для покращення якості класифікації
документів за допомогою підходів машинного навчання. Кожен крок
запропонованого методу має набір параметрів та гіперпараметрів, від яких залежить
результат та ефективність фінального рішення. Тому додатково наведено аналіз даних
опцій, а також порівняння різних підходів до побудови представлень вершин графів у
контексті словників. Для досягнення найкращих результатів пропонується
використання методу на основі випадкових блукань - Node2Vec, який перетворює
елементи словника у вектори за прийнятний час, не вимагає багато ресурсів та
отримує вищі оцінки при подальшій класифікації документів. Для наступного кроку,
а саме злиття векторних представлень документів та словникової інформації
оптимальним виявився метод зваженої суми. Додатково наводяться практичні
рекомендації по роботі з подібними даними, а саме особливості отримання,
збереження та передобробки документів, побудови словників для кожного з методів
класифікації документів, збереження та обробки словника синонімів, а також аналіз
статистичної значущості результатів.
Наукова новизна одержаних результатів полягає у наступному:
1. Вперше запропоновано метод класифікації документів на основі векторних
представлень словників при обробці природної мови у малоресурсному
середовищі, який відрізняється від методів доповнення даних, що базуються на
словниках, тим що у ньому поєднуються векторні представлення документів з
векторними представленнями елементів лінгвістичних словників, що дозволяє
збільшити F1-міру якості класифікації документів у малоресурсному
середовищі;
2. Запропоновано векторну модель слів зі словника синонімів, яка на відміну від
інших будується на основі векторних представлень вузлів графу словника, що
надає можливість її повторного використання в різних задачах обробки
природної мови через трансферне навчання;
3. Модифіковано методи конкатенації та зваженої суми при злитті векторних
представлень слів додаванням етапу пошуку відповідності слів з документу
словам з словника синонімів, що дозволяє покрити відсутні у словнику
словоформи без побудови моделей визначення частини мови та пошуку
словоформ, що суттєво ускладнено у малоресурсних середовищах.
Практичне значення одержаних результатів полягає у тому, що:
1. Розроблений метод дозволяє значно підвищити F1-міру якості систем
класифікації документів у малоресурсних середовищах. Таким чином
розробники даних систем можуть зменшити час та витрати на розробку, адже
вища якість системи досягатиметься з меншою кількістю розмітки, розширення
якої може бути не доступним, або вимагати додаткових часових чи фінансових
інвестицій;
2. Розроблено векторні представлення слів у словнику синонімів української мови,
які можна перевикористовувати за допомогою трансферного навчання при
створенні програмних систем у інших прикладних областях;
3. Представлено набір даних для класифікації тем петицій, націлений на
тестування методів обробки природної мови у малоресурсному середовищі.
Документи написані українською мовою та мають вузьку урбаністичну
спеціалізацію, що робить набір даних відмінним від корпусів загального
призначення;
4. Запропоновано застосування розробленого методу до класифікації петицій
до Київської міської ради за темами, яка дозволяє автоматично пропонувати
тему петиції при ручній розмітці, що може суттєво скоротити час на їх аналіз.Roman Shaptala. Dictionary embeddings for document classification in low-resource
natural language processing. – Qualification scientific work as manuscript.
Doctor of Philosophy dissertation under 122 «Computer Science» specialty. –
National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute,” Kyiv,
2023.
The objective of this research is to develop and improve document classification
methods in low-resource natural language processing through graph embeddings of
linguistic dictionaries.
The field of low-resource language processing (NLP) is complicated because of the
lack of data that can be used for modern machine learning methods training. Low-resource
NLP settings can be caused by the absence or expensiveness of manual labeling during the
first stages of information systems development, as well as low popularity and development
of a natural language in the informational space.
Common NLP methods require labeled corpuses based on the task at hand. The
labeling process is usually done by domain experts or people with high level of linguistic
proficiency. However, annotators might not be available for a lot of projects because of costs
(this work is temporary and might not cover the operational cost) or motivation (annotation
is a routine and monotonous work).
Considering that 63% of the Internet is written in English, and most of natural
languages are represented in less than 1% of all web pages, a lot of natural languages are
considered low-resource, and are less researched in the field of natural language processing.
This leads to information systems built to work with low-resource languages having lower
quality than their English counterparts.
Consequently, improving existing low-resource natural language processing methods
and the development of new ones is a relevant research problem.
In the first chapter of the dissertation, an analytical review of methods and research
on the topic of the dissertation is carried out. Based on the review, a classification of low-
resource natural language processing methods was formed and their main assumptions,
advantages and disadvantages were highlighted. During the analysis, it was found that
existing methods for processing natural language in a low-resource environment require
additional data with content adjacent to the application area, which is often an unjustified
assumption. Therefore, the research was aimed at developing new methods using a minimum
amount of extraneous data, namely linguistic dictionaries that exist in a large number of
languages as an additional resource.
The use of dictionary information is not new - they are frequently used by rule-based
systems. The problem with such approaches is that they explicitly query dictionaries or
ontologies (built on their basis) regarding the relationships between entities in application
texts. Thus, the combination of modern natural language processing methods and dictionary
information is complicated, because the former operate with vector representations of
linguistic entities, and the latter are discrete elements in graph structures. Therefore, methods
of embedding information contained in dictionaries into vectors that can be used by the latest
machine learning approaches in the context of natural language processing can allow to
expand the understanding of language by the applied systems more effectively than explicit
rules that query dictionaries. As a result, the following scientific task was formed:
“Development of low-resource natural language processing methods based on dictionary
vector representations”.
The second chapter presents the general methodology for building dictionary vector
representations and their combination with natural language processing methods.
Theoretical studies have been conducted on the possibility of obtaining such representations,
their desired properties and ways of application. A classification of methods for constructing
vector representations of graphs was obtained, their features and limitations were
highlighted. These include methods based on factorization, such as HOPE, graph
factorization, Laplacian projections, GraRep, LLE; methods based on random walks, such
as Node2Vec, DeepWalk, and Walklets; deep learning-based methods such as SDNE,
DNGR, and GCN; and other. It is described how these methods can be applied to modeling
dictionaries and options for modifying algorithms for working with dictionary data.
Methods for multiple vector representations fusion were also analyzed and organized.
These allow to obtain final features that can be used for a variety of natural language
processing tasks, such as document classification. At the same time, only some of them are
practical to use in a low-resource environment with a limited size of labeled data, namely,
the methods of concatenation and weighted sum of vector representations. To use these
methods in the context of fusion of vector representations of documents based on words and
dictionaries, a modification was proposed by adding a word-dictionary matching step.
The third chapter describes the results of experimental research. To test the influence
of different methods of building vector representations of dictionaries, as well as the fusion
of vector representations of dictionaries and methods of natural language processing in a
low-resource environment in a practical task, document classification was chosen.
Experimental studies were carried out in the domain of city planning and urbanism, namely,
the classification of petitions to the Kyiv City Council in areas such as transport, education,
landscaping, etc. As additional dictionary information, on the basis of which vector
representations are built for combination with typical methods of document classification, a
dictionary of synonyms of the Ukrainian language was chosen. In order to understand the
methods of preprocessing and formulate practical recommendations when working with
such data, this section describes exploratory data analysis of both sources of information.
The lack of resources in the experiment environment is guaranteed by two aspects of the
problem - the petitions are written in Ukrainian, which is only around thirtieth most widely
spoken languages in the world and has a small number of high-quality data sets to improve
the quality of the models, as well as the size of the data set which includes high content
variability of the petitions.
The results of the research showed that vector representations of dictionaries based on
graph node embedding methods can be combined with common vector representations of
documents to improve the quality of document classification using machine learning
approaches. Each step of the proposed method has a set of parameters and hyperparameters,
which the result and effectiveness of the final solution depend on. Therefore, an analysis of
these options is additionally given, as well as a comparison of different approaches to the
construction of graph node embeddings in the context of dictionaries. To achieve the best
results, it is suggested to use random-walk based method - Node2Vec, which converts
dictionary elements into vectors in an acceptable time, does not require a lot of resources,
and receives higher F1-scores further down the pipeline – during document classification.
For the next step, namely the fusion of vector representations of documents and dictionary
information, the weighted sum method turned out to be better than concatination. In addition,
practical recommendations for working with such data are provided, namely, the process of
obtaining, saving and preprocessing documents for each of the proposed methods, saving
and processing of a synonyms dictionary, as well as the analysis of statistical significance of
the results.
Scientific novelty of the results includes:
1. For the first time, a method of document classification based on dictionary
embeddings during low-resource natural language processing is proposed, which
differs from dictionary-based methods of data augmentation in that it fuses vector
representations of documents with vector representations of elements of linguistic
dictionaries, which allows to increase F1-score of document classification in a lowresource environment;
2. A vector model of words from the dictionary of synonyms is proposed, which, unlike
others, is built on the basis of vector representations of the nodes of the dictionary
graph, which makes it possible to reuse it in various tasks of natural language
processing through transfer learning;
3. The methods of concatenation and weighted sum during vector representations of
words fusion have been modified by adding a stage of matching words from the
document to words from the dictionary of synonyms, which allows for covering word
forms missing from the dictionary without building models for part of speech tagging
and word form generation, which is significantly complicated in low-resource
environments.
The practical significance of the results includes:
1. The proposed method makes it possible to significantly increase the F1-score of
document classification systems in low-resource environments. This way, developers
of these systems can reduce development time and costs, because higher system
quality will be achieved with less labeling, the process which may not be available or
require additional time or financial investment;
2. Vector representations of words in the dictionary of synonyms of the Ukrainian
language were developed, which can be reused with the help of transfer learning when
creating software systems in other applied areas;
3. A data set for the classification of petition topics is presented, aimed at testing lowresource natural language processing methods. The documents are written in
Ukrainian and have a narrow urban specialization, which makes the data set different
from general-purpose corpora;
4. It is proposed to apply the developed method to the topic classification of petitions to
the Kyiv City Council, which allows for automatic suggestions of topic for the petition
during manual labeling. This can significantly reduce the time for their analysis
Handbook Transdisciplinary Learning
What is transdisciplinarity - and what are its methods? How does a living lab work? What is the purpose of citizen science, student-organized teaching and cooperative education? This handbook unpacks key terms and concepts to describe the range of transdisciplinary learning in the context of academic education. Transdisciplinary learning turns out to be a comprehensive innovation process in response to the major global challenges such as climate change, urbanization or migration. A reference work for students, lecturers, scientists, and anyone wanting to understand the profound changes in higher education
Beyond Quantity: Research with Subsymbolic AI
How do artificial neural networks and other forms of artificial intelligence interfere with methods and practices in the sciences? Which interdisciplinary epistemological challenges arise when we think about the use of AI beyond its dependency on big data? Not only the natural sciences, but also the social sciences and the humanities seem to be increasingly affected by current approaches of subsymbolic AI, which master problems of quality (fuzziness, uncertainty) in a hitherto unknown way. But what are the conditions, implications, and effects of these (potential) epistemic transformations and how must research on AI be configured to address them adequately
Artificial Intelligence (and Christianity) : Who? What? Where? When? Why? and How?
Open Access via the Sage AgreementPeer reviewedPublisher PD
Clio-Guide. Ein Handbuch zu digitalen Ressourcen für die Geschichtswissenschaften
Im Frühjahr 2016 erschien erstmals das Handbuch zu digitalen
Ressourcen für die Geschichtswissenschaft. Nur zwei Jahre später
erscheint nun eine zweite, erweiterte und aktualisierte Auflage
des Handbuchs. In der Einführung zur ersten Auflage war bereits
darauf hingewiesen worden, dass es einige thematische Lücken
gab – ein Umstand, der unvermeidlich war, angesichts der
thematischen Breite des Handbuchs – in der PDF-Version umfasst
es immerhin 1.109 Seiten. Zudem ist das Feld der digitalen
Geschichtswissenschaft schnelllebig und durch rasche
Veränderungs- und Entwicklungsprozesse gekennzeichnet. Die
Tatsache, dass die Guides intensiv genutzt werden, hat die
HerausgeberInnen motiviert, eine zweite Auflage früher als
ursprünglich geplant zu publizieren und damit zumindest einige
der inhaltlichen Lücken zu füllen.
So hat etwa Rüdiger Hohls für den Teil A „Digitale
Arbeitsformen und Techniken“ einen Guide Digital Humanities
und digitale Geschichtswissenschaften verfasst, der grundlegend in
ein Thema einführt, das zum Kontext aller Clio-Guides gehört.
Mit dem Guide Zeitungen von Astrid Blome wird in Teil B
„Sammlungen“ ein für Neuzeit- und Zeithistoriker zentraler
Quellentypus behandelt und die derzeit verfügbaren digitalen
Zugriffs- und Nutzungsoptionen umfassend vorstellt. Der Guide
Niederlande, Belgien und Luxemburg, eine Gemeinschaftsarbeit von
Ilona Riek, Markus Wegewitz, Christine Gundermann, Bernhard
Liemann und Esther Helena Arens, füllt im Teil D „Regionen“
unter den Ländern Westeuropas eine Lücke und ergänzt die
bereits vorliegenden Guides. Das in der Einführung zur ersten
Auflage angesprochene Fehlen eines Guides zur Jüdischen
Geschichte konnte mit der zweiten Auflage ebenfalls behoben
werden. Anna Menny, Miriam Rürup und Björn Siegel haben
einen umfassenden Guide Jüdische Geschichte im deutschsprachigen
Raum verfasst. Mit dem Guide Nationalsozialismus und Holocaust
von Laura Busse und Oliver Gaida liegt ein Guide zu einem für die deutsche Zeitgeschichte zentralen Thema vor. Dies gilt
in gleicher Weise für den Guide DDR von Henrik Bispinck.
Sämtliche schon vorliegenden Guides der ersten Auflage
wurden in die zweite Auflage übernommen. Für eine
umfassendere konzeptionelle Überarbeitung bestand hier kein
Anlass; es wurden in einigen Fällen formale Korrekturen
durchgeführt sowie nicht mehr gültige URLs aktualisiert und
Verweise auf nicht mehr existierende Ressourcen gelöscht.
Allen Autorinnen und Autoren sei für Ihre Arbeit herzlich
gedankt; insbesondere denjenigen, die sich der Mühe unterzogen
haben, einen neuen Guide für diese zweite Auflage zu verfassen.
Dies ist nicht selbstverständlich. Wir hoffen auf eine intensive
Rezeption aller Clio-Guides als Lohn für Ihre Mühe.
Die HerausgeberInnen.
Berlin, Göttingen und Potsdam im Mai 201
AI for the Generation and Testing of Ideas Towards an AI Supported Knowledge Development Environment
New systems employ Machine Learning to sift through large knowledge sources,
creating flexible Large Language Models. These models discern context and
predict sequential information in various communication forms. Generative AI,
leveraging Transformers, generates textual or visual outputs mimicking human
responses. It proposes one or multiple contextually feasible solutions for a
user to contemplate. However, generative AI does not currently support
traceability of ideas, a useful feature provided by search engines indicating
origin of information. The narrative style of generative AI has gained positive
reception. People learn from stories. Yet, early ChatGPT efforts had difficulty
with truth, reference, calculations, and aspects like accurate maps. Current
capabilities of referencing locations and linking to apps seem to be better
catered by the link-centric search methods we've used for two decades.
Deploying truly believable solutions extends beyond simulating contextual
relevance as done by generative AI. Combining the creativity of generative AI
with the provenance of internet sources in hybrid scenarios could enhance
internet usage. Generative AI, viewed as drafts, stimulates thinking, offering
alternative ideas for final versions or actions. Scenarios for information
requests are considered. We discuss how generative AI can boost idea generation
by eliminating human bias. We also describe how search can verify facts, logic,
and context. The user evaluates these generated ideas for selection and usage.
This paper introduces a system for knowledge workers, Generate And Search Test,
enabling individuals to efficiently create solutions previously requiring top
collaborations of experts.Comment: 8 pages, 21 reference
Placeboeffekte als erlebte Erkenntnis: Eine philosophisch-medizinhistorische Untersuchung
Placeboeffekte sind mehr als nur ungewöhnliche Heilungsprozesse oder als Störung abgetane Nebenfolgen ärztlicher Behandlungen. Sie ermöglichen vielmehr neue Perspektiven auf die grundlegenden Aspekte der menschlichen Existenz. Der Autor zeigt auf, dass hinter den Placeboeffekten Funktionen des Erkennens stehen, die Geist und Körper zu einer untrennbaren Einheit verschmelzen lassen: Sie erzeugen ein Erleben, in dem sich das menschliche Selbst als Ausdruck der eigenen Persönlichkeit ausbildet. Auf dem Weg zur wissenschaftlichen Medizin wurden diese Funktionen jedoch schrittweise ausgesondert, so dass Placeboeffekte die Erscheinung einer wissenschaftlichen Anomalie angenommen haben
- …