855 research outputs found

    Distinguishing between factual information and insulting or abusive messages bearing words or phrases in news articles

    Get PDF
    This thesis report is submitted in partial fulfillment of the requirements for the degree of Bachelor of Science in Computer Science and Engineering, 2006.Cataloged from PDF version of thesis report.Includes bibliographical references (page 75).Since Internet has become the leading source of information for the users, flames or abusive messages have also become the prominent factors of time wasting for retrieving information. Moreover, a text can contain factual information as well as abusive or insulting contents. This paper describes a new approach for an automated system to distinguish between information and personal attack containing insulting or abusive messages in a given document. In NLP, flames or abusive messages are considered as extreme subjective language, which refers to detect personal opinions or emotions in a news article. Insulting or abusive messages are viewed as extreme subset of the subjective language because of its extreme nature. We defined some rules to extract the semantic information of a given sentence from the general semantic structure of that sentence.Altaf MahmudKazi Zubair AhmedB. Computer Science and Engineerin

    The good, the bad and the implicit: a comprehensive approach to annotating explicit and implicit sentiment

    Get PDF
    We present a fine-grained scheme for the annotation of polar sentiment in text, that accounts for explicit sentiment (so-called private states), as well as implicit expressions of sentiment (polar facts). Polar expressions are annotated below sentence level and classified according to their subjectivity status. Additionally, they are linked to one or more targets with a specific polar orientation and intensity. Other components of the annotation scheme include source attribution and the identification and classification of expressions that modify polarity. In previous research, little attention has been given to implicit sentiment, which represents a substantial amount of the polar expressions encountered in our data. An English and Dutch corpus of financial newswire, consisting of over 45,000 words each, was annotated using our scheme. A subset of this corpus was used to conduct an inter-annotator agreement study, which demonstrated that the proposed scheme can be used to reliably annotate explicit and implicit sentiment in real-world textual data, making the created corpora a useful resource for sentiment analysis

    Sentiment analysis domain based environment

    Get PDF
    In this article, the Sentiment Analysis, which main task is to understand the polarity of the opinions expressed in the documents, is used to obtain a better understanding of how people express themselves about a particular subject or domain. Such understanding is important because it may provide input in the formulation of policies and actions to be taken in relation to a product or service or to the perceptions related to issues or people. As more people put their thoughts and opinions on a variety of services available on the Web microblogging sites like Twitter, social networks and forums have become a common way for them to express themselves. There, they put in a spontaneous, free and in real time over different views on the issues. However, each domain or Internet service has its own peculiarities. Some jargon is specific to a domain. Certain slang or characteristics of services for people putting their opinions differ significantly, which undermines the use of machine learning systems previously developed for other domains. To validate the proposed methodology a corpus of nuclear texts was assembled, annotated and analyzed. After that, a system was developed to process these data. The results thus obtained provide important information on the identification of key stakeholders and the views expressed on what subjects. With this better understanding of the fears, prejudices and expectations of people regarding the nuclear area, new strategies can be traced to improve the perception of them as the nuclear area

    The Penn Discourse Treebank 2.0 Annotation Manual

    Get PDF
    This report contains the guidelines for the annotation of discourse relations in the Penn Discourse Treebank (http://www.seas.upenn.edu/~pdtb), PDTB. Discourse relations in the PDTB are annotated in a bottom up fashion, and capture both lexically realized relations as well as implicit relations. Guidelines in this report are provided for all aspects of the annotation, including annotation explicit discourse connectives, implicit relations, arguments of relations, senses of relations, and the attribution of relations and their arguments. The report also provides descriptions of the annotation format representation

    Attribution and its Annotation in the Penn Discourse TreeBank

    Get PDF
    An emerging task in text understanding and generation is to categorize information as fact or opinion and to further attribute it to the appropriate source. Corpus annotation schemes aim to encode such distinctions for NLP applications concerned with such tasks, such as information extraction, question answering, summarization, and generation. We describe an annotation scheme for marking the attribution of abstract objects such as propositions, facts and eventualities associated with discourse relations and their arguments annotated in the Penn Discourse TreeBank. The scheme aims to capture the source and degrees of factuality of the abstract objects. Key aspects of the scheme are annotation of the text spans signalling the attribution, and annotation of features recording the source, type, scopal polarity, and determinacy of attribution.

    A Comparative Discursive Psychological Analysis of American Shareholder Letters During the COVID-19 Pandemic

    Get PDF
    This study set out to analyse corporate discourse from the standpoint of discursive psychology, which approaches discourse analysis from a psychological point of view. The objective of the analysis was to find how corporate CEOs communicate on business matters to appear as truthful and accountable during the period of the COVID-19 pandemic. A framework known as discursive action model, that focuses on analysing discursive acts as having been constructed with the aforementioned goals in mind, was used in the study to reveal how claims are made by a speaker to appear as truthful and to undermine alternative scenarios, as well as to attribute agency to the speaker of another person or party. Eight shareholder letters were chosen as the materials of the study, which were selected to represent companies that benefitted and suffered from the COVID-19 pandemic. The analysis was conducted through several planned and structured readings of each letter according to the principles of the discursive action model. The findings of the study indicate that the CEOs of the negatively affected businesses relied less on fact-based descriptions and assigned more agency to the pandemic that the CEOs of the beneficiaries of the pandemic. While the study was limited in size, its findings nonetheless suggest that further studies applying a similar methodology would be justified for learning more about corporate communications and how aspects such as responsibility and honesty are constructed in the genre.Tämän tutkielma käsittelee yritysten ja yritysjohtajien korporaatioviestinnän (corporate discourse) konventioita. Sijoittajaviestinnän tieteellisellä tutkimuksella on pitkät perinteet, ja sen eri osa-alueita on tutkittu jo vuosikymmenten ajan. Tutkimuksen kohteina ovat olleet muun muassa lingvistiset seikat kuten verbien käyttö, passiivimuodot ja teema-reema-rakenne, sekä muita diskursiivisia seikkoja, esimerkiksi narratiivien käyttöä ja agentiivisuuden ilmaisua. Tutkimuksessani sovelsin kuitenkin diskursiivisen psykologian näkökulmaa, jota on käytetty vain vähän korporaatioiden viestinnän tutkimiseen. Tarkemmin ottaen tarkastelin tutkimusmateriaalejani hyödyntäen Derek Edwardsin ja Jonathan Potterin kehittämää diskursiivisen toiminnan mallia (discursive action model), jonka avulla voidaan tutkia kriittisesti diskurssitilanteessa puhujan kielellisesti luomaa kuvaa maailmasta ja sen tapahtumista (1992; 1993). Materiaaleikseni valitsin amerikkalaisten pörssiyhtiöiden vuonna 2020 julkaisemia sijoittajakirjeitä (shareholder letter), joissa yritysten toimitusjohtajat kertovat vapaamuotoisesti kuluneen vuoden tapahtumista, taloudellisesta kehityksestä ja yhtiöidensä tulevaisuuden näkymistä. Diskursiivinen psykologia on tutkimusala, joka on kiinnostunut mielen toiminnasta kieltä käytettäessä. Sen perusajatuksiin kuuluvat sosio-konstruktiivinen näkemys kielestä ja toimintaan perustuva näkemys diskurssista. Potterin ja Billigin mukaan diskurssi on toimintaa, jossa reagoidaan maailman tapahtumiin ja rakennetaan niitä. Diskursiivinen psykologia käsittää nämä toiminnat tiettyihin institutionaalisiin konteksteihin kuuluviksi, jolloin diskurssitilanteen osallistujien roolit ja tavoitteet vaikuttavat siihen, miten he muodostavat diskursiivista toimintaa. Täten toimintaa voidaan aina tulkita subjektiivisena tai objektiivisena. Diskursiivisen toiminnan malli on alkujaan kehitetty vastineeksi perinteisille attribuutioteorioille ja niiden tavoille ilmaista syy-seuraussuhteita, joissa kielen roolia pidettiin enimmäkseen passiivisena välineenä kognitiivisten toimintojen ilmaisulle (Edwards, Potter & Wetherell 1993). Malli perustuu kolmeen periaatteeseen, joista kullakin on kolme osatekijää. Ensimmäinen näistä liittyy kielen toiminnalliseen luonteeseen: diskurssissa tehtäviä attribuutioita tulee mallin mukaan tulkita toimintana, ei kognitiivisina prosesseina. Diskurssissa tällaisia attribuutioita tapahtuu pääasiassa silloin, kun raportoidaan interpersonaalista toimintaa. Korporaatioviestinnässä tällaiset tilanteet ovat melko tavanomaisia, sillä siihen liittyy oleellisesti esimerkiksi vastuun, kehujen ja syytösten attribuutiota jollekin toimijalle. Toinen periaate liittyy puhujan omaan motivaatioon diskursiivisissa tilanteissa. Edwards ja Potter kehittivät osakkuuden dilemman käsitteen (dilemma of stake), joka kuvaa kaikkeen diskurssiin ja syy-seuraussuhteiden attribuutioon liittyvää ongelmaa (1992). Heidän mukaansa jokainen attribuutio voidaan tulkita sen tekijän puolueellisena yrityksenä kuvailla tapahtunutta tämän omien etujensa mukaisella tavalla. Tämä tulkinta ei Potterin (1996) mukaan ole vain tavallinen tapa ymmärtää diskursiivista toimintaa, vaan jopa keskustelutilanteen osapuolten ennakoitavissa sen pohjalta, miten he käsittävät toistensa osakkuuden kuvailemaansa tapahtumaan. Tämän vuoksi diskursiivisen toiminnan mallissa kaikki kertomukset ovat tietoisesti rakennettuja siten, että ne näyttäytyvät todenmukaisina. Tässä onnistuakseen kertomuksissa ja attribuutioissa käytetään kielellisiä keinoja, joiden tarkoitus on sekä vakuuttaa kuulija niiden todenperäisyydestä sekä horjuttaa vaihtoehtoisia näkemyksiä asiasta. Keinot jakautuvat karkeasti kahteen ryhmään: ensimmäiseen kuuluvat puhujan omaa osakkuutta sääteleviä keinoja, kuten osakkuuden ilmoittamista tai piilottamista, käytetään välttääkseen osakkuuden dilemmaan liittyvät epäilykset puhujan totuudenmukaisuudesta. Toisen ryhmän keinot liittyvät pääosin argumentaatiokeinoihin, kuten puolueettomien toimijoiden korroboraation tai retorisesti voimakkaiden narratiivien käyttöön totuudenmukaisen vaikutelman luomisessa. Kolmas periaate liittyy agentiivisuuden attribuutioihin. Perinteisestä attribuutioteoriasta poiketen diskursiivisen toiminnan malli ei keskity pelkästään diskursiivisessa toiminnassa kuvailtuun agentiivisuuteen ja vastuun attribuutioihin, vaan malli huomioi myös puhujan oman vastuun keskustelutilanteessa ja huomioi sen, miten puhujan rakentaessa kertomuksen tapahtumasta tulee hän itse vaikuttaneeksi siihen, miten agentiivisuus siinä rakentuu. Yleisesti ottaen agentiivisuutta on tutkittu kattavasti korporaatio- ja sijoittajaviestinnän kontekstissa, mutta puhujan vastuu on jäänyt vähemmälle huomiolle. Tässä opinnäytteessä tehtävässä analyysissä hyödynnetään Erika Daricsin ja Veronika Kollerin sosiaalisten toimijoiden tarkastelun mallia (2019), jonka avulla diskurssissa esitettyjen sosiaalisten toimijoiden agentiivisuutta voidaan arvioida erityisesti yritysviestinnän kontekstissa. Mallissa tarkastelun kohteena ovat monet erityyppiset tavat luoda agentiivisuutta diskurssissa, esimerkiksi passiivimuodon käyttö, nominalisaatiot, puhujan tekemät viittaukset muihin sosiaalisiin toimijoihin sekä puhujan itsensä sekä muiden toimijoiden esittäminen yksilöllisenä tai ryhmänsä assimiloituna jäsenenä. Korporaatioviestintä on tekstilajina monimuotoinen ja -mutkainen tulkittavaksi. Yksinkertaisimmillaan se on korporaation tai yrityksen viestintä yrityksen toimista ja näkymistä sen sidosryhmille (Laskin 2018), mutta sen lisäksi siihen liittyy oleellisesti muun muassa tavoitteellisen dialogin käyminen omistajien kanssa ja yrityksen esittäminen myönteisessä valossa. Korporaatioviestintä onkin genrenä sekoitus informatiivista ja promotionaalista tekstiä, sillä vaikka korporaatioiden päätehtävä on yhä kertoa faktatietoja omassa viestinnässään lain määräämällä tavalla, ovat ne jo vuosikymmenten ajan käyttäneet julkaisemissaan dokumenteissa narratiiveja ja muita retorisesti voimakkaita keinoja vaikuttaa lukijaan. Myös korporaatioviestinnän yleisö on monimuotoinen. Breezen (2013) ja Garzonen (2004) mukaan viimeisten vuosikymmenten aikana kiinnostus korporaatioiden viestintää kohtaan on laajentunut talousasiantuntijoista muihinkin sidosryhmiin, kuten asiakkaisiin, poliitikkoihin ja mediaan. Näiden ryhmien motivaatio tutkia korporaatioviestintää ei aina polveudu yhtiön taloudellisesta tilanteesta, vaan esimerkiksi yhtiön edustajien kuvaukset sen vaikutuksesta ympäristöön tai yhteiskuntaan voivat Tästä johtuen korporaatioviestintää voidaan pitää vaikeana, kriittistä analyysiä vaativana genrenä. Tutkimusmateriaaleikseni valikoituivat sijoittajakirjeet (shareholder letters), jotka edustavat erinomaisesti korporaatioviestinnän promootionaalisia ominaisuuksia. Aiemmassa alan tutkimuksessa on todettu sijoittajakirjeiden olevan luetuin osa yritysten julkaisemista viestinnällisistä dokumenteista, ja niiden informatiivisuutta on tutkittu lukuisista näkökulmista. Tiivistetysti niiden kirjoittajina toimivat yrityksen toimitusjohtaja tai ryhmä ylimmän johdon jäseniä, ja kirjeessä selostetaan yrityksen liiketoiminnan keskeisimmät kehitykset vuoden ajalta. Sijoittajakirjeet ovat verrattain vähän laissa säädeltyjä dokumentteja, joten niitä käytetään usein yrityksen ulospäin antaman vaikutelman hallinnoimiseen (impression management). Sijoittajakirjeiden tutkiminen onkin varsin hedelmällinen korporaatioviestinnän tutkimusaihe, sillä niissä esiintyvä kielenkäyttö on usein monipuolisempaa ja tarjoaa kirjoittajalle enemmän mahdollisuuksia ilmaista itseään edistääkseen erilaisia tavoitteitaan, kuten sekä yrityksensä että oman vaikutelmansa hallinnointia. Tutkimuksessani tarkastelin kahdeksaa eri amerikkalaisen pörssiyhtiön sijoittajakirjettä tilikaudelta 2020. Kirjeet ja ne julkaisseet yhtiöt edustavat kahta ryhmää, koronavoittajia (COVID winner) ja koronahäviäjiä (COVID loser), joihin jaoin ne COVID-19-pandemiaan liittyvän tutkimuksen sekä amerikkalaisten pörssiyhtiöiden taloustietojen perusteella: kumpikin ryhmä sisältää neljä yhtiötä, joihin pandemia on vaikuttanut merkittävän positiivisesti ja merkittävän negatiivisesti. Sijoittajakirjeiden ajankohdan valinta oli tarkoituksellinen, sillä olin kiinnostunut tutkimaan viestinnällisiä seikkoja yhtiöiden sijoittajakirjeissä nimenomaan koronapandemian kontekstissa, joka on osoittautunut hyvin ainutlaatuiseksi toimintaympäristöksi yrityksille ja siten luultavasti vaikuttanut niiden viestinnän tarpeisiin. Tutkimus on luonteeltaan vertaileva, eli näiden kahden ryhmän viestinnällisiä valintoja vertailtiin keskenään. Tutkimuksen tarkoitukseksi asetin selvittää, miten sijoittajakirjeiden kielellisillä valinnoilla vaikutetaan osakkuuden ilmaisemiseen sekä totuudenmukaisuuden vaikutelman luomiseen. Lisäksi tavoitteenani oli tutkia agentiivisuuden ja vastuunoton luomista kielellisin keinoin, sekä verrata näiden elementtien käyttöä kahden eri ryhmän välillä. Kirjeitä tutkiessani hyödynsin diskursiivisen toiminnan mallia, joka soveltuu hyvin edellä mainittujen seikkojen tutkimisen. Käyttämäni tutkimusmenetelmä oli luonteeltaan laadullinen, ja se perustui sijoittajakirjeiden suunnitelmalliseen lukemiseen. Lukuprosessin aikana kirjeiden sisältöjä tarkasteltiin niin osakkuuden, totuudenmukaisuuden kuin agentiivisuuden linssien läpi, ja erilaisten kielellisten keinojen käyttöä näihin eri tarkoituksiin etsittiin. Löydetyt esimerkkitapaukset merkattiin ylös UAM-korpustyökalun avulla, joka mahdollisti löydösten merkitsemisen ja annotoinnin myöhempää tarkastelua varten. Hypoteesini tutkimusta varten perustuivat aiempaan tutkimukseen korporaatioviestinnän alalta, vaikka diskursiivisen toiminnan mallia onkin sovellettu vain hyvin harvoin korporaatioviestintään. Ensiksi osakkuuden ja totuudenmukaisuuden hallintaa sijoittajakirjeissä oli melko vaikea ennustaa, sillä aiempi tutkimus on keskittynyt vain osaan Edwardsin ja Potterin esittämistä kielellisistä keinoista. Hypoteesini oli kuitenkin, että näitä kielellisiä keinoja käytetään kaikissa tutkimuksen sijoittajakirjeissä osakkuuden ja totuudenmukaisuuden hallintaan, mutta selkeitä ja toistuvia kaavoja ei eri ryhmien sisällä tai niiden välillä olisi löydettävissä helposti. Mitä taas tulee agentiivisuuden ilmaisuun, niin aiempi tutkimus on todistanut kattavasti yritysjohtajien taipumuksen attribuoida hyvät uutiset ja taloudellinen menestys yrityksen toimijoihin, kun taas huonot uutiset vieritetään muiden tekijöiden harteille. Tämän perusteella oletin, että tutkimukseni havainnot olisivat samankaltaiset: lisäksi hypoteesiini kuului, että negatiiviset uutiset attribuioitaisiin erityisesti koronapandemian aiheuttamiksi. Tutkimukseni tulokset osoittautuivat moninaisiksi. Mitä tulee ensimmäisiin hypoteeseihini, niin tutkimukseni havainnot vahvistivat ne pääosin. Kaikista sijoittajakirjeistä löytyi diskursiivisen toiminnan mallin mukaisia kielellisiä keinoja, joilla hallittiin vaikutelmaa kirjoittajan omasta osakkuudesta tai panoksesta kuvailemissaan tapahtumissa ja joilla luotiin vaikutelmaa todenmukaisuudesta. Lisäksi kaavamaisuutta eri keinojen käytössä oli havaittavissa vain vähän: esimerkiksi korroboraation käyttö, joka on yleisesti tyypillinen piirre korporaatioviestinnässä ja sijoittajakirjeissä, oli koronahäviäjien kirjeissä vähäisempää kuin koronavoittajien viestinnässä. Eroja oli myös osakkuuden ilmaisemisessa: siinä missä koronavoittajien toimitusjohtajat olivat melko varovaisia koronapandemian yhtiölleen tuomien hyötyjen ilmaisemisessa, koronahäviäjien kirjeissä oltiin verrattain suorapuheisia, ja niissä ilmaistiinkin avoimemmin muun muassa tavoite tuottaa voittoa osakkeenomistajille. Tutkimuslöydöt todistivat myös agentiivisuuteen liittyvät hypoteesit melko hyvin todeksi. Kummankin yhtiöryhmän kirjeissä toistuvana teemana oli vastuunotto hyvistä uutisista ja negatiivisten tapahtumien vastuun siirto muiden toimijoiden harteille. Huonosti menestyneillä koronahäviäjillä tämä taipumus oli kuitenkin mielenkiintoinen, sillä heidän kirjeissään positiivisina uutisina kuvailtiin myös tapahtumia, jotka eivät tyypillisesti olisi positiivisia, esimerkiksi markkinaosuuden ylläpito tai rahoitusjärjestelyt velkarahalla. Tämä havainto oli mielenkiintoinen etenkin verrattuna koronavoittajien kirjeissä esiintyneisiin positiivisten tapahtumien kuvailuun, ja se herättääkin kysymyksiä tarkemman temaattisen tutkimuksen tarpeesta diskursiivisen mallin rinnalle. Agentiivisuuteen liittyen sijoittajakirjeistä löytyi merkittävä määrä yhtäläisyyksiä ryhmien välillä. Tutkimukseen kuuluneista lingvistisistä keinoista, eli passiivimuodon käytöstä, nominalisaatioista sekä pronominivalinnoista, jokaisen käyttö oli lähes yhdenmukaista koronavoittajien ja -häviäjien kirjeissä, eikä suuria eroavaisuuksia käynyt ilmi. Lisäksi toimitusjohtajien tapa kuvailla muita toimijoita kirjeissään oli systemaattista: yksittäisiä henkilöitä ei juurikaan asetettu agentiiviseen rooliin, vaan pääosa referensseistä käsitteli muita osina kollektiiveja, joista yhtiöiden työvoimalla ja johtoryhmällä oli vahva, aktiivinen ja agentiivinen osa yhtiön toiminnassa, kun taas muiden ryhmien rooli oli passiivinen. Hypoteesini mukaisesti koronahäviäjien toimitusjohtajista suurin osa tosin kuvaili pandemian agentiivisena toimijana, jolle kuvailtiin selkeä liiketoimintaympäristöä heikentänyt osuus. Yleisesti ottaen tutkimuksen havainnot kuitenkin viittaavat siihen, että agentiivisuutta ja sen ilmaisua määrittää liiketoiminnan menestyksen lisäksi myös korporaatioviestinnän genreen liittyvät konventiot, joita on tunnustettu myös aikaisemmassa alan tutkimuksessa. Tutkimuksen tulokset viittaavat siihen, että diskursiivisen toiminnan mallin soveltaminen korporaatioviestinnän kontekstissa on potentiaalisesti mielekäs tutkimusasetelma, ja että jatkotutkimukset alalla ovat perusteltuja. Tutkimusasetelmaa voisi olla syytä kehittää esimerkiksi lisäämällä viestintätekstien temaattista tarkastelua, jotta voitaisiin saada tarkempi käsitys kielellisten keinojen käytöstä ja yksittäisten keinojen esiintyvyydestä. Korporaatioviestintää voitaisiin myös tutkia esimerkiksi eri alojen yhtiöiden tai eri aikakausien välillä. On kuitenkin todennäköistä, että diskursiivinen psykologia ja diskursiivisen toiminnan malli toimivat tekstilajin analysoinnissa hyvin, ja että niiden kiinnostuksen kohteet, kuten totuudenmukaisuuden ja agentiivisuuden tarkkailu, ovat perusteltuja tutkimuskohteita korporaatioviestinnän alalla ylipäätään

    Evaluation in Discourse: a Corpus-Based Study

    Get PDF
    This paper describes the CASOAR corpus, the first manually annotated corpus that explores the impact of discourse structure on sentiment analysis with a study of movie reviews in French and in English as well as letters to the editor in French. While annotating opinions at the expression, the sentence or the document level is a well-established task and relatively straightforward, discourse annotation remains difficult, especially for non-experts. Therefore, combining both annotations poses several methodological problems that we address here. We propose a multi-layered annotation scheme that includes: the complete discourse structure according to the Segmented Discourse Representation Theory, the opinion orientation of elementary discourse units and opinion expressions, and their associated features. We detail each layer, explore the interactions between them and discuss our results. In particular, we examine the correlation between discourse and semantic category of opinion expressions, the impact of discourse relations on both subjectivity and polarity analysis and the impact of discourse on the determination of the overall opinion of a document. Our results demonstrate that discourse is an important cue for sentiment analysis, at least for the corpus genres we have studied

    Attribution: a computational approach

    Get PDF
    Our society is overwhelmed with an ever growing amount of information. Effective management of this information requires novel ways to filter and select the most relevant pieces of information. Some of this information can be associated with the source or sources expressing it. Sources and their relation to what they express affect information and whether we perceive it as relevant, biased or truthful. In news texts in particular, it is common practice to report third-party statements and opinions. Recognizing relations of attribution is therefore a necessary step toward detecting statements and opinions of specific sources and selecting and evaluating information on the basis of its source. The automatic identification of Attribution Relations has applications in numerous research areas. Quotation and opinion extraction, discourse and factuality have all partly addressed the annotation and identification of Attribution Relations. However, disjoint efforts have provided a partial and partly inaccurate picture of attribution. Moreover, these research efforts have generated small or incomplete resources, thus limiting the applicability of machine learning approaches. Existing approaches to extract Attribution Relations have focused on rule-based models, which are limited both in coverage and precision. This thesis presents a computational approach to attribution that recasts attribution extraction as the identification of the attributed text, its source and the lexical cue linking them in a relation. Drawing on preliminary data-driven investigation, I present a comprehensive lexicalised approach to attribution and further refine and test a previously defined annotation scheme. The scheme has been used to create a corpus annotated with Attribution Relations, with the goal of contributing a large and complete resource than can lay the foundations for future attribution studies. Based on this resource, I developed a system for the automatic extraction of attribution relations that surpasses traditional syntactic pattern-based approaches. The system is a pipeline of classification and sequence labelling models that identify and link each of the components of an attribution relation. The results show concrete opportunities for attribution-based applications

    Pattern-based design applied to cultural heritage knowledge graphs

    Full text link
    Ontology Design Patterns (ODPs) have become an established and recognised practice for guaranteeing good quality ontology engineering. There are several ODP repositories where ODPs are shared as well as ontology design methodologies recommending their reuse. Performing rigorous testing is recommended as well for supporting ontology maintenance and validating the resulting resource against its motivating requirements. Nevertheless, it is less than straightforward to find guidelines on how to apply such methodologies for developing domain-specific knowledge graphs. ArCo is the knowledge graph of Italian Cultural Heritage and has been developed by using eXtreme Design (XD), an ODP- and test-driven methodology. During its development, XD has been adapted to the need of the CH domain e.g. gathering requirements from an open, diverse community of consumers, a new ODP has been defined and many have been specialised to address specific CH requirements. This paper presents ArCo and describes how to apply XD to the development and validation of a CH knowledge graph, also detailing the (intellectual) process implemented for matching the encountered modelling problems to ODPs. Relevant contributions also include a novel web tool for supporting unit-testing of knowledge graphs, a rigorous evaluation of ArCo, and a discussion of methodological lessons learned during ArCo development
    corecore