Search CORE

26 research outputs found

Automatic Question Generation from Swedish Documents as a Tool for Information Extraction

Author: Wilhelmsson Kenneth
Publication venue
Publication date: 01/01/2011
Field of study

Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA 2011. Editors: Bolette Sandford Pedersen, Gunta Nešpore and Inguna Skadiņa. NEALT Proceedings Series, Vol. 11 (2011), 323-326. © 2011 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/1695

University of Borås

Digitala Vetenskapliga Arkivet - Academic Archive On-line

DSpace at Tartu University Library

Automatic Variation of Swedish Text by Syntactic Fronting

Author: Wilhelmsson Kenneth
Publication venue
Publication date: 17/02/2009
Field of study

Proceedings of the Workshop on NLP for Reading and Writing – Resources, Algorithms and Tools (SLTC 2008). Editors: Rickard Domeij, Sofie Johansson Kokkinakis, Ola Knutsson and Sylvana Sofkova Hashemi. NEALT Proceedings Series, Vol. 3 (2009), 22-23. © 2009 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/4116

DSpace at Tartu University Library

Results from the CERN pilot CLOUD experiment

During a 4-week run in October–November 2006, a pilot experiment was performed at the CERN Proton Synchrotron in preparation for the Cosmics Leaving OUtdoor Droplets (CLOUD) experiment, whose aim is to study the possible influence of cosmic rays on clouds. The purpose of the pilot experiment was firstly to carry out exploratory measurements of the effect of ionising particle radiation on aerosol formation from trace H2SO4 vapour and secondly to provide technical input for the CLOUD design. A total of 44 nucleation bursts were produced and recorded, with formation rates of particles above the 3 nm detection threshold of between 0.1 and 100 cm -3 s -1, and growth rates between 2 and 37 nm h -1. The corresponding H2O concentrations were typically around 106 cm -3 or less. The experimentally-measured formation rates and htwosofour concentrations are comparable to those found in the atmosphere, supporting the idea that sulphuric acid is involved in the nucleation of atmospheric aerosols. However, sulphuric acid alone is not able to explain the observed rapid growth rates, which suggests the presence of additional trace vapours in the aerosol chamber, whose identity is unknown. By analysing the charged fraction, a few of the aerosol bursts appear to have a contribution from ion-induced nucleation and ion-ion recombination to form neutral clusters. Some indications were also found for the accelerator beam timing and intensity to influence the aerosol particle formation rate at the highest experimental SO2 concentrations of 6 ppb, although none was found at lower concentrations. Overall, the exploratory measurements provide suggestive evidence for ion-induced nucleation or ion-ion recombination as sources of aerosol particles. However in order to quantify the conditions under which ion processes become significant, improvements are needed in controlling the experimental variables and in the reproducibility of the experiments. Finally, concerning technical aspects, the most important lessons for the CLOUD design include the stringent requirement of internal cleanliness of the aerosol chamber, as well as maintenance of extremely stable temperatures (variations below 0.1 °C

Hochschulschriftenserver - Universität Frankfurt am Main

Heuristic Analysis with Diderichsen’s Sentence Schema – Applications for Swedish Text

Author: Wilhelmsson Kenneth
Publication venue
Publication date: 26/03/2010
Field of study

A heuristic method for parsing Swedish text, heuristic schema parsing, is described and im-plemented. Focusing on main clause (primary) analysis, a collection of licensing techniques for removing non-primary verb candidates is employed, leaving e.g. the primary verbs, particles and conjunctions (bounded key constituents) that delimit the content of the fields in Diderichsen’s sentence schema. Hereby, the subsequent identification of constituents which do not have an upper bound on their length (subject, object/predicatives and adverbials) can be identified relying to a lesser on extent explicit pattern matching, and more on different heu-ristic rules. For phrase type identification and delimitation of these constituents, when adja-cent to each other, a novel chunking technique, rank-based chunking, is applied. Following this, a series of further rules merge chunks into larger ones, aiming at a final number of nomi-nal chunks compatible with the valency information of the main verb. The aim is to identify full nominal and adverbial constituents, including post-modifiers. The implementation uses the Stockholm Umeå Corpus 2.0, a corpus which is balanced for different genres in published Swedish text. SUC’s tagset is also used unmodified in part-of-speech tagging which enables the program to deal with input text. The functional parsing, which includes no explicit lan-guage-defining grammar component is carried out technically using an object-based represen-tation of clause structure. Although output formats and types of evaluations of correctness are very different in parsers for Swedish text, it is claimed that the manual approach presented can provide high accuracy, which can be improved given more time for development. The thesis work also includes two prototype applications, both requiring high accuracy of the sort of functional syntactic analysis described here. The first one is an implementation of automatic syntactic fronting in the area of text editing for Swedish, where the user is pre-sented with a syntactically analyzed copy of her writing, from which paraphrases easily can be generated. The second application is in the field of natural language query systems and produces questions with answers from an arbitrary declarative input text. This prototype in-corporates a text database from Swedish Wikipedia, and investigates primarily generation of WH-questions formed via fronting of unbounded primary constituents. The questions are gen-erated as a text is opened and thus permits users to only ask the available ones, thus aiming at a high precision value.En heuristisk metod för parsning av svensk text, heuristisk schemaparsning, med implementa-tion beskrivs. Med fokus på huvudsatsanalys används en samling licensieringstekniker för att utesluta icke-primära kandidater till de längdbegränsade (eng: bounded) nyckelkomponenter som avgränsar fält och andra utrymmen i Diderichsens satsschema. Härigenom kan de funk-tionella konstituenter som är (potentiellt) obegränsade i längd (eng: unbounded), subjekt, ob-jekt/predikativ och adverbial, identifieras genom att i lägre grad använda explicit matchning av flerordsled och istället tillämpa olika heuristiska regler. För frastypsbestämning och av-gränsning av dessa konstituenter, när de är angränsande, presenteras först en ny segmente-ringsmetod, rangbaserad chunkning. Denna segmentering följs av en serie möjliga samman-fogningar som syftar till att nå ett antal nominala led som är kompatibelt med valensen hos satsens huvudverb. Målsättningen för denna metod är identifikation av hela nominala och adverbiella led, inklusive efterställda attribut. Detta avhandlingsprojekt baseras på Stockholm Umeå Corpus 2.0 som speglar olika genrer av svensk publicerad text. Dess tagguppsättning används också omodifierad i en ordklasstaggare som möjliggör hantering av valfri textinput. Den inre representationen av en textmening, under denna funktionella syntaxanalys som inte innehåller någon explicit språkdefinierande grammatikkomponent, är objektbaserad. Även om utdataformat och förutsättningar för korrekthetsutvärderingar varierar mycket för svenska parsningsprojekt, hävdas att ansatsen kan ge hög korrekthet, vilken kan förbättras om mer tid ägnas åt det manuella regelskrivandet. Avhandlingsarbetet inkluderar även två prototyptillämpningar som båda kräver hög korrekthet av den analysform som här produceras. Den första är en implementation i området ordbehand-ling där en användare ges möjlighet att automatiskt parafrasera skrivna textmeningar då syn-taxanalys av dessa visas. Den andra applikationen som presenteras tillhör området natural language query systems och genererar automatiskt frågor till en godtycklig införd text. Denna prototyp inbegriper textdatabasen från svenska Wikipedia och undersöker främst generering av hv-frågor som bildas genom spetsställning och mappning till frågeord. Frågegenereringen sker när en text öppnas och tillåter frågor från användaren med speciellt fokus på precion-värdet – hög korrekthet på svaren givet frågorna

Göteborgs universitets publikationer - e-publicering och e-arkiv

Huvudansatser för parsningsmetoder. Om programutvecklingens förutsättningar i en svensk kontext

Author: Wilhelmsson Kenneth
Publication venue: Institutionen för svenska språket, Göteborgs universitet
Publication date: 01/11/2016
Field of study

Syftet med denna text var att ge en inblick i området (syntaktisk) parsning. Tanken var att ge en bild av utvecklingen som var 1) fri från alltför tekniska detaljer, då området är programmeringstekniskt, och 2) beskriven ur ett svenskt perspektiv. Bakgrunden till valet av ämne till texten, som var tänkt att finnas med i antologin Text och kontext, var att parsning är relativt okänt för många personer verksamma inom närliggande områden, samtidigt som det är ett absolut nyckelbegrepp för den som ägnar sig åt datorlingvistik eller språkteknologi. Målet var alltså att ge en ganska allmän utifrånblick på några centrala sidor av utvecklingen, samtidigt som det tydligt är så att den som själv arbetat med utveckling kan ha starka åsikter och preferenser rörande metodval, något som i ärlighetens namn kanske inte heller denna text är lösgjord från. Hur ska det göras? Konsten att utveckla automatisk syntaxanalys av naturlig text kan läras ut från ett flertal perspektiv. Det kan t.ex. ske med fokus på användandet av en viss grammatikformalism, med fokus på beräkningssnabbhet, med fokus på entydiggörande av möjliga ambiguiteter. Tolkningsval kan göras med hjälp av antingen handskrivna regler eller inhämtad statistik. En sorts huvudtema i denna text är hur metoder för parsning på senare år uppvisar förändringar som kanske kan förklaras med att programmen har fått andra användningsområden och att metoderna har anpassats därefter (en annan tolkning är att flera senare system inte längre gör parsning i strikt mening). När detta tänkta ”kapitel” var färdigt fick det kommentaren att det inte var anpassat för antologins målgrupp. Det fick skrivas en annan kapiteltext, men det kom samtidigt ett förslag att publicera texten om parsning här som denna rapport

Göteborgs universitets publikationer - e-publicering och e-arkiv

Adverbialkarakteristik för praktisk informationsextraktion i svensk text Projektrapport

Author: Wilhelmsson Kenneth
Publication venue: Institutionen för svenska språket
Publication date
Field of study

Den aktuella rapporten beskriver ett projekt som i första hand har inneburit ett praktiskt arbete syftande till att skapa en automatiserad process som returnerar frågeled, t.ex. varifrån, för adverbialled, t.ex. inifrån rummet, i svensk digital text. Det är en utbytesprocess som behövs av rent praktiska skäl i uppgiften frågegenerering, vilken innebär att en samling frågor som en text besvarar genereras snabbt automatiskt. Denna process finner sin plats i program som på olika sätt syftar till att ge informationsåtkomst i godtycklig okänd svensk text. Det är i detta tillämpningsfall fråga om att på något sätt öppna upp för den stora informationsmängd som i datalogiskt perspektiv ligger ’ostrukturerad’, dvs. i naturligt språk-form. Syftet med att avgöra lämpliga frågeled (ofta till en hv-form) för förekommande satsled i text har dock förmodligen en mer allmän relevans än användning i nämnda programtyp. Förutom att också behövas i andra liknande datalingvistiska applikationer kan själva frågeställningen rymmas inom ramarna för grundforskningen. De vanliga semantiskt grundade adverbialkategorierna (vilka skiljer sig åt mellan olika grammatikor) definierar gärna adverbialkategorier just genom att beskriva vilka slags frågor de besvarar. Att som här sikta på att avgöra frågeled för adverbial är en mer detaljerad uppgift än att avgöra adverbialkategori. Den praktiska metod som implementerats i projektet kan sönderdelas i ett antal steg som antas vara allmängiltiga och svåra att undgå med det aktuella syftet. Indata till programmet är ett i princip godtyckligt adverbialled som användaren i prototypprogrammet kan skriva in. De nämnda steg som tar vid är de följande. 1) En uppmärkning med ordklass- och annan grammatisk information för varje löpord inleder. Detta sker med en statistisk trigrambaserad s.k. Hidden Markovmodell. 2/3) Ett avgörande av vilken strukturtyp som ledet har (bisats, PP, etc.) görs utifrån löporden med informationen i föregående steg. Intimt förknippat med denna uppgift är bestämning av huvudord, och för flera led även bestämning av andra signifikanta komponenter som rektionshuvudord. Lösningen till detta delsteg heter rangbaserad chunkning. 4) De steg som följer härefter skiljer sig mycket åt beroende på den aktuella strukturtypen. För prepositionsfraser undersöks t.ex. preposition och, beroende på vilken preposition det är fråga om, rektionshuvudord, dess grundform och andra ingående textsegment. I arbetet har t.ex. SweFN (Borin, Dannélls, Forsberg, Toporowska Gronostaj, & Kokkinakis, 2010) delvis undersökts för att eventuellt förbättra avgörandet av substantivsemantik, vilket ofta blir relevant för PPadverbial. Rapporten visar hur uppgiften praktiskt sett varierar mycket i svårighetsgrad, från de fall där adverbialet utgörs av t.ex. particip-, adverbfraser eller bisatser, då en mappning till motsvarande frågeled ofta kan ske direkt utifrån huvudordet – till de mest komplicerade fallen av PP och s.k. som-fraser där kombinationer av huvudord, rektionshuvudord, dess grundform samt annan syntaktisk och semantisk information krävs för att urskilja förekomsters särskilda frågemotsvarigheter. Ett återkommande tema i det praktiska arbetet är undantag som behöver kännas igen. Exempelvis kategorin satsadverbial, som kan anta många olika strukturella former men som ändå oftast renderar resultatet ’ingen frågemotsvarighet’, måste kännas igen uttryckligen (ev. tillsammans med andra med samma frågeledsresultat). Även processen som helhet bygger emellertid programmeringstekniskt på grundfall och undantag. I många fall, som t.ex. för i- PP finns det en mängd olika motsvarigheter och vad som får utgöra grundfall i programmet blir en empirisk/heuristisk fråga under det att regler skrivs mot faktiska förekomster av adverbial i Stockholm Umeå Corpus (Hädanefter SUC). Att i liksom andra prepositioner kan sägas ha en prototypisk riktningsbetydelse betyder inte att var nödvändigtvis ska fungera som utgångsfall. Det förekommer ’lager’ av undantag inom olika strukturslag i programmet men även externt motiverade sådana utgående från huvudverbet, som genom valensmatchning kan klargöra att ett adverbial är ’prepositionsobjekt’ och därmed får andra omfrågningsegenskaper. De användargränssnitt som skapats och använts för regelskrivande utifrån faktiska exempel har tillåtit viss omedelbar regeluppdatering och återkontroll vid åsynen av felaktiga resultat. Det är också genom tillägg av nya undantagsregler i någon mening som programmet rimligen ska kunna förbättras framöver från den aktuella kvalitetsnivån. Korrektheten som uppnåtts hittills är inte kvantitativt övertygande men detta arbete som saknar föregångare möjliggör kontinuerlig förbättring genom programmet. Projektet visar att mappningsuppgiften i stora stycken verkar görbar när rätt identifikation av huvudord, rektionshuvudord etc. identifieras med hjälp av metoden ovan. Emellertid finns fall då det aktuella totala perspektivet, ”ge frågeled för samtliga adverbial”, gör att uppgiften känns märklig och då det är oklart vad som egentligen är korrekt frågemotsvarighet. Att välja ut vilka led/frågor som i ett senare skede verkligen ska användas som realistiska frågor/svarsled i ett användningsperspektiv tillhör dock den mer övergripande frågegenereringsuppgiften och behandlas inte direkt i dett

Göteborgs universitets publikationer - e-publicering och e-arkiv

Revision of Part-of-Speech Tagging in Stockholm Umeå Corpus 2.0

Author: Forsbom Eva
Wilhelmsson Kenneth
Publication venue
Publication date: 01/01/2010
Field of study

Many parsers use a part-of-speech tagger as a ﬁrst step in parsing. The accuracy of the tagger naturally affects the performance of the parser. In this experiment, we revise 1500+ proposed errors in SUC 2.0 that were mainly found during work with schema parsing, and evaluate tagger instances trained on the revised corpus. The revisions turned out to be beneﬁcial also for the taggers.Samarbete med Eva Forsbom, Uppsala universite

University of Borås

Revision of Part-of-Speech Tagging in Stockholm Umeå Corpus 2.0

Author: Forsbom Eva
Wilhelmsson Kenneth
Publication venue
Publication date: 01/01/2010
Field of study

University of Borås

Digitala Vetenskapliga Arkivet - Academic Archive On-line

Maskininlärningsbaserad indexering av digitaliserade museiartefakter [Dnr:353-3849-2009] - Projektrapport

Author: Eklund Johan
Höglund Lars
Wilhelmsson Kenneth
Publication venue
Publication date: 01/01/2012
Field of study

Göteborgs universitets publikationer - e-publicering och e-arkiv