26 research outputs found
Automatic Question Generation from Swedish Documents as a Tool for Information Extraction
Proceedings of the 18th Nordic Conference of Computational Linguistics
NODALIDA 2011.
Editors: Bolette Sandford Pedersen, Gunta NeĆĄpore and Inguna SkadiĆa.
NEALT Proceedings Series, Vol. 11 (2011), 323-326.
© 2011 The editors and contributors.
Published by
Northern European Association for Language
Technology (NEALT)
http://omilia.uio.no/nealt .
Electronically published at
Tartu University Library (Estonia)
http://hdl.handle.net/10062/1695
Automatic Variation of Swedish Text by Syntactic Fronting
Proceedings of the Workshop on NLP for Reading and Writing â Resources,
Algorithms and Tools (SLTC 2008).
Editors: Rickard Domeij, Sofie Johansson Kokkinakis, Ola Knutsson and
Sylvana Sofkova Hashemi.
NEALT Proceedings Series, Vol. 3 (2009), 22-23.
© 2009 The editors and contributors.
Published by
Northern European Association for Language
Technology (NEALT)
http://omilia.uio.no/nealt .
Electronically published at
Tartu University Library (Estonia)
http://hdl.handle.net/10062/4116
Results from the CERN pilot CLOUD experiment
During a 4-week run in OctoberâNovember 2006, a pilot experiment was performed at the CERN Proton Synchrotron in preparation for the Cosmics Leaving OUtdoor Droplets (CLOUD) experiment, whose aim is to study the possible influence of cosmic rays on clouds. The purpose of the pilot experiment was firstly to carry out exploratory measurements of the effect of ionising particle radiation on aerosol formation from trace H2SO4 vapour and secondly to provide technical input for the CLOUD design. A total of 44 nucleation bursts were produced and recorded, with formation rates of particles above the 3 nm detection threshold of between 0.1 and 100 cm -3 s -1, and growth rates between 2 and 37 nm h -1. The corresponding H2O concentrations were typically around 106 cm -3 or less. The experimentally-measured formation rates and htwosofour concentrations are comparable to those found in the atmosphere, supporting the idea that sulphuric acid is involved in the nucleation of atmospheric aerosols. However, sulphuric acid alone is not able to explain the observed rapid growth rates, which suggests the presence of additional trace vapours in the aerosol chamber, whose identity is unknown. By analysing the charged fraction, a few of the aerosol bursts appear to have a contribution from ion-induced nucleation and ion-ion recombination to form neutral clusters. Some indications were also found for the accelerator beam timing and intensity to influence the aerosol particle formation rate at the highest experimental SO2 concentrations of 6 ppb, although none was found at lower concentrations. Overall, the exploratory measurements provide suggestive evidence for ion-induced nucleation or ion-ion recombination as sources of aerosol particles. However in order to quantify the conditions under which ion processes become significant, improvements are needed in controlling the experimental variables and in the reproducibility of the experiments. Finally, concerning technical aspects, the most important lessons for the CLOUD design include the stringent requirement of internal cleanliness of the aerosol chamber, as well as maintenance of extremely stable temperatures (variations below 0.1 °C
Heuristic Analysis with Diderichsenâs Sentence Schema â Applications for Swedish Text
A heuristic method for parsing Swedish text, heuristic schema parsing, is described and im-plemented. Focusing on main clause (primary) analysis, a collection of licensing techniques for removing non-primary verb candidates is employed, leaving e.g. the primary verbs, particles and conjunctions (bounded key constituents) that delimit the content of the fields in Diderichsenâs sentence schema. Hereby, the subsequent identification of constituents which do not have an upper bound on their length (subject, object/predicatives and adverbials) can be identified relying to a lesser on extent explicit pattern matching, and more on different heu-ristic rules. For phrase type identification and delimitation of these constituents, when adja-cent to each other, a novel chunking technique, rank-based chunking, is applied. Following this, a series of further rules merge chunks into larger ones, aiming at a final number of nomi-nal chunks compatible with the valency information of the main verb. The aim is to identify full nominal and adverbial constituents, including post-modifiers. The implementation uses the Stockholm UmeĂ„ Corpus 2.0, a corpus which is balanced for different genres in published Swedish text. SUCâs tagset is also used unmodified in part-of-speech tagging which enables the program to deal with input text. The functional parsing, which includes no explicit lan-guage-defining grammar component is carried out technically using an object-based represen-tation of clause structure.
Although output formats and types of evaluations of correctness are very different in parsers for Swedish text, it is claimed that the manual approach presented can provide high accuracy, which can be improved given more time for development.
The thesis work also includes two prototype applications, both requiring high accuracy of the sort of functional syntactic analysis described here. The first one is an implementation of automatic syntactic fronting in the area of text editing for Swedish, where the user is pre-sented with a syntactically analyzed copy of her writing, from which paraphrases easily can be generated. The second application is in the field of natural language query systems and produces questions with answers from an arbitrary declarative input text. This prototype in-corporates a text database from Swedish Wikipedia, and investigates primarily generation of WH-questions formed via fronting of unbounded primary constituents. The questions are gen-erated as a text is opened and thus permits users to only ask the available ones, thus aiming at a high precision value.En heuristisk metod för parsning av svensk text, heuristisk schemaparsning, med implementa-tion beskrivs. Med fokus pÄ huvudsatsanalys anvÀnds en samling licensieringstekniker för att utesluta icke-primÀra kandidater till de lÀngdbegrÀnsade (eng: bounded) nyckelkomponenter som avgrÀnsar fÀlt och andra utrymmen i Diderichsens satsschema. HÀrigenom kan de funk-tionella konstituenter som Àr (potentiellt) obegrÀnsade i lÀngd (eng: unbounded), subjekt, ob-jekt/predikativ och adverbial, identifieras genom att i lÀgre grad anvÀnda explicit matchning av flerordsled och istÀllet tillÀmpa olika heuristiska regler. För frastypsbestÀmning och av-grÀnsning av dessa konstituenter, nÀr de Àr angrÀnsande, presenteras först en ny segmente-ringsmetod, rangbaserad chunkning. Denna segmentering följs av en serie möjliga samman-fogningar som syftar till att nÄ ett antal nominala led som Àr kompatibelt med valensen hos satsens huvudverb. MÄlsÀttningen för denna metod Àr identifikation av hela nominala och adverbiella led, inklusive efterstÀllda attribut. Detta avhandlingsprojekt baseras pÄ Stockholm UmeÄ Corpus 2.0 som speglar olika genrer av svensk publicerad text. Dess tagguppsÀttning anvÀnds ocksÄ omodifierad i en ordklasstaggare som möjliggör hantering av valfri textinput. Den inre representationen av en textmening, under denna funktionella syntaxanalys som inte innehÄller nÄgon explicit sprÄkdefinierande grammatikkomponent, Àr objektbaserad.
Ăven om utdataformat och förutsĂ€ttningar för korrekthetsutvĂ€rderingar varierar mycket för svenska parsningsprojekt, hĂ€vdas att ansatsen kan ge hög korrekthet, vilken kan förbĂ€ttras om mer tid Ă€gnas Ă„t det manuella regelskrivandet.
Avhandlingsarbetet inkluderar Ă€ven tvĂ„ prototyptillĂ€mpningar som bĂ„da krĂ€ver hög korrekthet av den analysform som hĂ€r produceras. Den första Ă€r en implementation i omrĂ„det ordbehand-ling dĂ€r en anvĂ€ndare ges möjlighet att automatiskt parafrasera skrivna textmeningar dĂ„ syn-taxanalys av dessa visas. Den andra applikationen som presenteras tillhör omrĂ„det natural language query systems och genererar automatiskt frĂ„gor till en godtycklig införd text. Denna prototyp inbegriper textdatabasen frĂ„n svenska Wikipedia och undersöker frĂ€mst generering av hv-frĂ„gor som bildas genom spetsstĂ€llning och mappning till frĂ„geord. FrĂ„gegenereringen sker nĂ€r en text öppnas och tillĂ„ter frĂ„gor frĂ„n anvĂ€ndaren med speciellt fokus pĂ„ precion-vĂ€rdet â hög korrekthet pĂ„ svaren givet frĂ„gorna
Huvudansatser för parsningsmetoder. Om programutvecklingens förutsÀttningar i en svensk kontext
Syftet med denna text var att ge en inblick i omrÄdet (syntaktisk) parsning. Tanken
var att ge en bild av utvecklingen som var 1) fri frÄn alltför tekniska detaljer, dÄ
omrÄdet Àr programmeringstekniskt, och 2) beskriven ur ett svenskt perspektiv.
Bakgrunden till valet av Àmne till texten, som var tÀnkt att finnas med i antologin
Text och kontext, var att parsning Àr relativt okÀnt för mÄnga personer verksamma
inom nÀrliggande omrÄden, samtidigt som det Àr ett absolut nyckelbegrepp för
den som Àgnar sig Ät datorlingvistik eller sprÄkteknologi.
MÄlet var alltsÄ att ge en ganska allmÀn utifrÄnblick pÄ nÄgra centrala sidor av
utvecklingen, samtidigt som det tydligt Àr sÄ att den som sjÀlv arbetat med
utveckling kan ha starka Äsikter och preferenser rörande metodval, nÄgot som i
Àrlighetens namn kanske inte heller denna text Àr lösgjord frÄn.
Hur ska det göras? Konsten att utveckla automatisk syntaxanalys av naturlig text
kan lÀras ut frÄn ett flertal perspektiv. Det kan t.ex. ske med fokus pÄ anvÀndandet
av en viss grammatikformalism, med fokus pÄ berÀkningssnabbhet, med fokus pÄ
entydiggörande av möjliga ambiguiteter. Tolkningsval kan göras med hjÀlp av
antingen handskrivna regler eller inhÀmtad statistik.
En sorts huvudtema i denna text Àr hur metoder för parsning pÄ senare Är uppvisar
förÀndringar som kanske kan förklaras med att programmen har fÄtt andra
anvÀndningsomrÄden och att metoderna har anpassats dÀrefter (en annan tolkning
Àr att flera senare system inte lÀngre gör parsning i strikt mening).
NĂ€r detta tĂ€nkta âkapitelâ var fĂ€rdigt fick det kommentaren att det inte var
anpassat för antologins mÄlgrupp. Det fick skrivas en annan kapiteltext, men det
kom samtidigt ett förslag att publicera texten om parsning hÀr som denna rapport
Adverbialkarakteristik för praktisk informationsextraktion i svensk text Projektrapport
Den aktuella rapporten beskriver ett projekt som i första hand har inneburit ett
praktiskt arbete syftande till att skapa en automatiserad process som returnerar
frÄgeled, t.ex. varifrÄn, för adverbialled, t.ex. inifrÄn rummet, i svensk digital
text. Det Àr en utbytesprocess som behövs av rent praktiska skÀl i uppgiften
frÄgegenerering, vilken innebÀr att en samling frÄgor som en text besvarar
genereras snabbt automatiskt. Denna process finner sin plats i program som pÄ
olika sÀtt syftar till att ge informationsÄtkomst i godtycklig okÀnd svensk text.
Det Àr i detta tillÀmpningsfall frÄga om att pÄ nÄgot sÀtt öppna upp för den stora
informationsmĂ€ngd som i datalogiskt perspektiv ligger âostruktureradâ, dvs. i
naturligt sprÄk-form.
Syftet med att avgöra lÀmpliga frÄgeled (ofta till en hv-form) för förekommande
satsled i text har dock förmodligen en mer allmÀn relevans Àn anvÀndning i
nÀmnda programtyp. Förutom att ocksÄ behövas i andra liknande
datalingvistiska applikationer kan sjÀlva frÄgestÀllningen rymmas inom ramarna
för grundforskningen. De vanliga semantiskt grundade adverbialkategorierna
(vilka skiljer sig Ät mellan olika grammatikor) definierar gÀrna
adverbialkategorier just genom att beskriva vilka slags frÄgor de besvarar. Att
som hÀr sikta pÄ att avgöra frÄgeled för adverbial Àr en mer detaljerad uppgift Àn
att avgöra adverbialkategori.
Den praktiska metod som implementerats i projektet kan sönderdelas i ett antal
steg som antas vara allmÀngiltiga och svÄra att undgÄ med det aktuella syftet.
Indata till programmet Àr ett i princip godtyckligt adverbialled som anvÀndaren i
prototypprogrammet kan skriva in. De nÀmnda steg som tar vid Àr de följande.
1) En uppmÀrkning med ordklass- och annan grammatisk information för varje
löpord inleder. Detta sker med en statistisk trigrambaserad s.k. Hidden Markovmodell.
2/3) Ett avgörande av vilken strukturtyp som ledet har (bisats, PP, etc.)
görs utifrÄn löporden med informationen i föregÄende steg. Intimt förknippat
med denna uppgift Àr bestÀmning av huvudord, och för flera led Àven
bestÀmning av andra signifikanta komponenter som rektionshuvudord.
Lösningen till detta delsteg heter rangbaserad chunkning. 4) De steg som följer
hÀrefter skiljer sig mycket Ät beroende pÄ den aktuella strukturtypen. För
prepositionsfraser undersöks t.ex. preposition och, beroende pÄ vilken
preposition det Àr frÄga om, rektionshuvudord, dess grundform och andra
ingÄende textsegment. I arbetet har t.ex. SweFN (Borin, Dannélls, Forsberg,
Toporowska Gronostaj, & Kokkinakis, 2010) delvis undersökts för att eventuellt
förbÀttra avgörandet av substantivsemantik, vilket ofta blir relevant för PPadverbial.
Rapporten visar hur uppgiften praktiskt sett varierar mycket i svÄrighetsgrad,
frÄn de fall dÀr adverbialet utgörs av t.ex. particip-, adverbfraser eller bisatser,
dÄ en mappning till motsvarande frÄgeled ofta kan ske direkt utifrÄn huvudordet
â till de mest komplicerade fallen av PP och s.k. som-fraser dĂ€r kombinationer
av huvudord, rektionshuvudord, dess grundform samt annan syntaktisk och
semantisk information krÀvs för att urskilja förekomsters sÀrskilda
frÄgemotsvarigheter. Ett Äterkommande tema i det praktiska arbetet Àr undantag
som behöver kÀnnas igen. Exempelvis kategorin satsadverbial, som kan anta
mĂ„nga olika strukturella former men som Ă€ndĂ„ oftast renderar resultatet âingen
frĂ„gemotsvarighetâ, mĂ„ste kĂ€nnas igen uttryckligen (ev. tillsammans med andra
med samma frĂ„geledsresultat). Ăven processen som helhet bygger emellertid
programmeringstekniskt pÄ grundfall och undantag. I mÄnga fall, som t.ex. för i-
PP finns det en mÀngd olika motsvarigheter och vad som fÄr utgöra grundfall i
programmet blir en empirisk/heuristisk frÄga under det att regler skrivs mot
faktiska förekomster av adverbial i Stockholm UmeÄ Corpus (HÀdanefter SUC).
Att i liksom andra prepositioner kan sÀgas ha en prototypisk riktningsbetydelse
betyder inte att var nödvÀndigtvis ska fungera som utgÄngsfall. Det förekommer
âlagerâ av undantag inom olika strukturslag i programmet men Ă€ven externt
motiverade sÄdana utgÄende frÄn huvudverbet, som genom valensmatchning kan
klargöra att ett adverbial Ă€r âprepositionsobjektâ och dĂ€rmed fĂ„r andra
omfrÄgningsegenskaper. De anvÀndargrÀnssnitt som skapats och anvÀnts för
regelskrivande utifrÄn faktiska exempel har tillÄtit viss omedelbar
regeluppdatering och Äterkontroll vid Äsynen av felaktiga resultat. Det Àr ocksÄ
genom tillÀgg av nya undantagsregler i nÄgon mening som programmet rimligen
ska kunna förbÀttras framöver frÄn den aktuella kvalitetsnivÄn. Korrektheten
som uppnÄtts hittills Àr inte kvantitativt övertygande men detta arbete som
saknar föregÄngare möjliggör kontinuerlig förbÀttring genom programmet.
Projektet visar att mappningsuppgiften i stora stycken verkar görbar nÀr rÀtt
identifikation av huvudord, rektionshuvudord etc. identifieras med hjÀlp av
metoden ovan. Emellertid finns fall dĂ„ det aktuella totala perspektivet, âge
frĂ„geled för samtliga adverbialâ, gör att uppgiften kĂ€nns mĂ€rklig och dĂ„ det Ă€r
oklart vad som egentligen Àr korrekt frÄgemotsvarighet. Att vÀlja ut vilka
led/frÄgor som i ett senare skede verkligen ska anvÀndas som realistiska
frÄgor/svarsled i ett anvÀndningsperspektiv tillhör dock den mer övergripande
frÄgegenereringsuppgiften och behandlas inte direkt i dett
Revision of Part-of-Speech Tagging in Stockholm UmeÄ Corpus 2.0
Many parsers use a part-of-speech tagger as a ïŹrst step in parsing. The accuracy of the tagger naturally affects the performance of the parser. In this experiment, we revise 1500+ proposed errors in SUC 2.0 that were mainly found during work with schema parsing, and evaluate tagger instances trained on the revised corpus. The revisions turned out to be beneïŹcial also for the taggers.Samarbete med Eva Forsbom, Uppsala universite
Revision of Part-of-Speech Tagging in Stockholm UmeÄ Corpus 2.0
Many parsers use a part-of-speech tagger as a ïŹrst step in parsing. The accuracy of the tagger naturally affects the performance of the parser. In this experiment, we revise 1500+ proposed errors in SUC 2.0 that were mainly found during work with schema parsing, and evaluate tagger instances trained on the revised corpus. The revisions turned out to be beneïŹcial also for the taggers.Samarbete med Eva Forsbom, Uppsala universite