26 research outputs found

    Automatic Question Generation from Swedish Documents as a Tool for Information Extraction

    Get PDF
    Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA 2011. Editors: Bolette Sandford Pedersen, Gunta NeĆĄpore and Inguna SkadiƆa. NEALT Proceedings Series, Vol. 11 (2011), 323-326. © 2011 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/1695

    Automatic Variation of Swedish Text by Syntactic Fronting

    Get PDF
    Proceedings of the Workshop on NLP for Reading and Writing – Resources, Algorithms and Tools (SLTC 2008). Editors: Rickard Domeij, Sofie Johansson Kokkinakis, Ola Knutsson and Sylvana Sofkova Hashemi. NEALT Proceedings Series, Vol. 3 (2009), 22-23. © 2009 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/4116

    Results from the CERN pilot CLOUD experiment

    Get PDF
    During a 4-week run in October–November 2006, a pilot experiment was performed at the CERN Proton Synchrotron in preparation for the Cosmics Leaving OUtdoor Droplets (CLOUD) experiment, whose aim is to study the possible influence of cosmic rays on clouds. The purpose of the pilot experiment was firstly to carry out exploratory measurements of the effect of ionising particle radiation on aerosol formation from trace H2SO4 vapour and secondly to provide technical input for the CLOUD design. A total of 44 nucleation bursts were produced and recorded, with formation rates of particles above the 3 nm detection threshold of between 0.1 and 100 cm -3 s -1, and growth rates between 2 and 37 nm h -1. The corresponding H2O concentrations were typically around 106 cm -3 or less. The experimentally-measured formation rates and htwosofour concentrations are comparable to those found in the atmosphere, supporting the idea that sulphuric acid is involved in the nucleation of atmospheric aerosols. However, sulphuric acid alone is not able to explain the observed rapid growth rates, which suggests the presence of additional trace vapours in the aerosol chamber, whose identity is unknown. By analysing the charged fraction, a few of the aerosol bursts appear to have a contribution from ion-induced nucleation and ion-ion recombination to form neutral clusters. Some indications were also found for the accelerator beam timing and intensity to influence the aerosol particle formation rate at the highest experimental SO2 concentrations of 6 ppb, although none was found at lower concentrations. Overall, the exploratory measurements provide suggestive evidence for ion-induced nucleation or ion-ion recombination as sources of aerosol particles. However in order to quantify the conditions under which ion processes become significant, improvements are needed in controlling the experimental variables and in the reproducibility of the experiments. Finally, concerning technical aspects, the most important lessons for the CLOUD design include the stringent requirement of internal cleanliness of the aerosol chamber, as well as maintenance of extremely stable temperatures (variations below 0.1 °C

    Heuristic Analysis with Diderichsen’s Sentence Schema – Applications for Swedish Text

    Get PDF
    A heuristic method for parsing Swedish text, heuristic schema parsing, is described and im-plemented. Focusing on main clause (primary) analysis, a collection of licensing techniques for removing non-primary verb candidates is employed, leaving e.g. the primary verbs, particles and conjunctions (bounded key constituents) that delimit the content of the fields in Diderichsen’s sentence schema. Hereby, the subsequent identification of constituents which do not have an upper bound on their length (subject, object/predicatives and adverbials) can be identified relying to a lesser on extent explicit pattern matching, and more on different heu-ristic rules. For phrase type identification and delimitation of these constituents, when adja-cent to each other, a novel chunking technique, rank-based chunking, is applied. Following this, a series of further rules merge chunks into larger ones, aiming at a final number of nomi-nal chunks compatible with the valency information of the main verb. The aim is to identify full nominal and adverbial constituents, including post-modifiers. The implementation uses the Stockholm UmeĂ„ Corpus 2.0, a corpus which is balanced for different genres in published Swedish text. SUC’s tagset is also used unmodified in part-of-speech tagging which enables the program to deal with input text. The functional parsing, which includes no explicit lan-guage-defining grammar component is carried out technically using an object-based represen-tation of clause structure. Although output formats and types of evaluations of correctness are very different in parsers for Swedish text, it is claimed that the manual approach presented can provide high accuracy, which can be improved given more time for development. The thesis work also includes two prototype applications, both requiring high accuracy of the sort of functional syntactic analysis described here. The first one is an implementation of automatic syntactic fronting in the area of text editing for Swedish, where the user is pre-sented with a syntactically analyzed copy of her writing, from which paraphrases easily can be generated. The second application is in the field of natural language query systems and produces questions with answers from an arbitrary declarative input text. This prototype in-corporates a text database from Swedish Wikipedia, and investigates primarily generation of WH-questions formed via fronting of unbounded primary constituents. The questions are gen-erated as a text is opened and thus permits users to only ask the available ones, thus aiming at a high precision value.En heuristisk metod för parsning av svensk text, heuristisk schemaparsning, med implementa-tion beskrivs. Med fokus pĂ„ huvudsatsanalys anvĂ€nds en samling licensieringstekniker för att utesluta icke-primĂ€ra kandidater till de lĂ€ngdbegrĂ€nsade (eng: bounded) nyckelkomponenter som avgrĂ€nsar fĂ€lt och andra utrymmen i Diderichsens satsschema. HĂ€rigenom kan de funk-tionella konstituenter som Ă€r (potentiellt) obegrĂ€nsade i lĂ€ngd (eng: unbounded), subjekt, ob-jekt/predikativ och adverbial, identifieras genom att i lĂ€gre grad anvĂ€nda explicit matchning av flerordsled och istĂ€llet tillĂ€mpa olika heuristiska regler. För frastypsbestĂ€mning och av-grĂ€nsning av dessa konstituenter, nĂ€r de Ă€r angrĂ€nsande, presenteras först en ny segmente-ringsmetod, rangbaserad chunkning. Denna segmentering följs av en serie möjliga samman-fogningar som syftar till att nĂ„ ett antal nominala led som Ă€r kompatibelt med valensen hos satsens huvudverb. MĂ„lsĂ€ttningen för denna metod Ă€r identifikation av hela nominala och adverbiella led, inklusive efterstĂ€llda attribut. Detta avhandlingsprojekt baseras pĂ„ Stockholm UmeĂ„ Corpus 2.0 som speglar olika genrer av svensk publicerad text. Dess tagguppsĂ€ttning anvĂ€nds ocksĂ„ omodifierad i en ordklasstaggare som möjliggör hantering av valfri textinput. Den inre representationen av en textmening, under denna funktionella syntaxanalys som inte innehĂ„ller nĂ„gon explicit sprĂ„kdefinierande grammatikkomponent, Ă€r objektbaserad. Även om utdataformat och förutsĂ€ttningar för korrekthetsutvĂ€rderingar varierar mycket för svenska parsningsprojekt, hĂ€vdas att ansatsen kan ge hög korrekthet, vilken kan förbĂ€ttras om mer tid Ă€gnas Ă„t det manuella regelskrivandet. Avhandlingsarbetet inkluderar Ă€ven tvĂ„ prototyptillĂ€mpningar som bĂ„da krĂ€ver hög korrekthet av den analysform som hĂ€r produceras. Den första Ă€r en implementation i omrĂ„det ordbehand-ling dĂ€r en anvĂ€ndare ges möjlighet att automatiskt parafrasera skrivna textmeningar dĂ„ syn-taxanalys av dessa visas. Den andra applikationen som presenteras tillhör omrĂ„det natural language query systems och genererar automatiskt frĂ„gor till en godtycklig införd text. Denna prototyp inbegriper textdatabasen frĂ„n svenska Wikipedia och undersöker frĂ€mst generering av hv-frĂ„gor som bildas genom spetsstĂ€llning och mappning till frĂ„geord. FrĂ„gegenereringen sker nĂ€r en text öppnas och tillĂ„ter frĂ„gor frĂ„n anvĂ€ndaren med speciellt fokus pĂ„ precion-vĂ€rdet – hög korrekthet pĂ„ svaren givet frĂ„gorna

    Huvudansatser för parsningsmetoder. Om programutvecklingens förutsÀttningar i en svensk kontext

    Get PDF
    Syftet med denna text var att ge en inblick i omrĂ„det (syntaktisk) parsning. Tanken var att ge en bild av utvecklingen som var 1) fri frĂ„n alltför tekniska detaljer, dĂ„ omrĂ„det Ă€r programmeringstekniskt, och 2) beskriven ur ett svenskt perspektiv. Bakgrunden till valet av Ă€mne till texten, som var tĂ€nkt att finnas med i antologin Text och kontext, var att parsning Ă€r relativt okĂ€nt för mĂ„nga personer verksamma inom nĂ€rliggande omrĂ„den, samtidigt som det Ă€r ett absolut nyckelbegrepp för den som Ă€gnar sig Ă„t datorlingvistik eller sprĂ„kteknologi. MĂ„let var alltsĂ„ att ge en ganska allmĂ€n utifrĂ„nblick pĂ„ nĂ„gra centrala sidor av utvecklingen, samtidigt som det tydligt Ă€r sĂ„ att den som sjĂ€lv arbetat med utveckling kan ha starka Ă„sikter och preferenser rörande metodval, nĂ„got som i Ă€rlighetens namn kanske inte heller denna text Ă€r lösgjord frĂ„n. Hur ska det göras? Konsten att utveckla automatisk syntaxanalys av naturlig text kan lĂ€ras ut frĂ„n ett flertal perspektiv. Det kan t.ex. ske med fokus pĂ„ anvĂ€ndandet av en viss grammatikformalism, med fokus pĂ„ berĂ€kningssnabbhet, med fokus pĂ„ entydiggörande av möjliga ambiguiteter. Tolkningsval kan göras med hjĂ€lp av antingen handskrivna regler eller inhĂ€mtad statistik. En sorts huvudtema i denna text Ă€r hur metoder för parsning pĂ„ senare Ă„r uppvisar förĂ€ndringar som kanske kan förklaras med att programmen har fĂ„tt andra anvĂ€ndningsomrĂ„den och att metoderna har anpassats dĂ€refter (en annan tolkning Ă€r att flera senare system inte lĂ€ngre gör parsning i strikt mening). NĂ€r detta tĂ€nkta ”kapitel” var fĂ€rdigt fick det kommentaren att det inte var anpassat för antologins mĂ„lgrupp. Det fick skrivas en annan kapiteltext, men det kom samtidigt ett förslag att publicera texten om parsning hĂ€r som denna rapport

    Adverbialkarakteristik för praktisk informationsextraktion i svensk text Projektrapport

    Get PDF
    Den aktuella rapporten beskriver ett projekt som i första hand har inneburit ett praktiskt arbete syftande till att skapa en automatiserad process som returnerar frĂ„geled, t.ex. varifrĂ„n, för adverbialled, t.ex. inifrĂ„n rummet, i svensk digital text. Det Ă€r en utbytesprocess som behövs av rent praktiska skĂ€l i uppgiften frĂ„gegenerering, vilken innebĂ€r att en samling frĂ„gor som en text besvarar genereras snabbt automatiskt. Denna process finner sin plats i program som pĂ„ olika sĂ€tt syftar till att ge informationsĂ„tkomst i godtycklig okĂ€nd svensk text. Det Ă€r i detta tillĂ€mpningsfall frĂ„ga om att pĂ„ nĂ„got sĂ€tt öppna upp för den stora informationsmĂ€ngd som i datalogiskt perspektiv ligger ’ostrukturerad’, dvs. i naturligt sprĂ„k-form. Syftet med att avgöra lĂ€mpliga frĂ„geled (ofta till en hv-form) för förekommande satsled i text har dock förmodligen en mer allmĂ€n relevans Ă€n anvĂ€ndning i nĂ€mnda programtyp. Förutom att ocksĂ„ behövas i andra liknande datalingvistiska applikationer kan sjĂ€lva frĂ„gestĂ€llningen rymmas inom ramarna för grundforskningen. De vanliga semantiskt grundade adverbialkategorierna (vilka skiljer sig Ă„t mellan olika grammatikor) definierar gĂ€rna adverbialkategorier just genom att beskriva vilka slags frĂ„gor de besvarar. Att som hĂ€r sikta pĂ„ att avgöra frĂ„geled för adverbial Ă€r en mer detaljerad uppgift Ă€n att avgöra adverbialkategori. Den praktiska metod som implementerats i projektet kan sönderdelas i ett antal steg som antas vara allmĂ€ngiltiga och svĂ„ra att undgĂ„ med det aktuella syftet. Indata till programmet Ă€r ett i princip godtyckligt adverbialled som anvĂ€ndaren i prototypprogrammet kan skriva in. De nĂ€mnda steg som tar vid Ă€r de följande. 1) En uppmĂ€rkning med ordklass- och annan grammatisk information för varje löpord inleder. Detta sker med en statistisk trigrambaserad s.k. Hidden Markovmodell. 2/3) Ett avgörande av vilken strukturtyp som ledet har (bisats, PP, etc.) görs utifrĂ„n löporden med informationen i föregĂ„ende steg. Intimt förknippat med denna uppgift Ă€r bestĂ€mning av huvudord, och för flera led Ă€ven bestĂ€mning av andra signifikanta komponenter som rektionshuvudord. Lösningen till detta delsteg heter rangbaserad chunkning. 4) De steg som följer hĂ€refter skiljer sig mycket Ă„t beroende pĂ„ den aktuella strukturtypen. För prepositionsfraser undersöks t.ex. preposition och, beroende pĂ„ vilken preposition det Ă€r frĂ„ga om, rektionshuvudord, dess grundform och andra ingĂ„ende textsegment. I arbetet har t.ex. SweFN (Borin, DannĂ©lls, Forsberg, Toporowska Gronostaj, & Kokkinakis, 2010) delvis undersökts för att eventuellt förbĂ€ttra avgörandet av substantivsemantik, vilket ofta blir relevant för PPadverbial. Rapporten visar hur uppgiften praktiskt sett varierar mycket i svĂ„righetsgrad, frĂ„n de fall dĂ€r adverbialet utgörs av t.ex. particip-, adverbfraser eller bisatser, dĂ„ en mappning till motsvarande frĂ„geled ofta kan ske direkt utifrĂ„n huvudordet – till de mest komplicerade fallen av PP och s.k. som-fraser dĂ€r kombinationer av huvudord, rektionshuvudord, dess grundform samt annan syntaktisk och semantisk information krĂ€vs för att urskilja förekomsters sĂ€rskilda frĂ„gemotsvarigheter. Ett Ă„terkommande tema i det praktiska arbetet Ă€r undantag som behöver kĂ€nnas igen. Exempelvis kategorin satsadverbial, som kan anta mĂ„nga olika strukturella former men som Ă€ndĂ„ oftast renderar resultatet ’ingen frĂ„gemotsvarighet’, mĂ„ste kĂ€nnas igen uttryckligen (ev. tillsammans med andra med samma frĂ„geledsresultat). Även processen som helhet bygger emellertid programmeringstekniskt pĂ„ grundfall och undantag. I mĂ„nga fall, som t.ex. för i- PP finns det en mĂ€ngd olika motsvarigheter och vad som fĂ„r utgöra grundfall i programmet blir en empirisk/heuristisk frĂ„ga under det att regler skrivs mot faktiska förekomster av adverbial i Stockholm UmeĂ„ Corpus (HĂ€danefter SUC). Att i liksom andra prepositioner kan sĂ€gas ha en prototypisk riktningsbetydelse betyder inte att var nödvĂ€ndigtvis ska fungera som utgĂ„ngsfall. Det förekommer ’lager’ av undantag inom olika strukturslag i programmet men Ă€ven externt motiverade sĂ„dana utgĂ„ende frĂ„n huvudverbet, som genom valensmatchning kan klargöra att ett adverbial Ă€r ’prepositionsobjekt’ och dĂ€rmed fĂ„r andra omfrĂ„gningsegenskaper. De anvĂ€ndargrĂ€nssnitt som skapats och anvĂ€nts för regelskrivande utifrĂ„n faktiska exempel har tillĂ„tit viss omedelbar regeluppdatering och Ă„terkontroll vid Ă„synen av felaktiga resultat. Det Ă€r ocksĂ„ genom tillĂ€gg av nya undantagsregler i nĂ„gon mening som programmet rimligen ska kunna förbĂ€ttras framöver frĂ„n den aktuella kvalitetsnivĂ„n. Korrektheten som uppnĂ„tts hittills Ă€r inte kvantitativt övertygande men detta arbete som saknar föregĂ„ngare möjliggör kontinuerlig förbĂ€ttring genom programmet. Projektet visar att mappningsuppgiften i stora stycken verkar görbar nĂ€r rĂ€tt identifikation av huvudord, rektionshuvudord etc. identifieras med hjĂ€lp av metoden ovan. Emellertid finns fall dĂ„ det aktuella totala perspektivet, ”ge frĂ„geled för samtliga adverbial”, gör att uppgiften kĂ€nns mĂ€rklig och dĂ„ det Ă€r oklart vad som egentligen Ă€r korrekt frĂ„gemotsvarighet. Att vĂ€lja ut vilka led/frĂ„gor som i ett senare skede verkligen ska anvĂ€ndas som realistiska frĂ„gor/svarsled i ett anvĂ€ndningsperspektiv tillhör dock den mer övergripande frĂ„gegenereringsuppgiften och behandlas inte direkt i dett

    Revision of Part-of-Speech Tagging in Stockholm UmeÄ Corpus 2.0

    No full text
    Many parsers use a part-of-speech tagger as a ïŹrst step in parsing. The accuracy of the tagger naturally affects the performance of the parser. In this experiment, we revise 1500+ proposed errors in SUC 2.0 that were mainly found during work with schema parsing, and evaluate tagger instances trained on the revised corpus. The revisions turned out to be beneïŹcial also for the taggers.Samarbete med Eva Forsbom, Uppsala universite

    Revision of Part-of-Speech Tagging in Stockholm UmeÄ Corpus 2.0

    No full text
    Many parsers use a part-of-speech tagger as a ïŹrst step in parsing. The accuracy of the tagger naturally affects the performance of the parser. In this experiment, we revise 1500+ proposed errors in SUC 2.0 that were mainly found during work with schema parsing, and evaluate tagger instances trained on the revised corpus. The revisions turned out to be beneïŹcial also for the taggers.Samarbete med Eva Forsbom, Uppsala universite
    corecore