7 research outputs found

    Sequence Tagging for Fast Dependency Parsing

    Get PDF
    [Abstract] Dependency parsing has been built upon the idea of using parsing methods based on shift-reduce or graph-based algorithms in order to identify binary dependency relations between the words in a sentence. In this study we adopt a radically different approach and cast full dependency parsing as a pure sequence tagging task. In particular, we apply a linearization function to the tree that results in an output label for each token that conveys information about the word’s dependency relations. We then follow a supervised strategy and train a bidirectional long short-term memory network to learn to predict such linearized trees. Contrary to the previous studies attempting this, the results show that this approach not only leads to accurate but also fast dependency parsing. Furthermore, we obtain even faster and more accurate parsers by recasting the problem as multitask learning, with a twofold objective: to reduce the output vocabulary and also to exploit hidden patterns coming from a second parsing paradigm (constituent grammars) when used as an auxiliary task.Ministerio de Economía y Competitividad; TIN2017-85160-C2-1-RXunta de Galicia; ED431B 2017/0

    Parsing as Pretraining

    Get PDF
    [Abstract] Recent analyses suggest that encoders pretrained for language modeling capture certain morpho-syntactic structure. However, probing frameworks for word vectors still do not report results on standard setups such as constituent and dependency parsing. This paper addresses this problem and does full parsing (on English) relying only on pretraining architectures – and no decoding. We first cast constituent and dependency parsing as sequence tagging. We then use a single feed-forward layer to directly map word vectors to labels that encode a linearized tree. This is used to: (i) see how far we can reach on syntax modelling with just pretrained encoders, and (ii) shed some light about the syntax-sensitivity of different word vectors (by freezing the weights of the pretraining network during training). For evaluation, we use bracketing F1-score and LAS, and analyze in-depth differences across representations for span lengths and dependency displacements. The overall results surpass existing sequence tagging parsers on the PTB (93.5%) and end-to-end EN-EWT UD (78.8%).We thank Mark Anderson and Daniel Hershcovich for their comments. DV, MS and CGR are funded by the ERC under the European Union’s Horizon 2020 research and innovation programme (FASTPARSE, grant No 714150), by the ANSWER-ASAP project (TIN2017-85160-C2-1-R) from MINECO, and by Xunta de Galicia (ED431B 2017/01). AS is funded by a Google Focused Research AwardXunta de Galicia; ED431B 2017/0

    "Jeg forstÄr (ikke) norsken din!". En sosiolingvistisk studie i forstÄelse av norske dialekter blant polske studenter i Oslo.

    Get PDF
    Denne oppgaven handler om polske norskinnlĂŠreres evne til Ă„ forstĂ„ og lokalisere fem norske dialekter. Temaet blir belyst ved hjelp av kvalitative og kvantitative metoder. Ti polske informanter svarte pĂ„ en spĂžrreundersĂžkelse og tok en dialekttest. En kontrollgruppe bestĂ„ende av fem norske informanter tok ogsĂ„ dialekttesten. Dette gjorde det mulig Ă„ sammenligne resultatene til mĂ„lgruppen med kontrollgruppen. Informantene ble testet i dialektene Oslo, Bergen, TromsĂž, Stavanger og Trondheim. Analysen av resultatene av undersĂžkelsen ble gjennomfĂžrt i tre deler. Den fĂžrste delen viser i hvilken grad de polske og norske informantene svarte riktig pĂ„ spĂžrsmĂ„l som testet generell forstĂ„else av de enkelte dialektene. Den andre delen viser i hvilken grad kontroll- og mĂ„lgruppen lokaliserte de fem dialektene riktig geografisk. I den tredje delen er mulige faktorer som kan ha pĂ„virket resultatene til de polske informantene presentert. Analysen viste at de polske informantene oppnĂ„dde lavere resultater pĂ„ dialekttesten enn de norske informantene. Hypotesen om at de polske informantene forstĂ„r oslodialekt bedre enn de andre fire norske dialektene ble bekreftet. I tillegg var det stor variasjon i resultatene til de polske informantene. Dette gjelder bĂ„de generell forstĂ„else og geografisk lokalisering av de norske dialektene. Videre viser undersĂžkelsen at de polske informantene hadde liten kjennskap til dialektale ord. I tillegg hadde de problemer med Ă„ gjenkjenne ord de hadde kjenskap til, noe som kan tyde pĂ„ at de kun har lagret en fonologisk representasjon av et ord og at representasjonen ikke alltid omfatter uttale av det samme ordet pĂ„ en annen dialekt. Enkel regresjonsanalyse viser at de polske informantene som hadde bodd lengst i Norge gjennomsnittlig skĂ„ret best i generell forstĂ„else av de utvalgte dialektene, men skĂ„ret dĂ„rligere pĂ„ geografisk lokalisering. Studien tyder pĂ„ at ”fortrolighetseffekten” (eng. ”familiarity effect”) mellom norske dialekter ser ut til Ă„ ha funnet sted hos de polske informantene. Denne undersĂžkelsen tyder pĂ„ at andresprĂ„ksinnlĂŠrere kan ha nytte av Ă„ fĂ„ mer opplĂŠring i norske dialekter, for eksempel mer trening i Ă„ lytte til norske dialekter, opplĂŠring i dialekttrekk, dialektale ord og dialektenes geografi pĂ„ kurs for andresprĂ„ksinnlĂŠrere av norsk
    corecore