3 research outputs found

    Unsupervised and supervised text similarity systems for automated identification of national implementing measures of European directives

    Get PDF
    The automated identification of national implementations (NIMs) of European directives by text similarity techniques has shown promising preliminary results. Previous works have proposed and utilized unsupervised lexical and semantic similarity techniques based on vector space models, latent semantic analysis and topic models. However, these techniques were evaluated on a small multilingual corpus of directives and NIMs. In this paper, we utilize word and paragraph embedding models learned by shallow neural networks from a multilingual legal corpus of European directives and national legislation (from Ireland, Luxembourg and Italy) to develop unsupervised semantic similarity systems to identify transpositions. We evaluate these models and compare their results with the previous unsupervised methods on a multilingual test corpus of 43 Directives and their corresponding NIMs. We also develop supervised machine learning models to identify transpositions and compare their performance with different feature sets

    L'annotazione dell'aspetto verbale per il trattamento automatico della lingua italiana: esperimenti e valutazioni

    Get PDF
    Il riconoscimento e l’annotazione dell’aspetto e dell’azione verbale si configurano come task complessi, in cui interagiscono allo stesso tempo vari livelli di elaborazione linguistica. Proprio a causa della difficoltà di risoluzione dei problemi che riguardano il dominio tempo-aspettuale, l’indagine svolta in questo lavoro si è sviluppata secondo un processo gerarchicamente ordinato in livelli di difficoltà crescente. Tenendo presente che l’orizzonte di riferimento è costituito dalla creazione di risorse annotate per sistemi di Natural Language Processing (NLP), si è cercato, innanzitutto, di rispondere a tre domande riguardanti lo stato dell’arte: 1. Esistono schemi di annotazione che contemplano l’etichettatura di azione e aspetto verbale? 2. Se e quali sono le risorse annotate attualmente disponibili che riportano questi tipi di informazione? 3. Quali e quanti sono i sistemi automatici disponibili utilizzati per la creazione di risorse linguistiche di questo tipo o che sfruttano questi dati per il proprio l’addestramento? Un’attenzione particolare è stata rivolta all’analisi dello schema di annotazione TimeML (Pustejovsky et al., 2003), per l’annotazione di eventi, espressioni temporali e delle loro relazioni, nell’ottica di indagare se e in quale misura vengono proposte metodologie per l’annotazione di aspettualità e azionalità e se queste sono sufficientemente esaurienti ed esaustive. Il lavoro svolto in questa tesi si giustifica proprio alla luce dei risultati ottenuti da quest’analisi. È risultato evidente, infatti, come l’annotazione aspettuale non sia molto diffusa nei corpora, con particolare riferimento alla marcatura dell’aspetto abituale. Tale mancanza è spesso giustificata con l’elevata difficoltà nel distinguere le varie tipologie di aspetto verbale: proprio dalla verifica di questa asserzione prende avvio l’esperimento svolto in questa tesi e l’idea di utilizzare la piattaforma di crowdsoucing CrowdFlower per testare la capacità di utenti non linguisticamente addestrati di individuare una particolare tipologia aspettuale, ovvero l’aspetto afferente alla classe dell’imperfettività gnomica (Bertinetto e Lenci, 2011). La decisione di marcare l’imperfettività gnomica (aspetti abituale, attitudinale, potenziale, generico e Individual Level predicate) è stata dettata dall’interesse per l’individuazione, all’interno dei testi, di frasi che esprimono una generalizzazione di qualche tipo oppure una proprietà che caratterizza un soggetto per un intero periodo della sua vita o per tutta la sua esistenza. Si è cercato, quindi, di capire se possa essere utile/possibile marcare questa particolare classe aspettuale in prospettiva di un’estrazione automatica di informazione di senso comune (Singh, 2002) da testi scritti
    corecore