10 research outputs found
An application of distributional semantics for the analysis of the Holy Quran
In this contribution we illustrate the methodology and the results of an experiment we conducted by applying Distributional Semantics Models to the analysis of the Holy Quran. Our aim was to gather information on the potential differences in meanings that the same words might take on when used in Modern Standard Arabic w.r.t. their usage in the Quran. To do so we used the Penn Arabic Treebank as a contrastive corpu
Leveraging a Narrative Ontology to Query a Literary Text
In this work we propose a model for the representation of the narrative of a literary text. The model is structured in an ontology and a lexicon constituting a knowledge base that can be queried by a system. This narrative ontology, as well as describing the actors, locations, situations found in the text, provides an explicit formal representation of the timeline of the story. We will focus on a specific case study, that of the representation of a selected portion of Homer\u27s Odyssey, in particular of the knowledge required to answer a selection of salient queries, formulated by a literary scholar. This work is being carried out within the framework of the Semantic Web by adopting models and standards such as RDF, OWL, SPARQL, and lemon among others
La Modellazione Diacronica di Risorse Termino-Ontologiche nell'Ambito delle Digital Humanities: Esperimenti su Clavius
Abstract English. In this work, we present an experiment in the modeling of a diachronic termino-ontological resource named CLAVIUS through both the N-ary relations model and the 4D-fluents approach. Some of the salient differences of these two models are discussed. The overall objective of this research is to illustrate the main advantages and disadvantages in the adoption of a given model to build diachronic resources. Italiano. In questo lavoro, si illustra un esperimento di modellazione di una risorsa termino-ontologica diacronica (CLAVIUS) secondo due approcci, quello N-ario e quello dei 4D-fluents. Le differenze salienti dei due approcci verranno presentate e discusse. L'obiettivo generale della ricerca qui introdotta è quello di mostrare i principali vantaggi e svantaggi che l'adozione di un determinato modello può comportare nella modellazione di risorse diacroniche. Introduzione Pà nta rei è la celebre espressione attribuita da Platone ad Eraclito. Tutto è sottoposto alla inesorabile legge del mutamento: la realtà , le categorie attraverso le quali la organizziamo e le parole che usiamo per parlare di essa. Quali sono gli strumenti a disposizione dell'umanista digitale di oggi, che si trovi a dover rappresentare in modo esplicito e formale tale evoluzione diacronica dei concetti e dei termini in un determinato ambito, in modo che tale formalizzazione sia computabile ad un calcolatore? In questi ultimi anni, ed in particolar modo nell'ambito delle Digital Humanities, si è sottolineata l'importanza di operare con tecnologie che siano alla base del Semantic Web e dei Linked Open Data per garantire interoperabilità e riuso delle risorse all'interno della comunità scientifica In questa ottica, le ontologie -e l'OWL, il loro linguaggio di rappresentazione standard -giocano un ruolo fondamentale. Tuttavia, il carattere fondamentalmente statico di questi ultimi e la necessità di modellare aspetti di evoluzione temporale sembrano a prima vista inconciliabili. Le riflessioni che presentiamo in questo articolo nascono dalle esperienze condotte in seno al Progetto Clavius on the Web 1 . Tra gli obiettivi del Progetto, infatti, vi è anche quello di creare una risorsa termino-ontologica (RTO) che rappresenti l'evoluzione delle teorie matematicoastronomiche dall'antichità al XVI -XVII secolo, così come viene descritta da Clavius nei suoi Euclidis Elementorum Libri XV. Accessit XVI e In sphaeram Ioannis de Sacro Bosco Commentarius. Il Contesto Come sottolineato nell'Introduzione, il linguaggio OWL (e la sua estensione OWL2) è lo standard W3C per la creazione e condivisione di ontologie nel Semantic Web. In particolare, OWL DL implementa la logica descrittiva SHOIN (D n ), che garantisce una maggiore espressività rispetto a RDF e RDFS, senza compromettere la decidibilità e il meccanismo inferenziale. Tuttavia, OWL è un linguaggio statico; in esso le proprietà e le relazioni tra entità sono fondamentalmente binarie, espresse sotto forma di triple <Subject predicate Object>. Tale restrizione sintattica rende più complessa la rappresentazione 1 http://claviusontheweb.it (ultimo accesso: 13/10/2016
Il Sistema Traduco nel Progetto Traduzione del Talmud Babilonese
Nell’ambito del Progetto Traduzione del Talmud Babilonese, l’Istituto di Linguistica Computazionale del CNR ha sviluppato Traduco, uno strumento web collaborativo con alcune caratteristiche che lo rendono particolarmente adatto alla traduzione di testi che pongono problemi interpretativi. Ad oggi, gli strumenti per la traduzione assistita (in inglese, Computer-Assisted Translation, o CAT) sono utilizzati tipicamente per la traduzione di manuali tecnici, testi legislativi o siti Web e hanno principalmente lo scopo di accelerare il processo di traduzione. Traduco riprende la maggior parte dei componenti standard di uno strumento di traduzione assistita tradizionale, ma li estende con caratteristiche specifiche necessarie per supportare l’interpretazione e la traduzione di testi complessi che pongono particolari problemi di comprensione. In questo articolo presenteremo un caso di studio specifico, relativo a un testo con queste caratteristiche: il Talmud Babilonese. Traduco include funzionalità per l’aggiunta di note, riferimenti bibliografici, annotazioni semantiche e creazione di glossari. Traduttori, revisori, redattori, supervisori e utenti finali che accedono al Sistema sono supportati nell’intero processo di traduzione, che va dall’interpretazione del testo originario alla fase editoriale per la stampa delle traduzioni, attraverso l’uso di tecnologie di traduzione assistita, l’annotazione semantica del testo, l’arricchimento delle traduzioni con informazioni esplicative, l’esportazione delle traduzioni in XML e in TEI e l’integrazione di tecniche per il trattamento automatico della lingua. La progettazione e lo sviluppo di Traduco ha richiesto l’adozione di un approccio multidisciplinare che combina aspetti di ingegneria del software, linguistica computazionale, ingegneria della conoscenza ed editoria digitale
When Translation Requires Interpretation: Collaborative Computer--Assisted Translation of Ancient Texts
This paper introduces the main features of Traduco, a Web-based, collaborative Computer-Assisted Translation (CAT) tool developed to support the translation of ancient texts. In addition to the standard components offered by traditional CAT tools, Traduco includes a number of features designed to ease the translation of ancient texts, such as the Babylonian Talmud, posing specific structural, stylistic, linguistic and hermeneutical challenges
Distributional Models for Semantic Relations: A Sudy on Hyponymy and Antonymy
The overall purpose of this research project is to study and explore the potential and limitations of the distributional approach with respect to lexical semantics.
Analyzing paradigmatic relations such as synonymy, antonymy, hypernymy, hyponymy and co-hyponymy while using distributional methods could be very interesting and really challenging. For instance, state of the art semantic distributional methods have difficulties in distinguishing these relations. This is because these relations tend to distribute, within the texts, in a very similar way. We first carried out a study about current state of the art distributional measures developed for the recognition of paradigmatic semantic relations, trying to assess the degree of success reported by such measures. We then used the data we gathered to develop new distributional measures apt to classify the hyponymy/hypernymy relation and the antonymy relation.
Not only did we prove that distributional methods can indeed be used in order to classify, in a non-supervised way, these relations; we also developed measures, especially conceived for recognizing and classifying hypernymy and antonymy, that performs better than state of the art ones.
L'obiettivo generale di questo progetto di ricerca è quello di studiare ed esplorare le potenzialità e i limiti dell'approccio distribuzionale rispetto alla semantica lessicale.
Utilizzare metodi basati sull’approccio distribuzionale per l’analisi delle relazioni semantiche paradigmatiche (come sinonimia, antonimia, iperonimia, iponimia e co-iponimia) potrebbe rivelarsi molto complesso e al contempo molto interessante, per varie ragioni. Ad esempio, le attuali misure allo stato dell'arte basate sull’approccio distribuzionale hanno difficoltà nel distinguere queste relazioni. Questo perché queste relazioni tendono a distribuirsi, all'interno dei testi, in un modo molto simile l’una all’altra.
In primo luogo abbiamo quindi condotto uno studio sulle misure distribuzionali sviluppate per il riconoscimento delle relazioni semantiche paradigmatiche attualmente allo stato dell’arte, cercando di valutare il grado di successo riportato da tali misure. Abbiamo poi utilizzato i dati raccolti allo scopo di sviluppare nuove misure distribuzionali atte a classificare la relazione di iponimia / iperonimia e la relazione di antonimia.
In questo lavoro, non solo si riesce a dimostrare che con metodi distribuzionali è possibile classificare, in modo non supervisionato, relazioni semantiche paradigmatiche; ma sono anche state sviluppate misure distribuzionali studiate appositamente per il riconoscimento e la classificazione di iperonimia e antonimia, che danno risultato migliori di quelle allo stato dell'arte
Semantic relation extraction and classification. Experiments on Wikipedia.it
Semantic relations between concepts or entities exist in textual documents, keywords or key
phrases, and tags generated in social tagging systems. Relation extraction refers to the
identification and assignment of relations between concepts or entities. Basically, it can explore relations that are implicit to underlying data and then add new knowledge to the different domains.
The purpose of our work was to develop a semi-unsupervised system that was able to automatically extract semantical relations between nominals in a dump extracted from the ialian Wikipedia in November 2008. In addition, we wanted it to correctly classify semantical relations between nominals.
We used a seed-based, pattern-based, semi-unsupervised approach for Relation extraction, while we implemented a variation of Vector Space Model for relation classification. we used manually selected seeds for both purposes. in addition, we implemented a script for the automatic extraction of seed pair to be used with our algorithm
Investigating the Application of Distributional Semantics to Stylometry
Abstract English. The inclusion of semantic features in the stylometric analysis of literary texts appears to be poorly investigated. In this work, we experiment with the application of Distributional Semantics to a corpus of Italian literature to test if words distribution can convey stylistic cues. To verify our hypothesis, we have set up an Authorship Attribution experiment. Indeed, the results we have obtained suggest that the style of an author can reveal itself through words distribution too. Italiano. L'inclusione di caratteristiche semantiche nell'analisi stilometrica di testi letterari appare poco studiata. In questo lavoro, sperimentiamo l'applicazione della Semantica Distribuzionale ad un corpus di letteratura italiana per verificare se la distribuzione delle parole possa fornire indizi stilistici. Per verificare la nostra ipotesi, abbiamo imbastito un esperimento di Authorship Attribution. I risultati ottenuti suggeriscono che, effettivamente, lo stile di un autore pu rivelarsi anche attraverso la distribuzione delle parole