5 research outputs found

    The Road to Quality is Paved with Good Revisions: A Detailed Evaluation Methodology for Revision Policies in Incremental Sequence Labelling

    Full text link
    Incremental dialogue model components produce a sequence of output prefixes based on incoming input. Mistakes can occur due to local ambiguities or to wrong hypotheses, making the ability to revise past outputs a desirable property that can be governed by a policy. In this work, we formalise and characterise edits and revisions in incremental sequence labelling and propose metrics to evaluate revision policies. We then apply our methodology to profile the incremental behaviour of three Transformer-based encoders in various tasks, paving the road for better revision policies.Comment: Accepted at SIGdial 202

    Exploiting word embeddings for modeling bilexical relations

    Get PDF
    There has been an exponential surge of text data in the recent years. As a consequence, unsupervised methods that make use of this data have been steadily growing in the field of natural language processing (NLP). Word embeddings are low-dimensional vectors obtained using unsupervised techniques on the large unlabelled corpora, where words from the vocabulary are mapped to vectors of real numbers. Word embeddings aim to capture syntactic and semantic properties of words. In NLP, many tasks involve computing the compatibility between lexical items under some linguistic relation. We call this type of relation a bilexical relation. Our thesis defines statistical models for bilexical relations that centrally make use of word embeddings. Our principle aim is that the word embeddings will favor generalization to words not seen during the training of the model. The thesis is structured in four parts. In the first part of this thesis, we present a bilinear model over word embeddings that leverages a small supervised dataset for a binary linguistic relation. Our learning algorithm exploits low-rank bilinear forms and induces a low-dimensional embedding tailored for a target linguistic relation. This results in compressed task-specific embeddings. In the second part of our thesis, we extend our bilinear model to a ternary setting and propose a framework for resolving prepositional phrase attachment ambiguity using word embeddings. Our models perform competitively with state-of-the-art models. In addition, our method obtains significant improvements on out-of-domain tests by simply using word-embeddings induced from source and target domains. In the third part of this thesis, we further extend the bilinear models for expanding vocabulary in the context of statistical phrase-based machine translation. Our model obtains a probabilistic list of possible translations of target language words, given a word in the source language. We do this by projecting pre-trained embeddings into a common subspace using a log-bilinear model. We empirically notice a significant improvement on an out-of-domain test set. In the final part of our thesis, we propose a non-linear model that maps initial word embeddings to task-tuned word embeddings, in the context of a neural network dependency parser. We demonstrate its use for improved dependency parsing, especially for sentences with unseen words. We also show downstream improvements on a sentiment analysis task.En els darrers anys hi ha hagut un sorgiment notable de dades en format textual. Conseqüentment, en el camp del Processament del Llenguatge Natural (NLP, de l'anglès "Natural Language Processing") s'han desenvolupat mètodes no supervistats que fan ús d'aquestes dades. Els anomenats "word embeddings", o embeddings de paraules, són vectors de dimensionalitat baixa que s'obtenen mitjançant tècniques no supervisades aplicades a corpus textuals de grans volums. Com a resultat, cada paraula del diccionari es correspon amb un vector de nombres reals, el propòsit del qual és capturar propietats sintàctiques i semàntiques de la paraula corresponent. Moltes tasques de NLP involucren calcular la compatibilitat entre elements lèxics en l'àmbit d'una relació lingüística. D'aquest tipus de relació en diem relació bilèxica. Aquesta tesi proposa models estadístics per a relacions bilèxiques que fan ús central d'embeddings de paraules, amb l'objectiu de millorar la generalització del model lingüístic a paraules no vistes durant l'entrenament. La tesi s'estructura en quatre parts. A la primera part presentem un model bilineal sobre embeddings de paraules que explota un conjunt petit de dades anotades sobre una relaxió bilèxica. L'algorisme d'aprenentatge treballa amb formes bilineals de poc rang, i indueix embeddings de poca dimensionalitat que estan especialitzats per la relació bilèxica per la qual s'han entrenat. Com a resultat, obtenim embeddings de paraules que corresponen a compressions d'embeddings per a una relació determinada. A la segona part de la tesi proposem una extensió del model bilineal a trilineal, i amb això proposem un nou model per a resoldre ambigüitats de sintagmes preposicionals que usa només embeddings de paraules. En una sèrie d'avaluacións, els nostres models funcionen de manera similar a l'estat de l'art. A més, el nostre mètode obté millores significatives en avaluacions en textos de dominis diferents al d'entrenament, simplement usant embeddings induïts amb textos dels dominis d'entrenament i d'avaluació. A la tercera part d'aquesta tesi proposem una altra extensió dels models bilineals per ampliar la cobertura lèxica en el context de models estadístics de traducció automàtica. El nostre model probabilístic obté, donada una paraula en la llengua d'origen, una llista de possibles traduccions en la llengua de destí. Fem això mitjançant una projecció d'embeddings pre-entrenats a un sub-espai comú, usant un model log-bilineal. Empíricament, observem una millora significativa en avaluacions en dominis diferents al d'entrenament. Finalment, a la quarta part de la tesi proposem un model no lineal que indueix una correspondència entre embeddings inicials i embeddings especialitzats, en el context de tasques d'anàlisi sintàctica de dependències amb models neuronals. Mostrem que aquest mètode millora l'analisi de dependències, especialment en oracions amb paraules no vistes durant l'entrenament. També mostrem millores en un tasca d'anàlisi de sentiment

    Incremental parsing algorithms for speech-editing mathematics and computer code

    Get PDF
    The provision of speech control for editing plain language text has existed for a long time, but does not extend to structured content such as mathematics. The requirements of a user interface for a spoken mathematics editor are explored through the lens of an intuitive natural user interface (NUI) for speech control, the desired properties of which are based on a combination of existing literature on NUIs and intuitive user interfaces. An important aspect of an intuitive NUI is timely update of display of the content in response to editing actions. This is not feasible using batch parsing alone, and this issue will be more serious for larger documents such as computer program code. The solution is an incremental parser designed to work with operator precedence (OP) grammars. The contribution to knowledge provided by this thesis is to improve the efficiency in terms of processing time, of the OP incremental parsing algorithm developed by Heeman, and extend it to handle the distfix (mixfix) operators described by Attanayake to model brackets and mathematical functions. This is implemented successfully for the TalkMaths system and shows a greatly reduced response time compared with using batch scanning and parsing alone. The author is not aware of any other incremental OP parser that handles such operators. Furthermore, a proposal is made for modifications to the data structures produced by Attanayake's parser, along with appropriate adjustments to the incremental parser, that will in the future, facilitate application of OP grammar to program code or other structured content by changing the definition of its content language

    Використання програмних засобів корпусної лінгвістики для оптимізації роботи перекладача у сфері ядерної енергетики

    Get PDF
    Магістерську дисертацію присвячено розгляду можливостей корпусної лінгвістики, аналізу основних проблем, з якими стикаються перекладачі технічної літератури під час перекладу спеціалізованих текстів, а також пропозиції щодо уникнення перекладацьких помилок, покращення якості та оптимізації процесу перекладу за допомогою альтернативного підходу – застосування засобів корпусної лінгвістики. Дана робота визначає специфіку якісного перекладу та відповідних вимог. Крім того, надано та класифіковано шляхи подолання різних труднощів перекладу на синтаксичному, семантичному та структурному рівнях у формі перекладацьких прийомів. Представлена дослідницька робота містить практичний аналіз перекладу текстів технічного спрямування, результати якого надали широкі можливості для вивчення корпусу як альтернативного рішення для покращення якості перекладу. Дисертація розглядає типи та критерії для створення належного корпусу. Пропонується практичне застосування корпусу на прикладах для окреслення основних його функцій та можливостей, що сприяють досягненню найповнішого рівня еквівалентності та адекватного перекладу. Дана наукова робота містить досвід розробки корпусу the Nuclear Corpus та його вдалої реалізації з використанням найзручніших корпусних менеджерів. Приділено увагу перевагам застосування корпусу під час перекладу, таким як конкорданс, відносна та абсолютна частотність слів, ключові слова, сполучуваність слів, багатокомпонентні групи, контекстуальне вживання слів. Дана робота спонукає до подальшого вдосконалення корпусу відповідно до певних перекладацьких потреб з метою досягнення найвищого рівня еквівалентності тексту перекладу та тексту оригіналу, задоволення очікувань адресатів перекладу. Робота відкриває перспективи для подальшого вивчення корпусу з метою виявлення нових корисних можливостей для полегшення роботи перекладача.This Master’s Thesis is devoted to the consideration of corpus linguistics capabilities, investigation of the main problems encountered by technical translators while translating engineering texts and provision of an alternative solution for them to eliminate translation weaknesses, improve quality, and optimize translation itself. The paper defines features of a good quality translation and its requirements. In addition, the ways to overcome various translation difficulties at syntactic, semantic and structural levels are given in the form of recommended translation techniques which are classified according to specified criteria. The given research paper also provides a practical example of technical translation, the analysis of which gives wide opportunities for studying a corpus as an alternative solution for improving the quality of the translation. The thesis presents types and criteria for a good corpus compilation. Practical usage of a corpus with examples is suggested to outline its main functions and opportunities which can assist any translator in achieving the closest equivalency and adequate translation. The following paper shares experience of developing the Nuclear Corpus and its successful implementation while using the most user-friendly corpus managers. The paper also demonstrates the advantages of corpus application during translation compared to other modern technologies used in the process of translation. This research encourages the idea of further corpus development for the specific translation needs in order to make target texts equivalent at the highest level and meet expectations of the addressees. At the same time, the Master’s Thesis makes it possible to study the issue of a corpus further with the purpose to identify new useful opportunities it can provide to facilitate the work of a translator
    corecore