    The repetition rate of text as a predictor of the effectiveness of machine translation adaptation

    Abstract Since the effectiveness of MT adaptation relies on the text repetitiveness, the question on how to measure repetitions in a text naturally arises. This work deals with the issue of looking for and evaluating text features that might help the prediction of the impact of MT adaptation on translation quality. In particular, the repetition rate metric, we recently proposed, is compared to other features employed in very related NLP tasks. The comparison is carried out through a regression analysis between feature values and MT performance gains by dynamically adapted versus non-adapted MT engines, on five different translation tasks. The main outcome of experiments is that the repetition rate correlates better than any other considered feature with the MT gains yielded by the online adaptation, although using all features jointly results in better predictions than with any single feature

    A Mixed-methods approach to indirect translation : A case study of the Finnish translations of modern Greek prose 1952–2004

    In this dissertation, I study indirect translation. Indirect translation is a translation made from a translation, and it may include compilative and/or collaborative practices, that is, many source texts may be used, or the translator may collaborate with someone. The case study in this dissertation consists of 22 novels translated from Modern Greek into Finnish between 1952 and 2004. Indirect translation is studied from the perspectives of status (what translations are claimed to be), origin (what the genesis of a translation was like), and features (what kind of linguistic features translations have), and the findings are contextualized by examining the culture-bound norms governing the production of translations. The framework, proposed by Delabastita (2008), stems from descriptive translation studies (Toury 1995/2012). In this study, mixed methods are used. One the one hand, the materials are mixed, comprising paratexts, translator bios, the 22 novels, and a corpus of translated and non-translated Finnish novels. On the other hand, both quantitative and qualitative methods are employed, including paratextual analysis, methods of genetic translation criticism and textual criticism, and corpus research tools. In one article of this study, the analysis shows that, although bibliographical metadata offers information on the status of translations, this information is not always in line with whether the translations were done directly or indirectly. In another article, the origins of a compilative translation are studied to uncover how translators work when using several source texts. In the third article, the study of features suggests that the linguistic profile of indirect translations is different from those of direct translations and non-translated Finnish texts. In the fourth article, the study of norms shows that, in Finland, attitudes towards indirect translation are negative, and translators may use compilative and collaborative strategies to respond to criticisms. The mixed-methods approach allows us to gain a holistic picture of indirect translation. In addition, the present study shows that indirect translation challenges the idea of the source text–target text relationship as exclusive, binary, and unidirectional.Tämän väitöskirjan aiheena on välikielten kautta kääntäminen. Välikielinen käännös tehdään käännöksestä. Sen lähtöteksteinä voi myös toimia samanaikaisesti useampia käännöksiä (ns. kompilatiivinen käännös), minkä lisäksi kääntäjä voi tehdä yhteistyötä eri toimijoiden kanssa (ns. kollaboratiivinen käännös). Tutkimus koostuu neljästä artikkelista, ja siinä tutkitaan on 22 vuosina 1952–2004 suomennettua nykykreikkalaista romaania. Välikielten kautta kääntämistä tutkitaan tarkastelemalla käännösten statusta (mitä käännösten sanotaan olevan), syntyä (miten käännökset ovat syntyneet) ja piirteitä (millaisia käännösten kielelliset piirteet ovat). Löydökset kontekstualisoidaan käännösten syntyä määrittävien kulttuurisidonnaisten normien tarkastelun kautta. Dirk Delabastitan (2008) kehittämä viitekehys kuuluu deskriptiivisen käännöstieteen perinteeseen (Toury 1995/2012). Tutkimusasetelma on monimenetelmäinen. Aineisto koostuu parateksteistä, kääntäjien biografioista, 22 romaanista ja vertailukorpuksesta, joka sisältää suomeksi alunperin kirjoitettuja ja suomeksi käännettyjä romaaneja. Tutkimuksessa käytetään sekä määrällisiä että laadullisia menetelmiä: siinä yhdistellään paratekstien analyysia, geneettisen käännöskritiikin ja tekstikritiikin keinoja sekä korpuspohjaisen käännöstieteen työkaluja. Yksi artikkeleista osoittaa, että vaikka bibliografinen metadata sisältää tietoa käännösten statuksesta, se ei välttämättä kerro totuutta siitä, tehtiinkö käännökset suoraan vai välikielten kautta. Toisessa artikkelissa tutkitaan kompilatiivisen käännöksen syntyprosessia sen selvittämiseksi, miten kääntäjä käyttää useampaa lähtötekstiä. Kolmannessa artikkelissa havaitaan, että välikielten kautta tehtyjen käännösten kielelliset piirteet eroavat suorien käännösten ja suomeksi alunperin kirjoitettujen tekstien piirteistä. Neljännessä artikkelissa normien tarkastelu paljastaa, että asenteet välikielten kautta kääntämistä kohtaan ovat Suomessa negatiiviset ja että kääntäjät saattavat kääntää kompilatiivisesti ja/tai kollaboratiivisesti vastatakseen kritiikkiin. Monimenetelmäisen tutkimusotteen ansiosta välikielten kautta kääntämisestä saadaan holistinen kuva. Kaikkiaan välikielten kautta kääntäminen ja sen tutkiminen haastavat sen ajatuksen, että lähtö- ja tuloteksti ovat luonteeltaan toisensa poissulkeva pari, joiden suhde on yksisuuntainen

    Proceedings of the Research Data And Humanities (RDHUM) 2019 Conference: Data, Methods And Tools

    Analytical bibliography aims to understand the production of books. Systematic methods can be used to determine an overall view of the publication history. In this paper, we present the state of the art analytical approach towards the determination of editions using the ESTC meta data. The preliminary results illustrate that metadata cleanup and analysis can provide opportunities for edition determination. This would significantly help projects aiming to do large scale text mining.</p