538 research outputs found

    Beyond English text: Multilingual and multimedia information retrieval.

    Get PDF
    Non

    Unsupervised multi-word term recognition in Welsh

    Get PDF
    This paper investigates an adaptation of an existing system for multi-word term recognition, originally developed for English, for Welsh. We overview the modifications required with a special focus on an important difference between the two representatives of two language families, Germanic and Celtic, which is concerned with the directionality of noun phrases. We successfully modelled these differences by means of lexico–syntactic patterns, which represent parameters of the system and, therefore, required no re–implementation of the core algorithm. The performance of the Welsh version was compared against that of the English version. For this purpose, we assembled three parallel domain–specific corpora. The results were compared in terms of precision and recall. Comparable performance was achieved across the three domains in terms of the two measures (P = 68.9%, R = 55.7%), but also in the ranking of automatically extracted terms measured by weighted kappa coefficient (k = 0.7758). These early results indicate that our approach to term recognition can provide a basis for machine translation of multi-word terms

    Unsupervised multi-word term recognition in Welsh

    Get PDF
    This paper investigates an adaptation of an existing system for multi-word term recognition, originally developed for English, for Welsh. We overview the modifications required with a special focus on an important difference between the two representatives of two language families, Germanic and Celtic, which is concerned with the directionality of noun phrases. We successfully modelled these differences by means of lexico–syntactic patterns, which represent parameters of the system and, therefore, required no re–implementation of the core algorithm. The performance of the Welsh version was compared against that of the English version. For this purpose, we assembled three parallel domain–specific corpora. The results were compared in terms of precision and recall. Comparable performance was achieved across the three domains in terms of the two measures (P = 68.9%, R = 55.7%), but also in the ranking of automatically extracted terms measured by weighted kappa coefficient (k = 0.7758). These early results indicate that our approach to term recognition can provide a basis for machine translation of multi-word terms

    An Intelligent Framework for Natural Language Stems Processing

    Get PDF
    This work describes an intelligent framework that enables the derivation of stems from inflected words. Word stemming is one of the most important factors affecting the performance of many language applications including parsing, syntactic analysis, speech recognition, retrieval systems, medical systems, tutoring systems, biological systems,…, and translation systems. Computational stemming is essential for dealing with some natural language processing such as Arabic Language, since Arabic is a highly inflected language. Computational stemming is an urgent necessity for dealing with Arabic natural language processing. The framework is based on logic programming that creates a program to enabling the computer to reason logically. This framework provides information on semantics of words and resolves ambiguity. It determines the position of each addition or bound morpheme and identifies whether the inflected word is a subject, object, or something else. Position identification (expression) is vital for enhancing understandability mechanisms. The proposed framework adapts bi-directional approaches. It can deduce morphemes from inflected words or it can build inflected words from stems. The proposed framework handles multi-word expressions and identification of names. The framework is based on definiteclause grammar where rules are built according to Arabic patterns (templates) using programming language prolog as predicates in first-order logic. This framework is based on using predicates in firstorder logic with object-oriented programming convention which can address problems of complexity. This complexity of natural language processing comes from the huge amount of storage required. This storage reduces the efficiency of the software system. In order to deal with this complexity, the research uses Prolog as it is based on efficient and simple proof routines. It has dynamic memory allocation of automatic garbage collection. This facility, in addition to relieve th

    Effective retrieval techniques for Arabic text

    Get PDF
    Arabic is a major international language, spoken in more than 23 countries, and the lingua franca of the Islamic world. The number of Arabic-speaking Internet users has grown over nine-fold in the Middle East between the year 2000 and 2007, yet research in Arabic Information Retrieval (AIR) has not advanced as in other languages such as English. In this thesis, we explore techniques that improve the performance of AIR systems. Stemming is considered one of the most important factors to improve retrieval effectiveness of AIR systems. Most current stemmers remove affixes without checking whether the removed letters are actually affixes. We propose lexicon-based improvements to light stemming that distinguish core letters from proper Arabic affixes. We devise rules to stem most affixes and show their effects on retrieval effectiveness. Using the TREC 2001 test collection, we show that applying relevance feedback with our rules produces significantly better results than light stemming. Techniques for Arabic information retrieval have been studied in depth on clean collections of newswire dispatches. However, the effectiveness of such techniques is not known on other noisy collections in which text is generated using automatic speech recognition (ASR) systems and queries are generated using machine translations (MT). Using noisy collections, we show that normalisation, stopping and light stemming improve results as in normal text collections but that n-grams and root stemming decrease performance. Most recent AIR research has been undertaken using collections that are far smaller than the collections used for English text retrieval; consequently, the significance of some published results is debatable. Using the LDC Arabic GigaWord collection that contains more than 1 500 000 documents, we create a test collection of~90 topics with their relevance judgements. Using this test collection, we show empirically that for a large collection, root stemming is not competitive. Of the approaches we have studied, lexicon-based stemming approaches perform better than light stemming approaches alone. Arabic text commonly includes foreign words transliterated into Arabic characters. Several transliterated forms may be in common use for a single foreign word, but users rarely use more than one variant during search tasks. We test the effectiveness of lexicons, Arabic patterns, and n-grams in distinguishing foreign words from native Arabic words. We introduce rules that help filter foreign words and improve the n-gram approach used in language identification. Our combined n-grams and lexicon approach successfully identifies 80% of all foreign words with a precision of 93%. To find variants of a specific foreign word, we apply phonetic and string similarity techniques and introduce novel algorithms to normalise them in Arabic text. We modify phonetic techniques used for English to suit the Arabic language, and compare several techniques to determine their effectiveness in finding foreign word variants. We show that our algorithms significantly improve recall. We also show that expanding queries using variants identified by our Soutex4 phonetic algorithm results in a significant improvement in precision and recall. Together, the approaches described in this thesis represent an important step towards realising highly effective retrieval of Arabic text

    Stadia fosylizacji u uczących się i użytkowników języka angielskiego na poziomie zaawansowanym : diagnoza podłużna

    Get PDF
    W niniejszej pracy podjęto próbę zbadania stadiów fosylizacji języka u uczących się i użytkowników języka angielskiego na poziomie zaawansowanym. W rozdziale pierwszym przedstawiono pojęcie fosylizacji w kontekście procesu uczenia się/nauczania języka obcego. Omówiono teorie wyjaśniające charakter opisywanego zjawiska, oraz próby zdefiniowania problemu. Kolejno ukazano zakres występowania oraz symptomy procesu fosylizacji, oraz ich wpływ na jakość kompetencji językowej wyrażanej za pomocą produkcji językowej ustnej i pisemnej. Rozdział drugi prezentuje wieloaspektowy charakter fosylizacji na tle rozwoju interjęzyka. Omówiono wpływ zjawiska na przebieg procesu uczenia się używania języka, ze szczególnym uwzględnieniem czynników odpowiedzialnych za jakość w/w procesu. Rozdział trzeci stanowi opis schematu badań empirycznych mających na celu wyróżnienie i scharakteryzowanie stadiów fosylizacji u uczących się i użytkowników języka angielskiego na poziomie zaawansowanym. Próbę stanowili studenci piątego roku studiów zaocznych Filologii Angielskiej Uniwersytetu Śląskiego w Katowicach. Badania właściwe przeprowadzono w oparciu o dwa narzędzia badawcze, tj. kwestionariusz osobowy i próbki tekstu ustnego i pisemnego. Szukając odpowiedzi na główne pytanie badawcze dotyczące zakresu i stopnia fosylizacji u uczestników badań wyodrębniono wyznaczniki fosylizacji odpowiadające symptomom sfosylizowanego języka pisemnego i mówionego. Badania miały charakter diagnozy podłużnej, na którą składały się trzy pomiary poziomu kompetencji językowej studentów na przestrzeni jednego roku (październik 2005 - październik 2006). W rozdziale czwartym dokonano analizy informacji uzyskanych za pomocą kwestionariusza osobowego. Pozwolił on zebrać wiadomości wstępne dotyczące wieku, płci, wykształcenia itp., grupy badanych oraz informacje na temat doświadczeń językowych próby z perspektywy studenta i nauczyciela. Głównym daniem respondentów była ocena postępów w nauce języka angielskiego, poszczególnych umiejętności, jak również ewaluacja sukcesów i porażek w procesie uczenia się i nauczania języka. Kwestionariusz sprawdził wiedzę badanych na temat fosylizacji języka, symptomów oraz okoliczności sprzyjających jej rozwojowi, ze szczególnym uwzględnieniem objawów fosylizacji u w/w grupy. Jak się okazało, większość badanych jest zadowolona z postępów i osiągnięć językowych, które odnoszą głównie w zakresie gramatyki języka angielskiego oraz ćwiczeniach rozumienia tekstu mówionego i pisanego. Zdarzają się też porażki językowe, a te związane są z wymową i użyciem słownictwa. Choć badani wydają się być świadomi procesu fosylizacji, nie dopuszczają do siebie myśli, że ten właśnie problem może ich dotyczyć i wymieniają nieznaczne przykłady fosylizacji, jakie zaobserwowali. W rozdziale piątym przedstawiono wyniki trzech pomiarów badań mających na celu sprawdzić poziom kompetencji językowej grupy badanych. Omówiono jakość zarejestrowanych wypowiedzi ustnych i pisemnych, które miały charakter komentarzy studentów w stosunku do wylosowanych przez siebie przysłów i cytatów znanych osób, a następnie porównano wyniki pochodzące z obu typów prowadzonego dyskursu. W rezultacie dokonano klasyfikacji symptomów fosylizacji z podziałem na ustne i pisemne W przypadku wypowiedzi ustnych kryterium oceny języka stanowiły poprawność i płynność językowa. Pod względem poprawności językowej stwierdzono naruszenie reguł gramatycznych, leksykalnych, morfologicznych i fonologicznych języka docelowego przez próbę. Z kolei w przypadku płynności językowej odnotowano liczne oznaki braku płynności jak np. pauzy wypełnione i puste, powtórzenia, fałszywe „starty” czy nieskończone i nic nieznaczące zdania. Jeśli chodzi o wypowiedzi pisemne, kryterium poprawności językowej nie uległo zmianie, a płynność zastąpiono spójnością tekstu. Niepoprawne formy językowe zaobserwowano w gramatyce, słownictwie, morfologii, ortografii i interpunkcji języka angielskiego, a niespójność wypowiedzi została spowodowana nadużyciem utartych zwrotów językowych. W oparciu o rozwój fosylizacji, o którym przesądziły wyniki pomiaru pierwszego i trzeciego wyróżniono trzy stadia fosylizacji języka, które zostały przedstawione w rozdziale szóstym. Stadia fosylizacji odpowiadały trzem pomiarom w czasie. Cechą charakterystyczną każdego ze stadium okazały się objawy fosylizacji ich zakres oraz częstotliwość występowania zarówno w języku mówionym jak i pisanym. Cechą wspólną poszczególnych stadiów były również poprawne i niepoprawne formy językowe, które potwierdziły istniejący w literaturze przedmiotu podział na fosylizację błędnych i bezbłędnych form językowych (ang. erroneous i nnn-ermneHus fossilizatioń). Proporcje liczbowe pokazały przewagę form poprawnych nad niepoprawnymi w języku mówionym i pisanym, a tendencje zaobserwowane na przestrzeni trzech pomiarów wskazują na wzrost błędnych form językowych porównując stadium 1 i 2, a następnie nieznaczny spadek w użyciu niewłaściwych form języka spowodowany zwiększoną ilością poprawnych zwrotów językowych w przypadku wypowiedzi ustnych. Biorąc pod uwagę teksty pisemne, zanotowano tendencję rosnącą wśród niepoprawnych wypowiedzi w zestawieniu trzech stadiów. Liczba poprawnych form językowych maleje w stadium 3, spowodowana wcześniej wspomnianym wzrostem niepoprawności językowych. W rozdziale siódmym dokonano porównania tzw. sfosylizowanej kompetencji językowej (ang. fossihsed competence) badanych studentów z subiektywną oceną znajomości języka, jaką wystawili sobie respondenci w kwestionariuszu. Podjęto próbę wyjaśnienia tych nieścisłości, sugerując przede wszystkim wpływ wysokiej samooceny oraz pewności siebie u większości studentów i zaproponowano sposób pozwalający przybliżyć uczącym się i użytkownikom języka obcego faktyczny poziom ich kompetencji, a tym samym zakres fosylizacji języka. Ankieta, której przeprowadzenie zasugerowano pozwoli dokładnie przeanalizować język pod kątem poprawności, płynności i spójności wypowiedzi, a rozwiązywana wielokrotnie i w różnych odstępach czasu uświadomi respondentom zmiany językowe, które są nieodzowną częścią procesu uczenia się/nauczania języka

    Consolidated study on query expansion

    Full text link
    A typical day of million web users all over the world starts with a simple query. The quest for information on a particular topic drives them to search for it, and in the pursuit of their info the terms they supply for queries varies from person to person depending on the knowledge they have. With a vast collection of documents available on the web universe it is the onus of the retrieval system to return only those documents that are relevant and satisfy the user’s search requirements. The document mismatch problem is resolved by appending extra query terms to the original query which improves the retrieval performance. The addition of terms tends to minimize the bridging-gap between the documents and queries. In this thesis, a brief study is done on the reformulation of queries, along with methods of calculating the relevancy of candidate terms for query expansion by using several ranking algorithms, term weighting algorithms and feedback processes involving evaluations. Comparisons of various methods based on their efficiencies are also discussed. On the whole a consolidated report of query expansion in general is given

    Does that sound right? A novel method of evaluating models of reading aloud

    Get PDF
    Nonword pronunciation is a critical challenge for models of reading aloud but little attention has been given to identifying the best method for assessing model predictions. The most typical approach involves comparing the model’s pronunciations of nonwords to pronunciations of the same nonwords by human participants and deeming the model’s output correct if it matches with any transcription of the human pronunciations. The present paper introduces a new ratings-based method, in which participants are shown printed nonwords and asked to rate the plausibility of the provided pronunciations, generated here by a speech synthesiser. We demonstrate this method with reference to a previously published database of 915 disyllabic nonwords (Mousikou et al., 2017). We evaluated two well-known psychological models, RC00 and CDP++, as well as an additional grapheme-to-phoneme algorithm known as Sequitur, and compared our model assessment with the corpus-based method adopted by Mousikou et al. We find that the ratings method: a) is much easier to implement than a corpus-based method, b) has a high hit rate and low false-alarm rate in assessing nonword reading accuracy, and c) provided a similar outcome as the corpus-based method in its assessment of RC00 and CDP++. However, the two methods differed in their evaluation of Sequitur, which performed much better under the ratings method. Indeed, our evaluation of Sequitur revealed that the corpus-based method introduced a number of false positives and more often, false negatives. Implications of these findings are discussed

    Mixed-Language Arabic- English Information Retrieval

    Get PDF
    Includes abstract.Includes bibliographical references.This thesis attempts to address the problem of mixed querying in CLIR. It proposes mixed-language (language-aware) approaches in which mixed queries are used to retrieve most relevant documents, regardless of their languages. To achieve this goal, however, it is essential firstly to suppress the impact of most problems that are caused by the mixed-language feature in both queries and documents and which result in biasing the final ranked list. Therefore, a cross-lingual re-weighting model was developed. In this cross-lingual model, term frequency, document frequency and document length components in mixed queries are estimated and adjusted, regardless of languages, while at the same time the model considers the unique mixed-language features in queries and documents, such as co-occurring terms in two different languages. Furthermore, in mixed queries, non-technical terms (mostly those in non-English language) would likely overweight and skew the impact of those technical terms (mostly those in English) due to high document frequencies (and thus low weights) of the latter terms in their corresponding collection (mostly the English collection). Such phenomenon is caused by the dominance of the English language in scientific domains. Accordingly, this thesis also proposes reasonable re-weighted Inverse Document Frequency (IDF) so as to moderate the effect of overweighted terms in mixed queries

    An institution-based enquiry into concepts of proficiency, automaticity and second-language learning among dyslexic students

    Get PDF
    It is, for some, 'common knowledge' that dyslexic students cannot master a foreign language 'because' they cannot master their own. This study enquires into the assumption, and the 'because', above, and seeks other explanatory routes for dyslexic university students' difficulties with foreign language learning. Building on earlier work concerned with notions of 'automaticity' in relation to concepts of 'proficiency' in proficiency and dyslexia literatures, it relates these directly to second language teaching/learning concepts and discusses this in relation to 'phronetic', 'professional' and tacit' views of knowledge. The empirical part of the study comprises cross-comparison of four narrative sources: the narratives of a dozen dyslexic students engaged in a semi-structured, in-depth interview concerning their language difficulty and how they view it; a second narrative relating the voices of the advisors most directly linked to dyslexic language learners in the institution, also including past and future difficulties of some dyslexic students who may face a study year abroad, e.g. on Erasmus and similar schemes; a third interview with the then current head of the unit dealing with both English as a Foreign Language, and Modern Foreign Languages; and the over-arching narrative of the researcher – his story in conducting this study. Within this framework, the research uncovers how, at a practical level as well as theoretically, phronetic, teaching-learning and exceptional language-acquisition 'knowledge' may be open to subversion from several quarters: the pragmatics and economics of 3rd-level EFL and MFL1 language teaching; transposing child language acquisition concepts onto adult language learning ones; the cross- and/or mismatching of these with dyslexia ones; and the possible collision between some areas of professional knowledge – tacit or otherwise. The research shows how for the 'institutional dyslexics' concerned, and sometimes despite their advisors, the unit's academic director and the institution, automaticity is anterior to proficiency and agency is anterior to automaticity. Moreover reversing this, discovering or rediscovering their sense of agency allows certain of the dyslexic participants to attain a qualified measure of automaticity in their language studies and hence, of proficiency. These findings have important implications for those engaged in second language teaching and learning. The organisation of the thesis is as follows: in a first chapter which the researcher introduces with a short autobiography and an account of how the research came about, a broadly descriptive and factual introduction to the piece then summarises previous work in the doctoral degree particularly the critical analytical study, focusing the research questions, and discussing the relationship between methodology and methods, and begins a consideration of what a 'case' is, and what is the case here. Chapter 2 expands the theoretical focus with a discussion of the notion of coherentism and the notion of 'fit', and introduces issues in narrativity and in phronesis. Chapter 3 addresses understandings and terminologies in 'communicative' language teaching, cross-mapping these to both dyslexia and 'proficiency' issues previously discussed. Chapter 4 explores the data, and begins an assessment of the 'fit' between the respondents. Finally, Chapter 5 summarises and discusses the 'findings' of the research – what emerges from the research questions and what from their interpretation; how theoretical understandings now 'fit', or not; what else emerged during the study; what constitutes a finding; and returning to Chapter 1, asks to what extent the study is a foundationalist 'case' which can or should be 'generalisable'. A short discussion of further research avenues is presented
    corecore