12 research outputs found

    STUDENTS’ GRAMMATICAL COLLOCATION ERRORS AND ITS’ IMPLICATION IN TEACHING WRITING

    Get PDF
    The Regulation of Minister of Education and Culture of the Republic of Indonesia number 49 2014 on National Standard of Higher Education stated that National Standard Research is the minimum criterion of research on higher education system in force in the entire territory of the Republic of Indonesia. The study was conducted according to the rules of the activities and the scientific method systematically to obtain information, data, and information related to the understanding and/or testing of a branch of knowledge and technology. Based on the background the researcher states the following questions of the research: 1) What kinds of grammatical collocation errors were found in students’ thesis? 2) what is the implication of students’ grammatical collocation errors in teaching Writing. The researcher analyzed five major types of grammatical collocation error found in English department students’ thesis. The classification of five major types of English grammatical collocation error will make it easy to understand English grammatical collocations. The first type of English grammatical collocation error is collocation consisting of twelve English verb patterns (G8) which have different grammatical structures as the most challenging followed by (G7), (G1), (G4, (G5). As for the implication of those errors made by students is that the lecturers must include the discussion of collocation in teaching Writing

    Detecting semantic difference: a new model based on knowledge and collocational association

    Get PDF
    This is an accepted manuscript of an article published by John Benjamins Publishing Company in Computational Phraseology edited by G Corpas Pastor & J-P Colson on 08/05/2020, available online: https://doi.org/10.1075/ivitra.24.16tas The accepted version of the publication may differ from the final published version.Semantic discrimination among concepts is a daily exercise for humans when using natural languages. For example, given the words, airplane and car, the word flying can easily be thought and used as an attribute to differentiate them. In this study, we propose a novel automatic approach to detect whether an attribute word represents the difference between two given words. We exploit a combination of knowledge-based and co-occurrence features (collocations) to capture the semantic difference between two words in relation to an attribute. The features are scores that are defined for each pair of words and an attribute, based on association measures, n-gram counts, word similarity, and Concept-Net relations. Based on these features we designed a system that run several experiments on a SemEval-2018 dataset. The experimental results indicate that the proposed model performs better, or at least comparable with, other systems evaluated on the same data for this task.Published versio

    Experimental Evaluation of Ranking and Selection Methods in Term Extraction

    Get PDF
    An automatic term extraction system consists of a term candidate extraction subsystem, a ranking subsystem and a selection subsystem. In this paper, we experimentally evaluate two ranking methods and two selection methods. As for ranking, a dichotomy of unithood and termhood is a key notion. We evaluate these two notions experimentally by comparing Imp based ranking method that is based directly on termhood and C-value based method that is indirectly based on both termhood and unithood. As for selection, we compare the simple threshold method with the window method that we propose. We did the experimental evaluation with several Japanese technical manuals. The result does not show much difference in recall and precision. The small difference between the extracted terms by these two ranking methods depends upon their ranking mechanism per se

    A Study Of Data Informatics: Data Analysis And Knowledge Discovery Via A Novel Data Mining Algorithm

    Get PDF
    Frequent pattern mining (fpm) has become extremely popular among data mining researchers because it provides interesting and valuable patterns from large datasets. The decreasing cost of storage devices and the increasing availability of processing power make it possible for researchers to build and analyze gigantic datasets in various scientific and business domains. A filtering process is needed, however, to generate patterns that are relevant. This dissertation contributes to addressing this need. An experimental system named fpmies (frequent pattern mining information extraction system) was built to extract information from electronic documents automatically. Collocation analysis was used to analyze the relationship of words. Template mining was used to build the experimental system which is the foundation of fpmies. With the rising need for improved environmental performance, a dataset based on green supply chain practices of three companies was used to test fpmies. The new system was also tested by users resulting in a recall of 83.4%. The new algorithm\u27s combination of semantic relationships with template mining significantly improves the recall of fpmies. The study\u27s results also show that fpmies is much more efficient than manually trying to extract information. Finally, the performance of the fpmies system was compared with the most popular fpm algorithm, apriori, yielding a significantly improved recall and precision for fpmies (76.7% and 74.6% respectively) compared to that of apriori (30% recall and 24.6% precision)

    Bases de donnees lexicales electroniques - une approche orientee objets.Partie II : Questions de description

    Get PDF
    W poprzednim tekście (zob. s. 7-29) przedstawione zostały elementy ujęcia zorientowanego obiektowo opisu danych leksykalno-semantycznych. W prezentowanym artykule naszkicowany jest sposób, w jaki można zorganizować świat obiektów językowych tak skonstruowany. Przedstawione są kolejno: - schematy opisowe ujęcia zorientowanego obiektowo, z wyodrębnieniem klas predykatów - konstruktorów, akcesorów i manipulatorów oraz oiganizacja klas obiektowych w funkcji odpowiednich frames (kadrów) strukturowanych przez funkcje leksykalne typu „sens - tekst” I. Melczuka i A. K. Zholkovskiego, - dyskusja systemu qualia structure J. Pustejovskiego, - użycia klas obiektowych G. Grossa, - relacje między klasami obiektowymi i ich hierarchia, - relacje między klasami obiektowymi a zbiorami operatorów i atrybutów organizowanych w funkcji skryptów i kadrów, - relacje typu część - całość, - porównanie opisów typu WordNet z prezentowanym tutaj ujęciem zorientowanym obiektowo. Następnie przedstawiony został szczegółowy schemat opisowy haseł w proponowanym ujęciu i jego wypełnienie w przypadku pojęcia ennui w języku francuskim

    Засоби формування та обробки бази даних словосполучень української мови

    Get PDF
    Актуальність теми. Аналіз словосполучень є важливим розділом NLP досліджень. Вміння аналізувати, класифікувати та знаходити словосполучення дає можливість оперувати контекстом та змістом, що закладені у речення, а не окремими словами. Це допомагає значно вдосконалити системи, що працюють з натуральними мовами. Існує багато алгоритмів та підходів, які дозволяють аналізувати окремі слова, але аналіз та пошук групи слів, що зв’язані між собою є більш складним завданням. Словосполучення важливі для ряду застосувань: генерація природної мови – щоб переконатися, що вихідні дані звучать природно і уникнути помилок; обчислювальна лексикографія – для автоматичного визначення важливих словосполучень, які мають потрапити до словника та корпусні лінгвістичні дослідження, наприклад, вивчення суспільних та культурних явищ через мову. Дана робота присвячена пошуку словосполучень в текстах, що написані українською мовою, з подальшим упорядкуванням та морфологічним аналізом слів. Виділення словосполучення - це задача, що передбачає використання комп'ютера для автоматичного виділення словосполучення з корпусу. Традиційний метод виконання виділення словосполучення полягає у знаходженні формули на основі статистичних величин для обчислення оцінки пов’язаної з кожною парою слів. Мета роботи: підвищення ефективності автоматичної генерації бази даних словосполучень української мови, а також розроблення засобів пошуку. Об’єктом дослідження є тексто-орієнтовані бази даних. Предметом дослідження є методи та алгоритми автоматизованого генерування бази даних словосполучень за допомогою оброблення текстових даних, а також методи прискорення генерування описаної бази даних. Методи дослідження в роботі використовуються статистичні міри асоціації, методи нормалізації текстових даних та методи розподілених обчислень та оброблення даних. Наукова новизна: розроблено програмні засоби формування бази даних словосполучень української мови, яка відрізняється від існуючих тим, що ефективність генерації розробленої бази даних підвищена за допомогою методів розподілених обчислень. Розроблене програмне забезпечення дозволяє знаходити словосполучення шляхом оброблення текстів українською мовою та зберігати їх до сховища даних, з можливістю пошуку по цим даним та їх подальшого аналізу. Практична цінність отриманих в роботі результатів полягає в тому, що розроблена база даних може використовуватися для подальшого вивчення мови та інших досліджень у сфері NLP. Також проведено дослідження та отримані дані, які методи пошуку словосполучень найкраще підходять саме для української мови, враховуючи граматичні особливості мови, що може бути використано у подальших дослідженнях генерації природної мови, для вдосконалення пошукових систем та голосових асистентів, інструментів, що домагають редагувати та підсумовувати тексти, тощо. Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на XVI науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2021. Стаття у науковому журналі "Комп’ютерно-інтегровані технології: освіта, наука, виробництво", випуск № 44 «Програмні засоби формування та обробки бази даних словосполучень української мови» Структура та обсяг роботи. Магістерська дисертація складається з вступу, чотирьох розділів та висновків. У вступі подано загальну характеристику дослідження, розглянуто актуальність та новизну дослідження, названі можливі практичні застосування розроблюваної бази даних словосполучень. У першому розділі проаналізовано існуючі подібні системи, названі їх переваги та недоліки, визначено вимоги до розроблюваної системи та сформульовано проблему попередньої оброки текстових даних. У другому розділі описано алгоритм попередньої обробки текстів, наведено результати аналізу методів знаходження словосполучень у текстах українською мовою, порівняно їх та обрано найефективніші, та проаналізовано способи фільтрації знайдених словосполучень. У третьому розділі описано інструменти використані для розроблення програмного забезпечення, архітектуру програмного забезпечення та засоби прискорення генерації бази даних словосполучень. У четвертому розділі визначено можливу сферу застосування та наведено результати оптимізації генерації розробленої бази даних словосполучень, а також результати роботи розробленого програмного забезпечення. У висновках представлені результати проведеної роботи. Робота представлена на 93 аркушах, містить посилання на список використаних літературних джерел.Actuality of theme. Collocation analysis is an important part of NLP research. The ability to analyze, classify and find collocations makes it possible to operate with the context and content embedded in sentences, rather than individual words. This helps to significantly improve systems that work with natural languages. There are many algorithms and approaches that allow you to analyze individual words, but analyzing and finding a group of related words is a more difficult task. Collocations are important for such applications as: natural language generation - to make sure that the source data sounds natural and to avoid mistakes; computational lexicography - to automatically identify important phrases to be included in the dictionary and corpus linguistic research, such as the study of social and cultural phenomena through language. This work is devoted to collocations extraction from texts written in the Ukrainian language, filtering and morphological analysis of words. Collocation extraction is a task that involves using a computer to automatically select a collocation from the text corpus. The traditional method of collocation extraction is to find a formula based on statistical values to calculate the score associated with each pair of words. Purpose: to increase the efficiency of automatic generation of the database of phrases of the Ukrainian language, as well as the development of search tools. Object of research is text-oriented databases. Subject of research is methods and algorithms of automated generation of a database of phrases by means of text data processing, and also methods of acceleration of generation of the described database. Methods of research: the study uses statistical measures of association, methods of normalization of text data and methods of distributed computing and data processing. Scientific novelty: software tools for the generation of the Ukrainian language database of collocation have been developed. It differs from the existing ones in that the efficiency of generating the developed database has been increased with the help of distributed computing methods. The developed software allows finding collocations by processing texts in the Ukrainian language and saving them to the data storage, for searching through this data and their further analysis. Practical value of the results obtained in this work is that the developed database can be used for further language study and other research in the field of NLP. Research was also conducted and data were obtained on which collocation extraction methods are best suited for the Ukrainian language, taking into account the language grammatical features that can be used in further studies of natural language generation, to improve search engines and voice assistants, tools for editing and summarizing texts, etc. Approbation. The main provisions and results of the work were presented and discussed at the XVI scientific conference of undergraduates and graduate students "Applied Mathematics and Computing" AMC-2021. Article in the scientific journal "Computer-integrated technologies: education, science, production", issue № 44 "The software system for generation and processing of a database of collocations of the Ukrainian language". Structure and scope of work. The master's dissertation consists of an introduction, four chapters and conclusions. In the introduction the general characteristic of research is given, urgency and novelty of research are considered, possible practical applications of the developed database of phrases are named. The first section analyzes the existing similar systems, names their advantages and disadvantages, identifies the requirements for the developed system and formulates the problem of preliminary processing of text data. The second section describes the algorithm of pre-processing of texts, presents the results of analysis of methods for finding collocation in texts in Ukrainian, compares them and selects the most effective, and analyzes ways to filter the found phrases. The third section describes the tools used to develop the software, the software architecture, and the tools for accelerating the generation of the phrase database. The fourth section identifies the possible scope and presents the results of optimizing the generation of the developed database of phrases, as well as the results of the developed software. The conclusions present the results of the work. The work is presented on 93 sheets, contains references to the list of used literature sources

    Improving information accessibility using online patient drug reviews

    Get PDF
    Thesis (M. Eng.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2011.Cataloged from PDF version of thesis.Includes bibliographical references (p. 85-92).We address the problem of information accessibility for patients concerned about, pharmaceutical drug side effects and experiences. We create a new corpus of online patient-provided drug reviews and present our initial experiments on that corpus. We detect biases in term distributions that show a statistically significant association between a class of cholesterol-lowering drugs called statins, and a wide range of alarming disorders, including depression, memory loss, and heart failure. We also develop an initial language model for speech recognition in the medical domain, with transcribed data on sample patient comments collected with Amazon Mechanical Turk. Our findings show that patient-reported drug experiences have great potential to empower consumers to make more informed decisions about medical drugs, and our methods will be used to increase information accessibility for consumers.by Yueyang Alice Li.M.Eng

    Vocabulary learning strategies among secondary students at Saudi School Malaysia

    Get PDF
    Vocabulary learning is considered as a major process in acquisition of English as a foreign language (EFL). During the process, a learner manages to develop a few vocabulary learning strategies (VLSs). A majority of EFL learners, who have realized the importance of vocabulary in their language learning, also understand that knowledge of the English diction can enhance their overall linguistic skills, facilitating their communication with people and expressing their ideas. This study is dedicated to the research of VLSs employed by a group of Saudi Arabian learners in an EFL context. The rationale for the study is to clarify a pronounced lack of research on the EFL context in Saudi Schools Abroad (SSA), and a dearth of prior research into VLSs in this context. In particular, this research intends to identify how students at Saudi School Malaysia (SSM) employ VLSs in their actual learning process. The second objective deals with examining the significant differences in VLSs adopted by the participants based on their, gender, age, grade, years of studying English and language proficiency. Thirdly, this study is also interested in exploring the major factors which affect the use of VLSs among participants. The final objective of this study concerns with investigating the use of strategies in all 5-stages of vocabulary learning (Brown & Payne’s, 1994, 5-stages model). The context of this research has taken place at SSM where the total number of participants is 120. A mixed method used in order to fulfil the above objectives. Analysis of quantitative data revealed that all five strategies identified (i.e. discovery, vocabulary use, retrieval, metacognitive and storage); the mean scores for the four strategies were all at medium usage by the participants except ‘storage’ which fell below the average range. In addition, gender, age, years of studying English and grade were not significant in terms of strategies adopted by the participants. However, there were significant differences of strategies adopted by the participants of different language proficiency ability since students who identified as very good were found to be employing the strategies of ‘vocabulary use’ and ‘discovery’ more than other strategies. Analysis of the qualitative data revealed that language learning environment, attitudes, beliefs, and motivation were considered as major factors affecting the use of VLSs among participants. Major themes also have been stated by the participants regarding the strategies they used in all 5-stages of vocabulary learning, such as guessing strategies, using monolingual and picture dictionaries, using memory strategies and lastly using the new word with all its possible collocations. Many participants involved in this study understand the importance of vocabulary learning albeit much of the strategies they employed were at a moderate level. Particularly, the focus and great emphasis should be on the role of strategies (VLSs) rather than on memorizing grammar rules and structures, thus learners (EFL) can achieve the goal of vocabulary learning efficiently and successfully
    corecore