30 research outputs found

    An AI System for Coaching Novice Programmers

    Get PDF
    Rapidly giving students meaningful feedback is a key component in an effective educational experience. A common problem in modern education is scalability, as class size increases the ability of the instructor to rapidly provide meaningful feedback decreases. Our team of undergraduates are preparing Java language platform for beginning programmers. The team has done background reading and had discussions on meaningful feedback for novice programmers over the last year. As a result we are building an online Artificial Intelligence (AI) system capable of providing insightful narrative based coaching to beginning programmers. We will then evaluate the system to insure that it meets the following criteria: it generates a unique narrative response for every input, response is generated in real time, the system is deployable online

    Création de surcouche de documents hypertextes et traitement du langage naturel

    Get PDF
    Cet article présente une extension aux algorithmes de création de surcouche de documents hypertextuels. Il s’agit de diversifier la granularité de l’information qu’il est possible de capturer en utilisant des techniques de traitement du langage naturel. Une surcouche de document Web (web page wrapper) est une vue sur des noeuds HTML contenant une information donnée et désirée. Par exemple, dans une manchette de journal, une surcouche peut baliser le nom de l’auteur, la date ou même toutes les références à un lieu ou a une compagnie quelconque. Nous avons étendu le fonctionnement d’un algorithme de création de surcouchage afin de dépasser la limite des noeuds HTML et d’extraire de l’information du contenu textuel qui s’y retrouve. Nous appliquons cette technique à la création automatique de lexiques (liste de mots)

    An AI System for Coaching Novice Programmers

    Get PDF
    Rapidly giving students meaningful feedback is a key component in an effective educational experience. A common problem in modern education is scalability, as class size increases the ability of the instructor to rapidly provide meaningful feedback decreases. Our team of undergraduates are preparing Java language platform for beginning programmers. The team has done background reading and had discussions on meaningful feedback for novice programmers over the last year. As a result we are building an online Artificial Intelligence (AI) system capable of providing insightful narrative based coaching to beginning programmers. We will then evaluate the system to insure that it meets the following criteria: it generates a unique narrative response for every input, response is generated in real time, the system is deployable online

    Gimme The Context: Context-driven automatic semantic annotation with C-PANKOW

    Get PDF
    Cimiano P, Ladwig G, Staab S. Gimme The Context: Context-driven automatic semantic annotation with C-PANKOW. In: Ellis A, Hagino T, eds. Proceedings of the 14th international conference on World Wide Web, WWW 2005. ACM Press; 2005: 332-341

    Розробка інформаційної технології виділення термінів із документів на природній мові

    Get PDF
    It is shown that domain dictionaries are widely used at various stages of design and operation of software products. The process of dictionary development, especially term extraction, is very labor-intensive, requiring high qualification of the expert. Studies are conducted to identify the most important characteristics of multi-word terms (MWT), such as: the probability of the presence of terms containing different numbers of words in the document; arrangement of nouns in MWT; possible number of nouns in MWT. The context of the use of terms is analyzed and possible limits of terms in the text are identified. The procedure is proposed for preliminary document grouping, thus avoiding the “loss” of terms included in short documents. The dependence of errors of term extraction on the size of the analyzed document is determined.The mathematical model of term representation, based on the definition of the set of word chains grouped around a head-word – a noun is proposed. Filtration of chains is performed depending on the frequency of their occurrence in the text based on a comparison of normalized representations of MWT.Mechanisms for filling the domain dictionary with new records and adjusting existing ones in the process of analyzing the input document are developed. The solution to adjust the frequency of occurrence of terms based on the identification of inter-phrase relations is proposed. All processes and models are combined into a single information technology of construction of the domain dictionary. The problem of term interpretation is not considered in this paper, since it requires a separate solution. The software product allowing to automate substantially the process of term extraction from text documents is developed. The results of testing of the proposed solutions showed the absence of “lost terms” and, as a result, the reduction of the time of term extraction from texts of 10,000 words by 1.5 hours by freeing the expert from analyzing the original document. The research results can be used at various stages of design and operation of software productsПоказано, что словари предметных областей широко используются на различных этапах создания и эксплуатации программных продуктов. Процесс создания словаря, особенно, выделения терминов, весьма трудоемкий, требующий высокой квалификации эксперта. Проведены исследования по выявлению наиболее важных характеристик многословных терминов (МТ), таких как: вероятности присутствия в документе терминов, содержащих различное количество слов; расположение существительных в МТ; возможное количество существительных в МТ. Проанализирован контекст использования терминов и определены возможные границы терминов в тексте. Предложена процедура предварительной группировки документов, что позволяет избежать «потери» терминов, входящих в короткие документы. Определена зависимость ошибок при выделении терминов от размера анализируемого документа.Предложена математическая модель представления термина, основанная на определении множества цепочек слов, сгруппированных около опорного слова – существительного. Фильтрация цепочек производится в зависимости от частоты их вхождения в текст на основе сопоставления нормализованных представлений МТ.Разработаны механизмы заполнения словаря предметной области новыми записями и корректировки существующих по мере анализа входного документа. Предложено решение по корректировке частоты появления терминов на основе обнаружения межфразовых связей. Все процессы и модели объединены в единую информационную технологию создания словаря предметной области. Проблема определения толкований терминов в данной работе не рассматривается, поскольку требует отдельного решения. Разработан программный продукт, позволяющий в значительной степени автоматизировать процесс выделения терминов из текстовых документов. Результаты апробации предложенных решений показали отсутствие «утерянных терминов» и, как результат, сокращение времени выделения терминов из текстов объемом в 10000 слов на 1.5 часа за счет освобождения эксперта от анализа исходного документа. Результаты исследования могут быть использованы на различных этапах создания и эксплуатации программных продуктовПоказано, що словники предметних областей широко використовуються на різних етапах створення і експлуатації програмних продуктів. Процес створення словника, особливо виділення термінів, досить трудомісткий та вимагає високої кваліфікації експерта. Проведено дослідження по виявленню найбільш важливих характеристик багатослівних термінів, таких як: ймовірності присутності в документі термінів, що містять різну кількість слів; розташування іменників в багатослівних термінах; можливу кількість іменників в багатослівних термінах. Проаналізовано контекст використання термінів та визначено можливі межі термінів в тексті. Запропоновано процедуру попереднього групування документів, що дозволяє уникнути «втрати» термінів, що входять в короткі документи. Визначено залежність помилок при виділенні термінів від розміру аналізованого документа.Запропоновано математичну модель представлення терміна, що заснована на визначенні безлічі ланцюжків слів, згрупованих близько опорного слова – іменника. Фільтрація ланцюжків виробляється в залежності від частоти їх входження в текст на основі зіставлення нормалізованих уявлень багатослівних термінів.Розроблено механізми заповнення словника предметної області новими записами і коригування існуючих у міру аналізу вхідного документа. Запропоновано рішення щодо коригування частоти появи термінів на основі виявлення міжфразових зв'язків. Всі процеси і моделі об'єднані в єдину інформаційну технологію створення словника предметної області. Проблема визначення тлумачень термінів в даній роботі не розглядається, оскільки вимагає окремого рішення. Розроблено програмний продукт, що дозволяє в значній мірі автоматизувати процес виділення термінів з текстових документів. Результати апробації запропонованих рішень показали відсутність «загублених термінів» і, як результат, скорочення часу виділення термінів з текстів обсягом в 10000 слів на 1.5 години за рахунок звільнення експерта від аналізу вихідного документа. Результати дослідження можуть бути використані на різних етапах створення і експлуатації програмних продукті

    Comparative study on Judgment Text Classification for Transformer Based Models

    Full text link
    This work involves the usage of various NLP models to predict the winner of a particular judgment by the means of text extraction and summarization from a judgment document. These documents are useful when it comes to legal proceedings. One such advantage is that these can be used for citations and precedence reference in Lawsuits and cases which makes a strong argument for their case by the ones using it. When it comes to precedence, it is necessary to refer to an ample number of documents in order to collect legal points with respect to the case. However, reviewing these documents takes a long time to analyze due to the complex word structure and the size of the document. This work involves the comparative study of 6 different self-attention-based transformer models and how they perform when they are being tweaked in 4 different activation functions. These models which are trained with 200 judgement contexts and their results are being judged based on different benchmark parameters. These models finally have a confidence level up to 99% while predicting the judgment. This can be used to get a particular judgment document without spending too much time searching relevant cases and reading them completely.Comment: 28 pages with 9 figure

    SENTIMENT STRENGTH AND TOPIC RECOGNITION IN SENTIMENT ANALYSIS

    Get PDF
    Current sentiment analysis methods focus on determining the sentiment polarities (negative, neutral or positive) in users’ sentiments. However, in order to correctly classify users’ sentiments into their right polarities, the strengths of these sentiments must be considered. In addition to classifying users’ sentiments into their correct polarities, it is important to determine the sources and topics under which users’ sentiments fall. Sentiment strength helps as to understand the levels of customer satisfaction toward products and services. Sentiment topics on the other hand, helps to determine the specific product/service areas associated with user sentiments. This paper proposes two sentiment analysis approaches. First an approach which determines the sentiment strength expressed by consumers in terms of a scale (highly positive, +5 to highly negative, -5) is proposed. The approach includes a novel algorithm to compute the strength of sentiment polarity for each text by including the weights of the words used in the texts. Second, a sentiment mining approach which detects sentiment topic from text is proposed. The approach includes a sentiment topic recognition model that is based on Correlated Topics Models (CTM) with Variational Expectation-Maximization (VEM) algorithm. Finally, the effectiveness and efficiency of these models is validated using airline data from Twitter and customer review dataset from amazon.com --Abstract, p. ii
    corecore