12 research outputs found
„U nas adin prokuror czestnyj czeławiek, a i on — prawdu skazat’ — swinia” — „rossica” w felietonistyce Stanisława Michalkiewicza
The article aims at presenting and analyzing rossica (linguistic and culturalborrowings from Russian) retrieved from the texts written by Stanisław Michalkiewicz. Stanisław Michalkiewicz is a conservative-liberal author and a former politician. Along with borrowings from Latin and French, Michalkiewicz, known for his command of Russian, incorporates various Russian and Soviet linguistic and cultural elements in his writings. Rossica come in the form of lexical and textual borrowings, e.g. quotations from politicians, literary works, popular songs and jokes. One can also distinguish indirect sources of rossica, such as quotations from Polish literary works referring to Russian reality. Moreover, Michalkiewicz creates original derivates of Russian borrowings and modifies the forms of dative case of Polish personal names according to the Russian masculine noun declension paradigm
Measuring citizen participation in South African public debates using Twitter: An exploratory study
This paper addresses the task of measuring Twitter social attributes that can be used for detecting patterns that show user participation in public debates in South African. We propose a method that leverages observable information on Twitter such as use of language, retweeting user behaviour, and the relationship between topics and the user social network graph. Our experimental results suggest high degrees of citizen participation: people in an otherwise multilingual country tweet in a dominant language; there is more original commentary and interactive discussion; and topics often span natural online communities
Towards Preemptive Text Edition using Topic Matching on Corpora
Nowadays, the results of scientific research are only recognized when published in papers for international
journals or magazines of the respective area of knowledge. This perspective reflects
the importance of having the work reviewed by peers. The revision encompasses a thorough
analysis on the work performed, including quality of writing and whether the study advances
the state-of-the-art, among other details. For these reasons, with the publishing of the document,
other researchers have an assurance of the high quality of the study presented and can,
therefore, make direct usage of the findings in their own work. The publishing of documents
creates a cycle of information exchange responsible for speeding up the progress behind the
development of new techniques, theories and technologies, resulting in added value for the
entire society.
Nonetheless, the existence of a detailed revision of the content sent for publication requires
additional effort and dedication from its authors. They must make sure that the manuscript is
of high quality, since sending a document with mistakes conveys an unprofessional image of the
authors, which may result in the rejection at the journal or magazine. The objective of this
work is to develop an algorithm capable of assisting in the writing of this type of documents, by
proposing suggestions of possible improvements or corrections according to its specific context.
The general idea for the solution proposed is for the algorithm to calculate suggestions of improvements
by comparing the content of the document being written in to that of similar published
documents on the field. In this context, a study on Natural Language Processing (NLP)
techniques used in the creation of models for representing the document and its subjects was
performed. NLP provides the tools for creating models to represent the documents and identify
their topics. The main concepts include n-grams and topic modeling. The study included also an
analysis of some works performed in the field of academic writing. The structure and contents
of this type of documents, the presentation of some of the characteristics that are common to
high quality articles, as well as the tools developed with the objective of helping in its writing
were also subject of analysis.
The developed algorithm derives from the combination of several tools backed up by a collection
of documents, as well as the logic connecting all components, implemented in the scope of this
Master’s. The collection of documents is constituted by full text of articles from different areas,
including Computer Science, Physics and Mathematics, among others. The topics of these documents
were extracted and stored in order to be fed to the algorithm. By comparing the topics
extracted from the document under analysis with those from the documents in the collection,
it is possible to select its closest documents, using them for the creation of suggestions. The algorithm is capable of proposing suggestions for word replacements which are more commonly
utilized in a given field of knowledge through a set of tools used in syntactic analysis, synonyms
search and morphological realization.
Both objective and subjective tests were conducted on the algorithm. They demonstrate that,
in some cases, the algorithm proposes suggestions which approximate the terms used in the document
to the most utilized terms in the state-of-the-art of a defined scientific field. This points
towards the idea that the usage of the algorithm should improve the quality of the documents,
as they become more similar to the ones already published. Even though the improvements to
the documents are minimal, they should be understood as a lower bound for the real utility of
the algorithm. This statement is partially justified by the existence of several parsing errors
both in the training and test sets, resulting from the parsing of the pdf files from the original
articles, which can be improved in a production system.
The main contributions of this work include the presentation of the study performed on the state
of the art, the design and implementation of the algorithm and the text editor developed as a
proof of concept. The analysis on the specificity of the context, which results from the tests
performed on different areas of knowledge, and the large collection of documents, gathered
during this Master’s program, are also important contributions of this work.Hoje em dia, a realização de uma investigação científica só é valorizada quando resulta na publicação
de artigos científicos em jornais ou revistas internacionais de renome na respetiva área
do conhecimento. Esta perspetiva reflete a importância de que os estudos realizados sejam
validados por pares. A validação implica uma análise detalhada do estudo realizado, incluindo
a qualidade da escrita e a existência de novidades, entre outros detalhes. Por estas razões,
com a publicação do documento, outros investigadores têm uma garantia de qualidade do estudo
realizado e podem, por isso, utilizar o conhecimento gerado para o seu próprio trabalho.
A publicação destes documentos cria um ciclo de troca de informação que é responsável por
acelerar o processo de desenvolvimento de novas técnicas, teorias e tecnologias, resultando na
produção de valor acrescido para a sociedade em geral.
Apesar de todas estas vantagens, a existência de uma verificação detalhada do conteúdo do
documento enviado para publicação requer esforço e trabalho acrescentado para os autores.
Estes devem assegurar-se da qualidade do manuscrito, visto que o envio de um documento
defeituoso transmite uma imagem pouco profissional dos autores, podendo mesmo resultar na
rejeição da sua publicação nessa revista ou ata de conferência. O objetivo deste trabalho é
desenvolver um algoritmo para ajudar os autores na escrita deste tipo de documentos, propondo
sugestões para melhoramentos tendo em conta o seu contexto específico.
A ideia genérica para solucionar o problema passa pela extração do tema do documento a ser
escrito, criando sugestões através da comparação do seu conteúdo com o de documentos científicos
antes publicados na mesma área. Tendo em conta esta ideia e o contexto previamente
apresentado, foi realizado um estudo de técnicas associadas à área de Processamento de Linguagem
Natural (PLN). O PLN fornece ferramentas para a criação de modelos capazes de representar
o documento e os temas que lhe estão associados. Os principais conceitos incluem n-grams e
modelação de tópicos (topic modeling). Para concluir o estudo, foram analisados trabalhos
realizados na área dos artigos científicos, estudando a sua estrutura e principais conteúdos,
sendo ainda abordadas algumas características comuns a artigos de qualidade e ferramentas
desenvolvidas para ajudar na sua escrita.
O algoritmo desenvolvido é formado pela junção de um conjunto de ferramentas e por uma
coleção de documentos, bem como pela lógica que liga todos os componentes, implementada
durante este trabalho de mestrado. Esta coleção de documentos é constituída por artigos completos
de algumas áreas, incluindo Informática, Física e Matemática, entre outras. Antes da
análise de documentos, foi feita a extração de tópicos da coleção utilizada. Deste forma, ao
extrair os tópicos do documento sob análise, é possível selecionar os documentos da coleção mais semelhantes, sendo estes utilizados para a criação de sugestões. Através de um conjunto de
ferramentas para análise sintática, pesquisa de sinónimos e realização morfológica, o algoritmo
é capaz de criar sugestões de substituições de palavras que são mais comummente utilizadas na
área.
Os testes realizados permitiram demonstrar que, em alguns casos, o algoritmo é capaz de fornecer
sugestões úteis de forma a aproximar os termos utilizados no documento com os termos
mais utilizados no estado de arte de uma determinada área científica. Isto constitui uma evidência
de que a utilização do algoritmo desenvolvido pode melhorar a qualidade da escrita de
documentos científicos, visto que estes tendem a aproximar-se daqueles já publicados. Apesar
dos resultados apresentados não refletirem uma grande melhoria no documento, estes deverão
ser considerados uma baixa estimativa ao valor real do algoritmo. Isto é justificado pela presença
de inúmeros erros resultantes da conversão dos documentos pdf para texto, estando estes
presentes tanto na coleção de documentos, como nos testes.
As principais contribuições deste trabalho incluem a partilha do estudo realizado, o desenho e
implementação do algoritmo e o editor de texto desenvolvido como prova de conceito. A análise
de especificidade de um contexto, que advém dos testes realizados às várias áreas do conhecimento,
e a extensa coleção de documentos, totalmente compilada durante este mestrado, são
também contribuições do trabalho
A robust methodology for automated essay grading
None of the available automated essay grading systems can be used to grade essays according to the National Assessment Program – Literacy and Numeracy (NAPLAN) analytic scoring rubric used in Australia. This thesis is a humble effort to address this limitation. The objective of this thesis is to develop a robust methodology for automatically grading essays based on the NAPLAN rubric by using heuristics and rules based on English language and neural network modelling