10 research outputs found

    Abstracts and Abstracting in Knowledge Discovery

    Guía para la preparación de resúmenes

    Guidelines for the elaboration of abstracts for scientific and technical literature

    Controlled and natural language use in the databases : literature review

    O trabalho tem como objetivo examinar o uso da linguagem controlada ou da linguagem natural , no planejamento da estratégia de busca em um ambiente de bases de dados em CD-ROM ou em linha. São revisados os estudos que abordam o uso das linguagens controlada e natural nas estratégias de busca, suas vantagens e desvantagens, proporcionando uma perspectiva sobre a complexidade para a busca da informação bibliográfica e referencial, incluindo a seleção de termos para as estratégias e a função do vocabulário controlado ou da linguagem natural nesse contexto. ______________________________________________________________________________________________________________________ ABSTRACTThe work has the aim to examine the use of the controlled language or the use of the natural language in the search strategy planning in the CD-ROM or online environment. Studies that focusing the use of the controlled and natural languages in the search strategy are reviewed providing a perspective on the complexity of searching for bibliographic and referral information, including the selection of terms for the search strategies and the role of controlled vocabulary or the natural language in this context

    Türkiye'de 2010-2017 yıllarında tamamlanmış olan doktora tez özetlerinin incelenmesi

    The purpose of this study, which is a case study based on the qualitative research model, is to examine the appropriateness of the doctoral dissertation abstracts written between 2010 and 2017. For this purpose, 3463 doctoral dissertation abstracts, written in education, were accessed through the website of The National Thesis Center of Turkey by using the "advanced search" option based on predefined criteria. No sampling method was used in the research, and all the dissertations in the field of interest were accessed. To examine the dissertation abstracts, an abstract review form was developed by the researchers, and after receiving the view of the experts, fifty dissertation abstracts were examined in collaboration with 5 researchers to ensure compatibility and clarity. The form was finalized after the joint review/evaluation. Each dissertation abstract was examined independently by two different experts. The differences in the two expert reviewers’ opinions were also revised by a third expert, and the final decision was made on the abstract. A descriptive statistical analysis was conducted on the data collected by the dissertation abstract form. While it was found that almost all of them included aims and findings presented in an academic tone, they did not mention the sampling and data collection tools. However, a number of abstracts were included data collection and sampling methods, and also, a limited amount of reference and abbreviation was used. Along with these findings, it was also found that the number of doctoral dissertations did not differ significantly over the years. In line with these findings, it was concluded that Turkey has gender equality in education opportunities, and there is a lack of information regarding the information on the method of dissertation abstract. The differences in the Ph.D. dissertation abstracts, not only between university programs but also within the universities in Turkey, make it difficult to obtain an idea of the dissertations. In the dissertation writing guides of the institutes, it is suggested that the dissertation abstracts should be expressed in a new common national template by considering the required qualifications.Nitel araştırma desenlerinden durum çalışması modelinde olan bu çalışmada 2010-2017 yılları arasında yazılan doktora tez özetlerinin incelenmesini amaçlanmıştır. Bu amaç doğrultusunda, Türkiye ulusal tez merkezi adresinden eğitim alanındaki 3463 doktora tez özetine ulaşılmıştır. Araştırmacılar tez özeti inceleme formu geliştirmiştir. Özetler doküman analizi yöntemi kullanılarak analiz edilmiştir. Her bir özet iki farklı uzman birbirlerinden bağımsız olarak incelenmiştir. Tez özetlerinin neredeyse tamamına yakınında amaç, bulgulara yer verildiği, çoğunda örneklemden ve veri toplama araçlarından bahsedilmediği görülmüştür. Bununla birlikte az sayıda tezde veri toplama ve örnekleme yöntemine yer verildiği, az sayıda kısaltma ve referans kullanıldığı görülmüştür. Yıllar içinde doktora tez sayılarının cinsiyete göre anlamlı farklılık göstermediği bulunmuştur. Sonuç olarak tez özetlerinde özellikle yöntem bilgisi eksikliği olduğu görülmektedir. Üniversiteler arasında, hatta üniversitelerin kendi içerisindeki programlardaki doktora tez özeti farklılıkları tez hakkında fikir edinilmesini zorlaştırmaktadır. Enstitülerin tez yazım kılavuzlarında, tez özetlerinin, gerekli nitelikler dikkate alınarak ulusal yeni bir şablonda ifade edilmelidir

    Sumarização automática de texto

    O acto de sumarizar ou resumir, isto é, tornar mais sucinta a descrição de uma ideia ou conceito, é uma actividade bastante trivial. As pessoas produzem constantemente, este tipo de representações sucintas para algo que pretendam descrever ou comunicar, sendo que, uma forma muito comum de síntese são os sumários escritos. Tradicionalmente este tipo de sumários são manualmente produzidos por pessoas que analisam textos e tentam identi car os principais conceitos presentes nos mesmos. A chamada sobrecarga de informação , em muito potenciada pela explosão da Internet, tem instigado a disponibilidade de um cada vez maior volume de informação, que torna esse trabalho manual bastante difícil, senão mesmo impossível. Vários têm sido os esforços realizados na tentativa de resolução deste problema, procurando desenvolver técnicas que possibilitem obter o conteúdo mais relevante de documentos, de maneira condensada, sem alterar o seu signi cado original, e com a mínima intervenção humana. O trabalho desenvolvido no âmbito desta dissertação visou explorar diversas abordagens de sumarização extractiva de texto através da implementação de métodos computacionais baseados em estatísticas textuais e teoria de grafos. Foi ainda implementado um método baseado na fusão das abordagens anteriores com outras características como a procura de palavras- -chave e a posição das frases no texto, o que resultou na denominação de método híbrido. A sumarização realizada é puramente extractiva, ou seja, a composição do sumário gerado é baseada na classi cação das frases do texto original e posterior selecção do subconjunto das frases mais informativas, por forma a satisfazer determinada taxa de compressão. Numa abordagem puramente estatística, foi desenvolvido um método que pretende avaliar a relevância de termos do texto com base nos valores das suas frequências, no texto fonte e num corpus. A abordagem baseada em teoria de grafos foi utilizada para levar a cabo duas tarefas distintas, a classi cação de frases através da avaliação da sua centralidade, e a extracção de palavras- chave. A abordagem híbrida utiliza as várias características descritas numa combinação linear, mediada por um conjunto de pesos associados às diversas componentes. O desempenho das diferentes abordagens exploradas é avaliado utilizando colecções de textos noticiosos. Estes dados são provenientes das Document Understanding Conferences (DUC). Para avaliar a qualidade dos sumários produzidos, foi utilizada a ferramenta ROUGE. Os diversos métodos propostos foram, então, comparados entre si avaliando-se intrínseca e automaticamente o nível de informação dos extractos produzidos. Os resultados obtidos evidenciam que o método híbrido é o que apresenta melhor desempenho aquando da comparação da sua pontuação ROUGE com os demais, cando esta tendência a dever-se essencialmente à utilização de uma heurística posicional que atribui maior importância a frases que ocupem uma posição cimeira no texto, sendo que este modelo se adequa especialmente bem à estrutura textual de artigos noticiosos

    Sumarização Personalizada e Subjectiva de Texto

    Um texto pode ser sumarizado ou resumido, isto é, o seu assunto ou conceito pode ser representado de uma forma mais sucinta. A representação mais comum de um sumário é a escrita, pois é constantemente produzida pelas pessoas, quando estas querem descrever uma determinado assunto. Ao longo dos últimos anos o uso da Internet tem vindo a massificar-se e com isso a quantidade de informação disponível nesta enorme rede, aumentou exponencialmente, sendo este acontecimento denominado como sobrecarga de informação. Isto levanta uma série de problemas, entre eles a procura de informação relevante, sobre um determinado tema. Quando alguém procura essa informação pretende encontrá-la de forma eficiente, ou seja, rápido e que aborde diretamente o assunto pretendido. Quanto ao assunto, existem algumas formas de procurar o mesmo, já em relação à celeridade da pesquisa, deparamo-nos com uma quantidade enorme de informação que por vezes difere daquilo que procuramos, sendo muito demoroso o processo de leitura de toda essa informação. Uma das formas de resolver esse problema é resumir o conteúdo do texto encontrado, para que assim possamos de uma forma mais rápida ter uma noção sobre o tema do texto encontrado. Na área da sumarização existem várias técnicas que possibilitam a obtenção de um sumário mais específico. Esta dissertação tem como base a combinação de algumas das técnicas estudadas ao longo do tempo, tais como, relevância e informatividade das palavras, objetividade, segmentação em tópicos e no uso de palavras que representem o domínio do texto. Numa abordagem estatística destacam-se a relevância dos termos de um texto, que é calculada através da frequência dos termos presentes nesse texto e num corpus,a extração das palavraschave que serão encontradas através da sua relevância no texto e a posição das frases no documento que consoante o seu tipo, pode ser calculado de diversas formas, neste caso, sendo avaliado com textos noticioso, foi implementada uma heurística posicional que atribui mais relevância a frases cimeiras. A abordagem baseada na subjectividade de um texto é implementada recorrendo a um conjunto de dados textuais conhecido como SentiWordNet [BES10]. Foi ainda implementada uma abordagem híbrida em que se combinam total ou parcialmente os métodos referidos anteriormente. De modo a proceder à avaliação do sistema foram utilizados dois conjuntos de dados noticiosos. Um destes conjuntos de dados é proveniente da Document Understanding Conference, datado de 2001, o outro é o corpus TeMário. Para que os sumários produzidos pudessem ser avaliados automaticamente, foi utilizada uma implementação em linguagem JAVA da ferramenta ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Após a comparação dos resultados do método híbrido com os restantes, com e sem identificação dos tópicos ficou evidenciado que a heurística posicional das frases obtém melhores resultados, pelo que os métodos híbridos onde esta característica tem peso superior às restantes, tanto para quando o texto é separado em tópicos como no caso contrário, de uma forma geral, obtém melhores resultados. O melhor desempenho no total dos resultados é obtido com o método híbrido, atribuindo maior peso à componente da heurística posicional da frase, sem identificação dos tópicos.A text can be summarized or abstracted, ie, its subject or concept can be represented in a more succinct form. The most common representation of a summary is written, because it is constantly produced by people when they want to describe a particular subject. Over the last years, the use of Internet has come to popularize and therewith the amount of information available in this huge network, has increased exponentially, and this event is called as "information overload". This raises a set of problems, among them the search for relevant information on a given theme. When someone searches for this information he/she want to find it efficiently, ie, fast and directly address the intended subject. For the theme, there are some ways to find it, as compared to the speed of research, we are faced with an enormous amount of information which sometimes differs from what we search, being very slow the process of reading all this information. One way to solve this problem is to summarize the contents of the text found, so we can a faster way to get a sense on the subject of the text found. In the area of summarization, various techniques exist which allow to obtain a more specific shape. This dissertation is based on the combination of some techniques, studied over time, such as relevance and informativeness of the words, objectivity, segmentation in topics and in the use a set of words that represent the domain of the text. In statistical approach is highlighted the relevance of the terms of a text, which is calculated from the frequency of terms present in a text and corpus, the extraction of domain words that will be encountered by their relevance in the text and the position of the phrases in the document, that depending on type, can be calculated in different ways, in this case, being evaluated with news texts, was implemented a positional heuristic that assigns more importance to sentences in the text top. The approach based in subjectivity of a text is implemented using a set of textual data known as SentiWordNet [BES10]. It was also implemented a hybrid approach that combines all or a set of the methods mentioned above. In order to realize an evaluatiuon of the system, two sets of news data was used. One of these data are from the Document Understanding Conference, dated 2001 and other is TeMário corpus. For summaries produced could be evaluated automatically, was used an implementation in JAVA language, of tool ROUGE (Recall-Oriented Evaluation Understudy for Gisting). After comparing the results of the hybrid method with the other, with and without identification of topics, was showed that the positional heuristic of sentences obtained better results, so that the hybrid methods where this feature has top weight to the others, both when the text is separated into topics or not, in general, performs better. The best performance in overall results are obtained with the hybrid method, assigning greater weight to the positional heuristic phrase, without identification of the component threads

    Resumo Documental: uma incursão

