6 research outputs found

    Extended list of stop words: Does it work for keyphrase extraction from short texts?

    Get PDF
    In this paper we study the problem of key phrase extraction from short texts written in Russian. As texts we consider messages posted on Internet car forums related to the purchase or repair of cars. The main assumption made is: the construction of lists of stop words for key phrase extraction can be effective if performed on the basis of a small, expert-marked collection. The results show that even a small number of texts marked by an expert can be enough to build an extended list of stop words. Extracted stop words allow to improve the quality of the key phrase extraction algorithm. Prior, we used a similar approach for key phrase extraction from scientific abstracts in the English language. In this paper we work with Russian texts. The obtained results show that the proposed approach works not only for texts that are appropriate in terms of structure and literacy, such as abstracts, but also for short texts, such as forum messages, in which many words may be misspelled and the text itself is poorly structured. Moreover, the results show that proposed approach works well not only with English texts, but also with texts in the Russian language

    DOCUMENT REPRESENTATION FOR CLUSTERING OF SCIENTIFIC ABSTRACTS

    Get PDF
    The key issue of the present paper is clustering of narrow-domain short texts, such as scientific abstracts. The work is based on the observations made when improving the performance of key phrase extraction algorithm. An extended stop-words list was used that was built automatically for the purposes of key phrase extraction and gave the possibility for a considerable quality enhancement of the phrases extracted from scientific publications. A description of the stop- words list creation procedure is given. The main objective is to investigate the possibilities to increase the performance and/or speed of clustering by the above-mentioned list of stop-words as well as information about lexeme parts of speech. In the latter case a vocabulary is applied for the document representation, which contains not all the words that occurred in the collection, but only nouns and adjectives or their sequences encountered in the documents. Two base clustering algorithms are applied: k-means and hierarchical clustering (average agglomerative method). The results show that the use of an extended stop-words list and adjective-noun document representation makes it possible to improve the performance and speed of k-means clustering. In a similar case for average agglomerative method a decline in performance quality may be observed. It is shown that the use of adjective-noun sequences for document representation lowers the clustering quality for both algorithms and can be justified only when a considerable reduction of feature space dimensionality is necessary

    Stop-words in keyphrase extraction problem

    Get PDF
    Keyword extraction problem is one of the most significant tasks in information retrieval. High-quality keyword extraction sufficiently influences the progress in the following subtasks of information retrieval: classification and clustering, data mining, knowledge extraction and representation, etc. The research environment has specified a layout for keyphrase extraction. However, some of the possible decisions remain uninvolved in the paradigm. In the paper the authors observe the scope of interdisciplinary methods applicable to automatic stop list feeding. The chosen method belongs to the class of experiential models. The research procedure based on this method allows to improve the quality of keyphrase extraction on the stage of candidate keyphrase building. Several ways to automatic feeding of the stop lists are proposed in the paper as well. One of them is based on provisions of lexical statistics and the results of its application to the discussed task point out the non-gaussian nature of text corpora. The second way based on usage of the Inspec train collection to the feeding of stop lists improves the quality considerably

    Improvement of Keyphrase Assignment Systems through Log Analysis: An Examination of MeSH in HIVE

    Get PDF
    HIVE, an automated metadata generation application in continuing development by the Metadata Research Center at the University of North Carolina at Chapel Hill and the National Evolutionary Synthesis Center based in Durham, North Carolina, has been tested in studies that mainly focus on the accuracy of a complete set of headings assigned by human indexers for a particular item. Using a SKOS implementation of the MeSH vocabulary, the current study takes a more system-internal view-an attempt to better understand, through copious logging information in iterative and in-process tuning, the internals of HIVE, and from thence to make methodological recommendations for improvements to the training process. Findings suggest that certain easy-to-implement refinements of this process can result in better performance overall, and that specific features of particular SKOS vocabularies should be considered when rating performance. Suggestions are offered for possible refinements to the core (KEA++) code used in HIVE.Master of Science in Library Scienc

    Micromedronho: design of microencapsulated arbutus unedo leaves and fruits by spray drying for supplements and functional foods

    Get PDF
    Arbutus unedo is a common tree in the Mediterranean area. Its fruits are consumed fresh or transformed, leaves are rich in antioxidants and not much is known about flowers. In this work we conduct a bibliographic survey utilizing text mining coupled with bibliography management software to expedite the process. We then study the best conditions to extract antioxidants from leaves, fruits and flowers of A. unedo and we compare their antioxidant activity with other plants from Algarve. In this step we found A. unedo to be the best plant. We then investigate the antiproliferative and antimicrobial activities of A. unedo and other plants from Algarve and also explore their phenolic profile and zinc contents, where we find A. unedo has antibacterial activity and retards sw480 cell line growth. Next we determine the vitamin E contents and fatty acid profile of the A. unedo extracts and explore their potential use in the treatment of chronic diseases, namely diabetes, Alzheimer and Parkinson, using enzymatic assays. At this step we find that leaves and fruits are rich in vitamin E, mostly α-tocopherol, and have a ω3:ω6 ratio above 1. Additionally, leaf and flower extracts have the best potential to be used in diabetes control, mostly via α-glucosidase inhibition. We also find the extracts show strong potential to be used in Alzheimer’s control but not in Parkinson’s and that they inhibit acetylcholinesterase and butyrilcholinesterase differently and via difference mechanisms. Finally we expose the development and stability to storage of three new products using A. unedo leaves and fruits as basis. These include a beverage with antioxidant and anti-Alzheimer activity, macrocapsules rich in antioxidants and microcapsules obtained using a spray dryer, which even after in-vitro digestion present the potential to be used in the treatment of Alzheimer’s disease.Arbutus unedo, conhecido em Portugal como medronheiro, é uma árvore comum por todo o mediterrâneo. Desempenha um papel importante na manutenção da economia de algumas regiões do país, nomeadamente Monchique no Algarve. Os seus frutos, vermelhos quando maduros, são colhidos e transformados em compota ou bebidas alcoólicas como licores e água-ardente. Desempenham também um importante papel ambiental, tanto na manutenção da população de abelhas como na recuperação após a ocorrência de um incêndio. Vários grupos de trabalho têm-se debruçado sobre o medronheiro, nomeadamente frutos e folhas, e têm investigado propriedades benéficas para a saúde, como a presença de antioxidantes, vitaminas e minerais, e medicinais como a atividade neuroprotetora e antiagregante. Quanto às flores, pouco se sabe sobre elas. Este trabalho teve como objetivo aumentar o conhecimento sobre as folhas, frutos e flores de medronheiro, explorar os fatores que afetam a atividade antioxidante, determinar a sua atividade antibacteriana e antiproliferativa, o seu potencial no combate de doenças e desenvolver novos produtos tendo como base as diversas partes da árvore. No início apresentamos os resultados obtidos de uma pesquisa bibliográfica que incidiu sobre o tema do medronheiro em todas as suas vertentes. Esta pesquisa foi efetuada utilizando a Web of Knowledge para recolher os dados, o endnote para organizar e o KH Coder para conduzir o text-mining. Ao usar estes três programas foi possível recolher os dados e organizá-los de forma muito mais eficiente que seria possível fazer manualmente. Esta combinação pode ainda ser usada para explorar outros temas de forma rápida e sistemática. De seguida exploramos a atividade antioxidante, nomeadamente a sua variabilidade entre 18 árvores diferentes, a diferença entre uma extração por soxhlet e por placa térmica com agitação, entre folhas e frutos, e entre diferentes solventes. Também investigamos o efeito da temperatura, tempo, rácio e agitação nos resultados obtidos e comparamos a atividade antioxidante do medronheiro com duas outras plantas da mesma família e concluímos que o medronheiro apresenta alta capacidade antioxidante. O próximo passo foi o estudo de potenciais propriedades medicinais dos estratos de 7 plantas colhidas no Algarve. Para tal avaliou-se a atividade antimicrobiana e antiproliferativa dos extratos. Foi ainda avaliado o perfil em compostos fenólicos e o conteúdo em zinco para o medronheiro e 5 outras plantas . Apesar do medronheiro não apresentar a maior diversidade ou quantidade de compostos fenólicos, verificou-se que ele apresenta altos conteúdos em ácido gálico e quercetina, dois potentes antioxidantes. Apresenta ainda um conteúdo apreciável de zinco e possui atividade antimicrobiana especialmente contra Staphylococcus aureus e antiproliferativa contra a linha celular SW480. O passo seguinte foi averiguar o uso potencial das diversas partes do medronheiro, analisando a sua composição proximal, conteúdo em vitamina E e perfil em ácidos gordos. Foi também investigado o seu potencial uso no tratamento de doenças crónicas, nomeadamente a diabetes, o Alzheimer e o Parkinson. Neste passo verificámos que as folhas e frutos eram maioritariamente constituídos por hidratos de carbono, possuindo as folhas uma maior quantidade de proteínas e gordura. Quanto ao conteúdo em vitamina E verificou-se que as folhas e frutos possuem este micronutriente em abundância, principalmente sob a forma de α-tocoferol, o vitamero com maior atividade e maioritariamente acumulado nos humanos. Em ambas as amostras a quantidade de ácidos gordos insaturados foi aproximadamente o triplo da quantidade de ácidos gordos saturados. Os principais ácidos gordos insaturados detetados foram o linoleico (ω6) e linolénico (ω3), sendo que ambas apresentaram uma quantidade maior de ω3 quando comparado com ω6 podendo potencialmente ajudar a combater os défices em ω3 constantes nas dietas comuns. Quanto ao uso no tratamento de doenças crónicas verificou-se que tanto as folhas como os frutos inibem de maneira diferente α-amílases de diferentes origens. Enquanto os frutos mostram uma maior inibição contra α-amilase de origem fúngica, as folhas e frutos mostraram maior inibição contra α-amilase obtida de mamíferos, nomeadamente humanos (saliva) e suínos (pâncreas). Foi também verificado que todos extratos possuem uma atividade inibitória muito maior contra a α-glucosidase quando comparada com a α-amilase, que é o oposto do que acontece com a acarbose, um composto comummente usado no tratamento da diabetes tipo 2. As condições de extração também afetaram as inibições obtidas, mas com menor importância que a parte da planta ou origem da enzima. Quanto ao potencial uso no tratamento contra o Alzheimer verificou-se que todas as partes de quê ??estudadas possuem efeito inibitório contra a acetilcolinesterase e contra a butirilcolinesterase. A possibilidade de inibição destas duas enzimas é uma das terapêuticas utilizadas no tratamento do Alzheimer pelo que os extratos estudados possuem potencialmente o poder de ser utilizados para este mesmo fim. Apesar de ambas as enzimas mostrarem diferentes inibições, o fator parte da planta teve de maneira geral um papel mais importante, com os frutos a mostrarem muito menos inibição do que as folhas ou as flores. Verificou-se ainda que as flores inibem ambas as enzimas pelo método não competitivo, enquanto as folhas e os frutos inibem cada enzima por métodos diferentes. Quanto ao potencial uso no tratamento do Parkinson verificou-se que nenhum dos extratos obtidos com água possui capacidade de inibir mais de 50% da atividade da enzima utilizada (tirosinase). Foi possível obter melhores resultados quando os extratos foram obtidos com 50% ou 100% de etanol, no entanto, o uso deste solvente iria impedir o consumo humano direto dos extratos obtidos. Apesar deste resultado os extratos podem ainda mostrar interesse potencial no tratamento do Parkinson uma vez que a tirosinase de origem fúngica utilizada e a tirosinase de mamíferos reagem de maneira diferente a certos inibidores. A etapa final do trabalho passou por juntar todo o conhecimento adquirido e desenvolver três novos produtos através de folhas e frutos de medronheiro, que possam ser utilizados sozinhos ou no desenvolvimento de produtos de valor acrescentado. Neste passo foi desenvolvida uma bebida, cuja estabilidade foi testada utilizando diversas condições de armazenamento. Foi verificado que o armazenamento no frio é adequado e que mesmo após uma digestão in vitro a bebida ainda apresenta potencial anti-Alzheimer. Foram ainda desenvolvidas macrocápsulas, utilizando alginato e CaCl2 com três formulações diferentes após a verificação prévia das melhores condições de encapsulação. Foi verificado que as cápsulas com extrato de folhas no seu interior apresentavam uma maior atividade antioxidante, apesar das cápsulas com extrato de fruto no seu interior serem mais estáveis ao armazenamento. Por fim os extratos foram colocados num equipamento de spray-dryer para a obtenção de micropartículas sob a forma de pó. Foram estudados o efeito da % de maltodextrina, da adição de gelatina e da temperatura de atomização. Foi verificado que todos os pós obtidos apresentam uma boa solubilidade em água e que mesmo após uma digestão in vitro o pó obtido a partir do extrato de folha possui uma alta atividade inibitória contra a acetilcolinesterase e contra a butirilcolinesterase. Este pó é mais fácil de armazenar e transportar que o extrato na forma liquida e apresenta uma maior estabilidade durante o armazenamento no que diz respeito à degradação das propriedades benéficas pelo que é uma boa alternativa
    corecore