    Keyphrases Concentrated Area Identification from Academic Articles as Feature of Keyphrase Extraction: A New Unsupervised Approach

    The extraction of high-quality keywords and sum-marising documents at a high level has become more difficult in current research due to technological advancements and the expo-nential expansion of textual data and digital sources. Extracting high-quality keywords and summarising the documents at a high-level need to use features for the keyphrase extraction, becoming more popular. A new unsupervised keyphrase concentrated area (KCA) identification approach is proposed in this study as a feature of keyphrase extraction: corpus, domain and language independent; document length-free; utilized by both supervised and unsupervised techniques. In the proposed system, there are three phases: data pre-processing, data processing, and KCA identification. The system employs various text pre-processing methods before transferring the acquired datasets to the data processing step. The pre-processed data is subsequently used during the data processing step. The statistical approaches, curve plotting, and curve fitting technique are applied in the KCA identification step. The proposed system is then tested and evaluated using benchmark datasets collected from various sources. To demonstrate our proposed approach’s effectiveness, merits, and significance, we compared it with other proposed techniques. The experimental results on eleven (11) datasets show that the proposed approach effectively recognizes the KCA from articles as well as significantly enhances the current keyphrase extraction methods based on various text sizes, languages, and domains

    A New Unsupervised Technique to Analyze the Centroid and Frequency of Keyphrases from Academic Articles

    Automated keyphrase extraction is crucial for extracting and summarizing relevant information from a variety of publications in multiple domains. However, the extraction of good-quality keyphrases and the summarising of information to a good standard have become extremely challenging in recent research because of the advancement of technology and the exponential development of digital sources and textual information. Because of this, the usage of keyphrase features for keyphrase extraction techniques has recently gained tremendous popularity. This paper proposed a new unsupervised region-based keyphrase centroid and frequency analysis technique, named the KCFA technique, for keyphrase extraction as a feature. Data/datasets collection, data pre-processing, statistical methodologies, curve plotting analysis, and curve fitting technique are the five main processes in the proposed technique. To begin, the technique collects multiple datasets from diverse sources, which are then input into the data pre-processing step by utilizing some text pre-processing processes. Afterward, the region-based statistical methodologies receive the pre-processed data, followed by the curve plotting examination and, lastly, the curve fitting technique. The proposed technique is then tested and evaluated using ten (10) best-accessible benchmark datasets from various disciplines. The proposed approach is then compared to our available methods to demonstrate its efficacy, advantages, and importance. Lastly, the results of the experiment show that the proposed method works well to analyze the centroid and frequency of keyphrases from academic articles. It provides a centroid of 706.66 and a frequency of 38.95% in the first region, 2454.21 and 7.98% in the second region, for a total frequency of 68.11

    Bilingual Extractive Text Summarization Model using Textual Pattern Constraints

    In the era of digital information, an auto-generated summary can help readers to easily find important and relevant information. Most of the studies and benchmark data sets in the field of text summarization are in English. Hence, there is a need to study the potential of Malay language in this field. This study also highlights the problems in identifying and generating important information in extractive summaries. This is because existing text representation models such as BOW has weaknesses in inaccurate semantic representation, while the N-gram model has the issue of producing very high word vector dimensions. In this study, a bilingual text summarization model named MYTextSumBASIC has been developed to generate an extractive summary automatically in Malay and English. The MYTextSumBASIC summarizer model applies a text representation model known as FASP using three Textual Pattern Constraints, namely word item constraints, adjacent word constraints and sequence size constraints. There are three main phases in the framework of MYTextSumBASIC model, which are the development of the Malay language corpus, the development of MYTextSumBASIC model using FASP and the summary evaluation phase. In the summary evaluation phase, using the Malay language data sets of 100 news articles, the summaries produced by MYTextSumBASIC outperformed the summary generated by Baseline (Lead) and OTS summarizer with the highest average for retrieval (R) is 0.5849, precision (P) is 0.5736 and the F-score (Fm) is 0.5772. For manual evaluation by linguists, the MYTextSumBASIC method yielded a reading score of 4.1 and 3.87 for summary content generated using a random data set. Further experiments using the 2002 DUC English benchmark data set of 102 news articles have also shown that the MYTextSumBASIC model outperformed the best and lowest systems in the comparison with the mean retrieval values of ROUGE-1 (0.43896) and ROUGE-2 (0.19918). These findings conclude that the FASP text representation feature along with the textual pattern constraints used by our model can be used for bilingual text with competitive performance compared to other text summarization models


    This book is divided into different research areas relevant in Bioinformatics such as biological networks, next generation sequencing, high performance computing, molecular modeling, structural bioinformatics, molecular modeling and intelligent data analysis. Each book section introduces the basic concepts and then explains its application to problems of great relevance, so both novice and expert readers can benefit from the information and research works presented here

    Micromedronho: design of microencapsulated arbutus unedo leaves and fruits by spray drying for supplements and functional foods

    Arbutus unedo is a common tree in the Mediterranean area. Its fruits are consumed fresh or transformed, leaves are rich in antioxidants and not much is known about flowers. In this work we conduct a bibliographic survey utilizing text mining coupled with bibliography management software to expedite the process. We then study the best conditions to extract antioxidants from leaves, fruits and flowers of A. unedo and we compare their antioxidant activity with other plants from Algarve. In this step we found A. unedo to be the best plant. We then investigate the antiproliferative and antimicrobial activities of A. unedo and other plants from Algarve and also explore their phenolic profile and zinc contents, where we find A. unedo has antibacterial activity and retards sw480 cell line growth. Next we determine the vitamin E contents and fatty acid profile of the A. unedo extracts and explore their potential use in the treatment of chronic diseases, namely diabetes, Alzheimer and Parkinson, using enzymatic assays. At this step we find that leaves and fruits are rich in vitamin E, mostly α-tocopherol, and have a ω3:ω6 ratio above 1. Additionally, leaf and flower extracts have the best potential to be used in diabetes control, mostly via α-glucosidase inhibition. We also find the extracts show strong potential to be used in Alzheimer’s control but not in Parkinson’s and that they inhibit acetylcholinesterase and butyrilcholinesterase differently and via difference mechanisms. Finally we expose the development and stability to storage of three new products using A. unedo leaves and fruits as basis. These include a beverage with antioxidant and anti-Alzheimer activity, macrocapsules rich in antioxidants and microcapsules obtained using a spray dryer, which even after in-vitro digestion present the potential to be used in the treatment of Alzheimer’s disease.Arbutus unedo, conhecido em Portugal como medronheiro, é uma árvore comum por todo o mediterrâneo. Desempenha um papel importante na manutenção da economia de algumas regiões do país, nomeadamente Monchique no Algarve. Os seus frutos, vermelhos quando maduros, são colhidos e transformados em compota ou bebidas alcoólicas como licores e água-ardente. Desempenham também um importante papel ambiental, tanto na manutenção da população de abelhas como na recuperação após a ocorrência de um incêndio. Vários grupos de trabalho têm-se debruçado sobre o medronheiro, nomeadamente frutos e folhas, e têm investigado propriedades benéficas para a saúde, como a presença de antioxidantes, vitaminas e minerais, e medicinais como a atividade neuroprotetora e antiagregante. Quanto às flores, pouco se sabe sobre elas. Este trabalho teve como objetivo aumentar o conhecimento sobre as folhas, frutos e flores de medronheiro, explorar os fatores que afetam a atividade antioxidante, determinar a sua atividade antibacteriana e antiproliferativa, o seu potencial no combate de doenças e desenvolver novos produtos tendo como base as diversas partes da árvore. No início apresentamos os resultados obtidos de uma pesquisa bibliográfica que incidiu sobre o tema do medronheiro em todas as suas vertentes. Esta pesquisa foi efetuada utilizando a Web of Knowledge para recolher os dados, o endnote para organizar e o KH Coder para conduzir o text-mining. Ao usar estes três programas foi possível recolher os dados e organizá-los de forma muito mais eficiente que seria possível fazer manualmente. Esta combinação pode ainda ser usada para explorar outros temas de forma rápida e sistemática. De seguida exploramos a atividade antioxidante, nomeadamente a sua variabilidade entre 18 árvores diferentes, a diferença entre uma extração por soxhlet e por placa térmica com agitação, entre folhas e frutos, e entre diferentes solventes. Também investigamos o efeito da temperatura, tempo, rácio e agitação nos resultados obtidos e comparamos a atividade antioxidante do medronheiro com duas outras plantas da mesma família e concluímos que o medronheiro apresenta alta capacidade antioxidante. O próximo passo foi o estudo de potenciais propriedades medicinais dos estratos de 7 plantas colhidas no Algarve. Para tal avaliou-se a atividade antimicrobiana e antiproliferativa dos extratos. Foi ainda avaliado o perfil em compostos fenólicos e o conteúdo em zinco para o medronheiro e 5 outras plantas . Apesar do medronheiro não apresentar a maior diversidade ou quantidade de compostos fenólicos, verificou-se que ele apresenta altos conteúdos em ácido gálico e quercetina, dois potentes antioxidantes. Apresenta ainda um conteúdo apreciável de zinco e possui atividade antimicrobiana especialmente contra Staphylococcus aureus e antiproliferativa contra a linha celular SW480. O passo seguinte foi averiguar o uso potencial das diversas partes do medronheiro, analisando a sua composição proximal, conteúdo em vitamina E e perfil em ácidos gordos. Foi também investigado o seu potencial uso no tratamento de doenças crónicas, nomeadamente a diabetes, o Alzheimer e o Parkinson. Neste passo verificámos que as folhas e frutos eram maioritariamente constituídos por hidratos de carbono, possuindo as folhas uma maior quantidade de proteínas e gordura. Quanto ao conteúdo em vitamina E verificou-se que as folhas e frutos possuem este micronutriente em abundância, principalmente sob a forma de α-tocoferol, o vitamero com maior atividade e maioritariamente acumulado nos humanos. Em ambas as amostras a quantidade de ácidos gordos insaturados foi aproximadamente o triplo da quantidade de ácidos gordos saturados. Os principais ácidos gordos insaturados detetados foram o linoleico (ω6) e linolénico (ω3), sendo que ambas apresentaram uma quantidade maior de ω3 quando comparado com ω6 podendo potencialmente ajudar a combater os défices em ω3 constantes nas dietas comuns. Quanto ao uso no tratamento de doenças crónicas verificou-se que tanto as folhas como os frutos inibem de maneira diferente α-amílases de diferentes origens. Enquanto os frutos mostram uma maior inibição contra α-amilase de origem fúngica, as folhas e frutos mostraram maior inibição contra α-amilase obtida de mamíferos, nomeadamente humanos (saliva) e suínos (pâncreas). Foi também verificado que todos extratos possuem uma atividade inibitória muito maior contra a α-glucosidase quando comparada com a α-amilase, que é o oposto do que acontece com a acarbose, um composto comummente usado no tratamento da diabetes tipo 2. As condições de extração também afetaram as inibições obtidas, mas com menor importância que a parte da planta ou origem da enzima. Quanto ao potencial uso no tratamento contra o Alzheimer verificou-se que todas as partes de quê ??estudadas possuem efeito inibitório contra a acetilcolinesterase e contra a butirilcolinesterase. A possibilidade de inibição destas duas enzimas é uma das terapêuticas utilizadas no tratamento do Alzheimer pelo que os extratos estudados possuem potencialmente o poder de ser utilizados para este mesmo fim. Apesar de ambas as enzimas mostrarem diferentes inibições, o fator parte da planta teve de maneira geral um papel mais importante, com os frutos a mostrarem muito menos inibição do que as folhas ou as flores. Verificou-se ainda que as flores inibem ambas as enzimas pelo método não competitivo, enquanto as folhas e os frutos inibem cada enzima por métodos diferentes. Quanto ao potencial uso no tratamento do Parkinson verificou-se que nenhum dos extratos obtidos com água possui capacidade de inibir mais de 50% da atividade da enzima utilizada (tirosinase). Foi possível obter melhores resultados quando os extratos foram obtidos com 50% ou 100% de etanol, no entanto, o uso deste solvente iria impedir o consumo humano direto dos extratos obtidos. Apesar deste resultado os extratos podem ainda mostrar interesse potencial no tratamento do Parkinson uma vez que a tirosinase de origem fúngica utilizada e a tirosinase de mamíferos reagem de maneira diferente a certos inibidores. A etapa final do trabalho passou por juntar todo o conhecimento adquirido e desenvolver três novos produtos através de folhas e frutos de medronheiro, que possam ser utilizados sozinhos ou no desenvolvimento de produtos de valor acrescentado. Neste passo foi desenvolvida uma bebida, cuja estabilidade foi testada utilizando diversas condições de armazenamento. Foi verificado que o armazenamento no frio é adequado e que mesmo após uma digestão in vitro a bebida ainda apresenta potencial anti-Alzheimer. Foram ainda desenvolvidas macrocápsulas, utilizando alginato e CaCl2 com três formulações diferentes após a verificação prévia das melhores condições de encapsulação. Foi verificado que as cápsulas com extrato de folhas no seu interior apresentavam uma maior atividade antioxidante, apesar das cápsulas com extrato de fruto no seu interior serem mais estáveis ao armazenamento. Por fim os extratos foram colocados num equipamento de spray-dryer para a obtenção de micropartículas sob a forma de pó. Foram estudados o efeito da % de maltodextrina, da adição de gelatina e da temperatura de atomização. Foi verificado que todos os pós obtidos apresentam uma boa solubilidade em água e que mesmo após uma digestão in vitro o pó obtido a partir do extrato de folha possui uma alta atividade inibitória contra a acetilcolinesterase e contra a butirilcolinesterase. Este pó é mais fácil de armazenar e transportar que o extrato na forma liquida e apresenta uma maior estabilidade durante o armazenamento no que diz respeito à degradação das propriedades benéficas pelo que é uma boa alternativa

    Efficient sequential pattern mining with wildcards for keyphrase extraction

    © 2016 A keyphrase (a multi-word unit) in a document denotes one or multiple keywords capturing a main topic of the underlying document. Finding good keyphrases of a document can quickly summarize knowledge for efficient decision making and benefit domains involving intensive text information. To date, existing keyphrase extraction methods cannot be customized to each specific document, mainly because their patterns used to form paraphrases are too restrictive and may not capture flexible keyword relationships inside the text. In this paper, we propose a sequential pattern mining based document-specific keyphrase extraction method. Our key innovation is to use wildcards (or gap constraints) to help extract sequential patterns, so the flexible wildcard constraints within a pattern can capture semantic relationships between words, and the system will have full flexibility to discover different types of sequential patterns as candidates for keyphrase extraction. To achieve the goal, we regard each single document as a sequential dataset, and propose an efficient algorithm to mine sequential patterns with wildcard and one-off conditions that allows important keyphrases to be captured during the mining process. For each extracted keyphrase candidate, we use some statistical pattern features to characterize it, and further collect all keyphrases from the document to form a training set. A supervised learning classifier is trained to identify keyphrases from a test document. Because our pattern mining and pattern characterization processes are customized to each single document, keyphases extracted from our method are highly specific for each document. Experimental results demonstrate that the proposed sequential pattern mining method outperforms existing pattern mining methods in both runtime performance and completeness. Comparisons on keyphrase benchmark datasets also confirm that the proposed document-specific keyphrase extraction method is effective in improving the quality of extracted keyphrases