7 research outputs found

    Knowledge Discovery in Online Repositories: A Text Mining Approach

    Get PDF
    Before the advent of the Internet, the newspapers were the prominent instrument of mobilization for independence and political struggles. Since independence in Nigeria, the political class has adopted newspapers as a medium of Political Competition and Communication. Consequently, most political information exists in unstructured form and hence the need to tap into it using text mining algorithm. This paper implements a text mining algorithm on some unstructured data format in some newspapers. The algorithm involves the following natural language processing techniques: tokenization, text filtering and refinement. As a follow-up to the natural language techniques, association rule mining technique of data mining is used to extract knowledge using the Modified Generating Association Rules based on Weighting scheme (GARW). The main contributions of the technique are that it integrates information retrieval scheme (Term Frequency Inverse Document Frequency) (for keyword/feature selection that automatically selects the most discriminative keywords for use in association rules generation) with Data Mining technique for association rules discovery. The program is applied to Pre-Election information gotten from the website of the Nigerian Guardian newspaper. The extracted association rules contained important features and described the informative news included in the documents collection when related to the concluded 2007 presidential election. The system presented useful information that could help sanitize the polity as well as protect the nascent democracy

    Контент-аналіз. Історія розвитку і світовий досвід

    Get PDF
    Монографія присвячена проблемам розвитку одного з найпоширеніших методів аналізу масових комунікацій – контент-аналізу. Розглядаються етапи розвитку контент-аналізу, дається характеристика застосування його на кожному етапі, описуються особливості методики та напрями вдосконалення. Особлива увага приділяється комп’ютерному контент-аналізу, який поступово перетворює контент-аналіз з наукового методу в сучасну технологію, яка знаходить повсюдне масове застосування. Однією з технологій, яка має в основі контент-аналіз, є Text Mining. Про її можливості та застосування також ведеться мова в роботі. Дослідження може прислужитися викладачам, науковцям, політикам, аспірантам, студентам, усім, хто цікавиться проблемами і методами аналізу текстів

    Uso de text mining na determinação da relação entre instituições de investigação e empresas

    Get PDF
    A excelência da investigação científica produzida é indissociável da inovação e criação de valor económico e social. Assim, a aproximação entre diferentes áreas científicas e de negócio, e a consolidação de formas de colaboração entre as instituições de investigação e o tecido económico e social, potencia a criação, transferência e valorização do conhecimento. Neste processo têm particular importância as unidades de investigação e as empresas, com papeis diferenciados, mas essenciais para completar o ciclo de inovação. No mundo competitivo de hoje, a capacidade de extrair conhecimento útil de dados e tomar decisões de acordo com esse conhecimento é cada vez mais importante e essencial. O processo de aplicação de metodologias para extração de conhecimento a partir de dados textuais é denominado de text mining. A sua utilização tem como benefício a grande quantidade de informação importante latente neste formato e que não está disponível nos formatos clássicos de dados estruturados. Neste trabalho foi desenvolvida uma ferramenta de apoio estratégico, que tem como objetivo potenciar a colaboração entre unidades de investigação e o tecido empresarial. Através de metodologias de text mining, nomeadamente sumário da informação e topic modeling com utilização do modelo Latent Dirichlet Allocation, é analisada a informação disponível nos websites das unidades de investigação e das empresas e são identificadas possíveis relações. É a primeira vez que é analisado este tipo de informação com recurso a metodologias de text mining e com o propósito de potenciar a relação entre estas estruturas. A análise de resultados obtidos permitiu concluir que os mesmos estão dependentes da qualidade da informação disponível nos websites e da representatividade de todas as áreas. Caso estas condições sejam garantidas, esperam-se bons resultados relativos a possíveis relações, tendo sempre em consideração que estes resultados poderão não ser os mais óbvios tendo por base o conhecimento prévio das entidades em análise. Assim, a ferramenta deverá ser utilizada como apoio na tomada de decisão, devendo os resultados obtidos ser analisados de forma crítica e em complemento à experiência de especialistas.The excellence of the scientific research produced is inseparable from innovation and the creation of economic and social value. Thus, the approximation between different scientific and business areas and the consolidation of forms of collaboration between research institutions and the economic and social fabric, boosts the creation, transfer and valorization of knowledge. In this process, research units and companies are particularly important, with different but essential roles to complete the innovation cycle. In today’s competitive world, the ability to extract useful knowledge from data and make decisions according to that knowledge is increasingly important and essential. The process of applying methodologies to extract knowledge from textual data is called text mining. Its use has the benefit of accessing to a large amount of important information latent in this format and which is not available in the classic structured data formats. In this work a strategic support tool was developed, aiming to enhance collaboration between research units and the business fabric. Through the use of text mining methodologies, namely information summary and topic modeling using the Latent Dirichlet Allocation model, the information available on the websites of research units and companies is analyzed and possible connections are identified. It is the first time that this type of information is analyzed using text mining methodologies and with the purpose of enhancing the relationship between these structures. The analysis of results led to the conclusion that these results depend on the quality of the information available on the websites and the representativeness of all areas. If these conditions are guaranteed, good results are expected regarding possible connections, always bearing in mind that these results may not be the most obvious, based on the prior knowledge of the entities under analysis. Therefore, the tool should be used as a support in decision making and the results obtained should be critically analyzed in addition to the experience of experts
    corecore