5 research outputs found

    Stock market random forest-text mining system mining critical indicators of stock market movements

    Stock Market (SM) is believed to be a significant sector of a free market economy as it plays a crucial role in the growth of commerce and industry of a country. The increasing importance of SMs and their direct influence on economy were the main reasons for analysing SM movements. The need to determine early warning indicators for SM crisis has been the focus of study by many economists and politicians. Whilst most research into the identification of these critical indicators applied data mining to uncover hidden knowledge, very few attempted to adopt a text mining approach. This paper demonstrates how text mining combined with Random Forest algorithm can offer a novel approach to the extraction of critical indicators, and classification of related news articles. The findings of this study extend the current classification of critical indicators from three to eight classes; it also show that Random Forest can outperform other classifiers and produce high accuracy


    The COVID-19 pandemic has hit various sectors including the stock market. It is undeniable that the COVID-19 pandemic raises concerns and doubts about investing, given that uncertain conditions make volatility even higher. Nevertheless, the number of capital market investors in Indonesia increased by 42% at the end of 2020 compared to the previous year. The increase in the number of investors also occurred in Southeast Asian countries. The COVID-19 pandemic that hit the world has made people more careful in using their money. The allocation of public funds that was previously consumptive, during the pandemic began to be directed to invest, one of which was investment in the capital market. Jakarta Composite Index (JCI) data shows that JCI has been able to recover for the last one year since the COVID-19 pandemic hit Indonesia. This indicates that stock investments are still able to provide profits during the pandemic. Although the JCI shows a recovery, it does not mean that the stock value of all issuers has recovered. Therefore, the right sector and stock selection strategy for investment needs to be implemented in order to have the opportunity to get profits. The difficulty for investors in stock screening is that investors have to analyze one by one for each issuer. In this study, machine learning screening with the Herarical Dendogram method will be used to select Islamic stocks listed in the Jakarta Islamic Index (JII)

    A Comparative Analysis of Machine Learning Models for Banking News Extraction by Multiclass Classification With Imbalanced Datasets of Financial News: Challenges and Solutions

    Online portals provide an enormous amount of news articles every day. Over the years, numerous studies have concluded that news events have a significant impact on forecasting and interpreting the movement of stock prices. The creation of a framework for storing news-articles and collecting information for specific domains is an important and untested problem for the Indian stock market. When online news portals produce financial news articles about many subjects simultaneously, finding news articles that are important to the specific domain is nontrivial. A critical component of the aforementioned system should, therefore, include one module for extracting and storing news articles, and another module for classifying these text documents into a specific domain(s). In the current study, we have performed extensive experiments to classify the financial news articles into the predefined four classes Banking, Non-Banking, Governmental, and Global. The idea of multi-class classification was to extract the Banking news and its most correlated news articles from the pool of financial news articles scraped from various web news portals. The news articles divided into the mentioned classes were imbalanced. Imbalance data is a big difficulty with most classifier learning algorithms. However, as recent works suggest, class imbalances are not in themselves a problem, and degradation in performance is often correlated with certain variables relevant to data distribution, such as the existence in noisy and ambiguous instances in the adjacent class boundaries. A variety of solutions to addressing data imbalances have been proposed recently, over-sampling, down-sampling, and ensemble approach. We have presented the various challenges that occur with data imbalances in multiclass classification and solutions in dealing with these challenges. The paper has also shown a comparison of the performances of various machine learning models with imbalanced data and data balances using sampling and ensemble techniques. From the result, it’s clear that the performance of Random Forest classifier with data balances using the over-sampling technique SMOTE is best in terms of precision, recall, F-1, and accuracy. From the ensemble classifiers, the Balanced Bagging classifier has shown similar results as of the Random Forest classifier with SMOTE. Random forest classifier's accuracy, however, was 100% and it was 99% with the Balanced Bagging classifier

    Predição do preço de ações através de portais de notícias

    TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Sistemas de Informação.A tecnologia avança a cada dia, e quanto mais ferramentas, aplicações e redes de informação são desenvolvidas, estes tipos de sistemas de informação vêm facilitando cada vez mais a divulgação de informação através da internet, torna-se cada vez mais comum o compartilhamento de informações dos mais variados tipos, desde registros de momentos pessoais, até informações e notícias sobre empresas e lançamento de produtos. Baseado nessa premissa do compartilhamento de informações através da internet, este trabalho tem como principal objetivo identificar se existe alguma correlação entre notícias divulgadas na internet por portais de informação e a flutuação do valor de ações de empresas na bolsa de valores brasileira, a B3. Utilizando técnicas e algoritmos de processamento de linguagem natural para tentar transformar o conteúdo de uma notícia para que este possa ser classificado em um formato compreensível pela máquina, aliados a algoritmos de predição que tentam identificar padrões e correlações entre diferentes dados, este trabalho tem como um de seus objetivos específicos criar um modelo de predição que correlacione informações relativas às transações de ações de uma empresa com as notícias divulgadas durante um dia, sendo estas notícias referentes às empresas específicas em estudo. Com estas informações se procura predizer se a tendência do valor de ação é de subida, queda ou estagnação. Este trabalho utilizou grandes empresas de tecnologia como alvo do estudo, uma vez que por serem famosas e internacionais, é esperado um maior fluxo de notícias relacionadas a elas. Outro fator é o de estarem presentes na bolsa de valores brasileira com uma maior movimentação de ações. Serão estudadas ações e notícias de Apple, Microsoft e Tesla Motors.Technology becomes more and more advanced each day. As more tools, applications and information networks are created, this kind of information systems provides and facilitates the spread of information throughout the internet. It becomes more common to share all types of information, from important personal moments to companies and products news. Based on this premise of the popularization of information share over the internet, this paper has the main goal of identifying whether there is any correlation between news shared by communication portals and the fluctuation of the companies stock prices, on the Brazilian stock exchange, the B3. Using natural language processing algorithms and techniques to try to transform the news content and classify this information into a format that computers can understand and process, allied to prediction algorithms that try to identify patterns and correlations between the stocks transaction data of a company, this paper has as a specific goal of creating a prediction model that correlates a company’s stock transactions information with the company's news shared on internet communication portals of a same day. With this information, this study tries to predict whether the tendency of a stock price is to go up, down or maintain on the same level. This paper studies big technology companies. Since they are international, world wide known companies, it is expected that online portals should publish a greater number of news about them than barely known companies. Another reason for choosing these companies is the fact that they are on the Brazilian stock exchange with a considerable stock move amount. The stocks and news of Apple, Microsoft and Tesla Motors are the ones to be studied

    Análise exploratória de constituintes inorgânicos em tecido, líquido ruminal e fezes de bovinos da raça nelore (Bos Taurus Indicus).

    Tendo em vista a importância dos constituintes inorgânicos para os bovinos e sua relação com a dieta fornecida aos animais, essa dissertação teve como objetivo propor um procedimento para a determinação multielementar dos analitos, Ca, Mg, P, K, S, Na, Cu, Fe, Mn, Zn, Co, Cr, Mo, Se e V, em amostras de líquido ruminal, músculo e fezes de bovinos submetidos a duas diferentes dietas. O experimento desenvolvido com 52 novilhos machos da raça Nelore teve como objetivo avaliar possíveis alterações em função das dietas, nos teores desses analitos nas diferentes amostras avaliadas. Os animais foram confinados e divididos em 2 grupos. O primeiro grupo foi submetido a uma dieta convencional (silagem de milho e farelo de soja) e o segundo a uma dieta com subprodutos (polpa cítrica e farelo de amendoim). Imediatamente após o abate, as amostras de líquido ruminal, músculo e fezes foram liofilizadas, moídas e em seguida submetidas à digestão assistida por radiação micro-ondas em meio a ácido nítrico diluído e peroxido de hidrogênio. As determinações foram realizadas por espectrometria de emissão óptica com plasma indutivamente acoplado (ICP OES) e por espectrometria de massas com plasma indutivamente acoplado (ICP-MS). Os métodos foram validados com o emprego de materiais de referência certificados (CRMs), sendo obtidos resultados satisfatórios para os CRMs avaliados e limites de detecção e quantificação adequados para o uso pretendido. Devido ao grande volume de resultados gerados, testes estatísticos foram realizados, a fim de verificar se havia diferença estatística entre as dietas. O teste t de Student foi aplicado quando a distribuição dos dados era normal e o teste de Mann-Whitney foi aplicado no caso de distribuição não normal. Os resultados indicaram diferenças significativas nas duas dietas avaliadas para Ca, P, Fe, Mn, Mg, Cr e V nas amostras de fezes e líquido ruminal. As amostras de fezes também apresentaram diferenças significativas para Na, Zn, S, Cu e Co. Nas amostras de músculo foram observadas diferenças significativas apenas para o K. Análise discriminante linear (LDA) foi aplicada para verificar os agrupamentos de conteúdo mineral para cada grupo (líquido ruminal, músculo e fezes), sendo este teste capaz de discriminar os grupos com um score de 100%, indicando que os mesmos são muito bem definidos e distintos. A análise de componentes principais (PCA) foi utilizada para verificar a dispersão das amostras e as tendências para grupos de tratamento (dieta convencional e dieta de subprodutos). Não foi possível observar uma separação clara entre os grupos de tratamento para as amostras de líquido ruminal e músculo. No entanto, para as fezes essa separação foi clara. Os dados gerados também foram analisados por modelos de florestas randômicas (RF) para verificar se a concentração dos analitos avaliados poderia ser utilizada como preditor do grupo de tratamento e verificar quais seriam os mais importantes para essa classificação. Os resultados obtidos pelo modelo RF indicaram que não é possível classificar as amostras utilizando os teores dos elementos inorgânicos do músculo e liquido ruminal. Porém, isso muda quando consideramos as fezes. Nesse caso, os dados de massa característica dos analitos formaram dois grupos distintos, com probabilidade de acerto pelo modelo de 100%.Orientadora: Dra. Ana Rita de Araújo Nogueira - Embrapa Pecuária Sudeste