1,915 research outputs found

    Rock slope condition state identification through the application of advanced statistical tools

    Get PDF
    Neste trabalho é analisada a adequabilidade da utilização de ferramentas de data mining (DM) no desenvolvimento de um modelo de classificação do estado de condição de taludes em rocha da rede rodo e ferroviária. O modelo proposto utiliza informação recolhida durante inspeções de rotina, por norma de fácil obtenção, complementada com informação geométrica, geológica e geográfica do talude e atribui um nível/classe ao estado de condição ao talude em análise. O sistema proposto, desenvolvido através da aplicação de ferramentas de inteligência artificial, procura maximizar a informação disponível visando uma classificação realista do estado de condição do talude. Para a aprendizagem dos modelos foi utilizada uma base de dados de taludes em rocha da rede ferroviária britânica. Os resultados obtidos permitem analisar a capacidade de aprendizagem de algoritmos de DM na análise de problemas de elevada complexidade e inferir sobre a informação necessária para uma correta identificação do real estado de condição de taludes em rocha.In the present work it is analysed the suitability of data mining techniques in the development of a classification model of the condition state of rock slopes of the highway and railway network. The proposed model is fed with information taken from routine inspections, usually easy to obtain, as well as geometric, geologic and geographic information of the slope and labels it with a class according to its condition state. The proposed model, developed based on the application of artificial intelligent tools, intends to maximize all the available information towards a representative classification of the rock slope condition state. For model learning, a data base was used with rock slope data from the UK railway network. The achieved results allow assessing the learning capacity of DM algorithms when applied to the analysis of complex problems, as well as inferring about the information required for a correct identification of the real condition state of a rock slope.Este trabalho foi financiado pela FCT - “Fundação para a Ciência e a Tecnologia”, no âmbito do ISISE, projeto: UID/ECI/04029/2013 e no âmbito do projeto: UID/CEC/00319/2013, bem como através da bolsa de pós-doutoramento com a referência SFRH/BPD/94792/2013 (POCH e FSE). Este trabalho foi também financiado pelo COMPETE: POCI-01-0145-FEDER-007043

    Avaliação de métodos de data mining e regressão logística aplicados na análise de traumatismo cranioencefálico grave

    Get PDF
    Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2015O traumatismo cranioencefálico é um problema de saúde pública constituindo-se em uma das principais causas de morbidade e mortalidade no Brasil e no mundo. A análise das relações entre as suas consequências tem despertado interesse em pesquisas na área, a fim de se identificar os indicadores que auxiliam no seu prognóstico, buscandose evitar o óbito. Estes modelos são tradicionalmente gerados por meio da regressão logística que tem se constituído em uma técnica padrão para análise dos dados em saúde. No entanto, os modelos prognósticos em traumatismo cranioencefálico, como o grave que é o foco desta pesquisa, não conseguem acurácia elevada para a predição do óbito por meio da regressão logística. Sabendo-se disso, avanços em termos da acuracidade da predição podem auxiliar no prognóstico e conduta das pessoas acometidas por traumatismo cranioencefálico do tipo grave. A descoberta de conhecimento em bases de dados por meio da etapa de data mining e da integração de técnicas de diferentes áreas como inteligência computacional, reconhecimento de padrões, aprendizado de máquina, estatística e banco de dados, constitui-se em uma alternativa para identificar as relações nestes conjuntos de dados. Considerando-se isto, esta pesquisa consiste na avaliação comparativa de diferentes métodos de data mining, a fim de se analisar os modelos gerados e compará-los com o de regressão logística, em uma mesma população de estudo. Nesta pesquisa, se objetiva identificar padrões válidos, avaliando se os métodos de data mining empregados se mostram como uma alternativa à regressão logística, baseando-se em critérios de avaliação como acurácia e robustez, os quais se constituem em medidas de qualidade dos padrões descobertos. Os métodos de data mining empregados referem-se a indução de árvores de decisão por meio dos algoritmos C4.5 e Classification And Regression Trees; o aprendizado baseado em instâncias pelo algoritmo k-vizinhos mais próximos; as redes neurais artificiais por Funções de Base Radial; os classificadores bayesianos pelos algoritmos Naive Bayes e Redes de Crença Bayesiana e o metaclassificador pelo algoritmo Adaptive Boosting. No desenvolvimento foram gerados modelos de prognóstico do óbito em traumatismo cranioencefálico grave por meio dos algoritmos supracitados, como também pela regressão logística binária. Os modelos gerados na etapa de data mining foram comparados aplicando-se as medidas de avaliação de desempenho (verdadeiros positivos, verdadeiros negativos, acurácia, sensibilidade e especificidade) e de confiabilidade (coeficiente de concordância kappa e área sob a ReceiverOperating Characteristic Curve). Na comparação entre os modelos de data mining elencados com maior poder de discriminação em relação a regressão logística, utilizaram-se as medidas de confiabilidade citadas anteriormente, considerando-se Intervalos de Confiança de 95%. Dentre as análises realizadas, nos modelos gerados para predição do óbito em traumatismo cranioencefálico grave, os classificadores bayesianos destacaram-se apresentando medidas de desempenho significativamente mais representativas. O modelo gerado pelo algoritmo Naive Bayes destacou-se em relação aos demais métodos de data mining empregados, bem como quando comparado com o modelo de regressão logística binária, classificando corretamente o óbito em 58,2% (IC95%: 55,6- 61,8), a acurácia geral do modelo foi de 80,2% (IC95%: 76,9-85,7), sensibilidade de 72,7% (IC95%: 69,8-75,4), especificidade de 84,2% (IC95%: 81,6-87,5), área sob a Receiver-Operating Characteristic Curve de 0,851 (IC95%: 0,832-0,870) e coeficiente de concordância Kappa 0,530 (IC95%: 0,519-0,541). Comparando-se os resultados, o algoritmo Naive Bayes mostrou-se, no conjunto de dados estudado, significativamente mais representativo que o modelo de regressão logística binária e os outros modelos de data mining. Abstract : Traumatic brain injury is a public health problem thus becoming a major cause of morbidity and mortality in Brazil and worldwide. The analysis of relations between its consequences has stimulated researches in the area, in order to identify indicators that help its prognosis, seeking avoid death. These models are traditionally generated by logistic regression that has been constituted as a standard technique for analysis of health data. However, the prognostic models in traumatic brain injury, such as severe which is the focus of this research, can not have a high accuracy for prediction of death by logistic regression. Knowing this, advances in terms of prediction accuracy may aid in prognosis and management of people affected by severe brain injury. The knowledge discovery in databases by data mining step and integration of techniques from different areas such as computational intelligence, pattern recognition, machine learning, statistical and database, constitutes an alternative to identify relationships in the data sets. Considering this, this research consists on the comparative evaluation of different data mining methods in order to analyze the generated models and compare them with logistic regression, in the same study population. In this research, the objective is to identify valid standards, assessing whether the data mining methods used are shown as an alternative to logistic regression, based on evaluation criteria such as accuracy and robustness, which constitute quality measures of the discovered patterns. The data mining methods employed refer to decision tree induction through C4.5 algorithms and Classification And Regression Trees; learning based on instances by knearest neighbors algorithm; artificial neural networks Radial Basis Function; Bayesian classifiers by algorithms Naive Bayes and Bayesian Belief Networks and the metaclassificador by Adaptive Boosting algorithm. In the development were generated death of prognostic models in severe traumatic brain injury through the aforesaid algorithms, but also by binary logistic regression. The models in data mining stage were compared applying the performance evaluation measures (true positives, true negatives, accuracy, sensitivity and specificity) and reliability (kappa coefficient and area under the Receiver Operating Characteristic Curve). Comparing the data mining models listed with major discrimination in relation to logistic regression, we used the reliability of measurements mentioned above, considering 95% confidence intervals. Among the analyzes, the generated models for prediction of death in severe traumatic brain injury, the Bayesian classifiers stood out, presenting performance measures significantly more representative. The model generated by Naive Bayes algorithm stood out in relation to other data mining methods employed, as well as when compared to the binary logistic regression model, correctly classifying the death in 58,2% (CI95%: 55,6-61,8), the overall accuracy of the model was 80,2% (CI95%: 76,9-85,7), sensitivity of 72,7% (CI95%: 69,8-75,4), specificity of 84,2% (CI95%: 81,6-87,5), area under the Receiver Operating Characteristic Curve of 0,851 (CI95%: 0,832-0,870) and Kappa coeficient of agreement 0,530 (CI95%: 0,519-0,541). Comparing the results, the Naive Bayes algorithm proved, in the data set studied, significantly more representative than the model of binary logistic regression and other data mining models

    Técnicas em Data Mining aplicadas na prediaçăo de satisfaçăo de funcionários de uma rede de lojas do comércio varejista /

    Get PDF
    Orientador: Celso CarnieriCo-orientador: Anselmo Chaves NetoInclui apęndicesDissertaçăo (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia e Setor de Cięncias Exatas, Programa de Pós-Graduaçăo em Métodos Numéricos em Engenharia. Defesa: Curitiba, 2005Inclui bibliografia e anexosÁrea de concentraçăo: Programaçăo matemátic

    Mineração de dados aplicada : fatores influentes no comportamento do mercado agrícola entre os Estados do Mato Grosso e Paraná

    Get PDF
    Orientador: Prof. Dr. José Marcelo Almeida Prado CestariTrabalho de Conclusão de Curso (graduação) - Universidade Federal do Paraná, Setor de Ciências Sociais Aplicadas, Curso de Gestão da InformaçãoInclui referênciasResumo : A pesquisa aborda a análise do mercado agrícola nos estados do Mato Grosso e Paraná por meio da mineração de dados. A pesquisa, conduzida mediante a aplicação de técnicas de mineração de dados em diversas bases governamentais, almeja identificar e compreender os fatores que impactam esse setor. Através da análise, o estudo revela correlações significativas, evidenciando a eficácia da mineração de dados na investigação das dinâmicas desses mercados. A conclusão mostra a peculiaridade de cada estado em relação ao que influencia seu comportamento no mercado agrícola. Assim, promove-se uma análise mais ampla e informada do comportamento desses mercados, fundamentais para a economia brasileir

    Identificação e caracterização de situações de “CHURN” em sistemas de telecomunicações

    Get PDF
    Nunca a relação cliente - fornecedor teve uma importância tão relevante no mercado económico como nos dias de hoje, sendo a área de Telecomunicações um dos segmentos de mercado onde os fornecedores de serviços orientam, cada vez mais, as suas decisões estratégicas na gestão do cliente e na sua satisfação, com a finalidade de promover e consolidar a fidelização deste com a organização. Esta dissertação de mestrado está inserida num projecto profissional na área das telecomunicações, um dos mercados mais dinâmicos e estratégicos da actualidade, fértil na construção e definição de sistemas que permitem classificar e explicar o cliente churn, tornando a escolha deste mercado uma mais-valia. O objectivo desta dissertação de mestrado é aprofundar o relacionamento entre fornecedor e cliente, utilizando os sistemas de mineração de dados para detecção e definição do conceito de cliente churn na área das Telecomunicações. Recorrendo à utilização de ferramentas de descoberta de conhecimento em bases de dados (KDD - Knowledge Discovery and Data Mining), procurou-se extrair conhecimento através da exploração de um elevado volume de informação, habitualmente residente nas bases de dados das empresas de telecomunicações. A pesquisa foi realizada numa base real de dados de uma empresa de telecomunicações do Médio Oriente (que guarda o seu direito de não ser identificada), após ter sido minuciosamente limpa e devidamente auditada quanto à robustez dos dados e sua veracidade no mercado em que se insere. O resultado deste trabalho é a aquisição de conhecimento na construção, compreensão e definição do cliente churn, começando na definição dos clientes com probabilidade elevada de deixar a empresa até aos clientes leais à empresa, representativos de valores de lucro elevados.Never a relationship between customer-supplier has had such an economic importance as in the modern times, being the telecommunications area one of the market segments where the service suppliers, focus even more their strategic priorities on the customer’s management and satisfaction, with the aim to promote and consolidate the customer loyalty with the organization. This thesis dissertation has been introduced in a professional project in the telecommunications area, which is one of the most proactive and strategic markets of our times, regarding definition and built in systems that define and explain churn client and due to the fact of this industry being one of the most affected by the churn phenomenon, in part, as a consequence of the technology that generates its own obsolescence in a short amount of time. The thesis dissertation aims to study the relation between customer and supplier, using the data mining systems to detect and define the concept of the churn client in the Telecommunications area. By using tools of Knowledge Discovery and Data Mining (KDD), it was possible to explore big volumes of data, normally available at Telecommunication IT systems databases. The research was carried out over on a real database of a Telecommunications company in the Middle East (which reserves the right of confidentiality) after thorough data cleansing and auditing to certificate the validity of the information being analyzed within its market. The outcome of this research is an acquisition of acknowledgment regarding the definition and understanding of the churn concept, by being able to identify customers with higher probability of leaving the company to identifying loyal customers that represent a higher value for the operator

    Aplicação da mineração de dados na análise de sinistros de trânsito no transporte rodoviário de cargas no Brasil

    Get PDF
    Orientador: Prof. Dr. José Simão de Paula PintoCoorientador: Prof. Dr. Jorge Tiago BastosTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Sociais Aplicadas, Programa de Pós-Graduação em Gestão da Informação. Defesa : Curitiba, 04/04/2023Inclui referênciasResumo: O Brasil está entre os países com maior número de mortes por sinistros de trânsito do mundo. Considerando o cenário das rodovias federais brasileiras, os veículos de carga são o terceiro tipo de veículo mais comum envolvido. Ainda, a pandemia de COVID-19 teve um impacto significativo na mobilidade humana em todo o mundo. Em relação ao estudo deste problema, os bancos de dados de sinistros de trânsito contêm uma série de informações capazes de orientar a tomada de decisão dos gestores para melhorar a segurança no trânsito. Para investigar tais bases, dispõe-se de metodologias como a Knowledge Discovery in Databases (KDD), ou seja, descoberta de conhecimento das bases de dados. A Mineração de Dados (MD), umas das etapas do KDD, pode ser vista como uma técnica para auxiliar nos processos de extração e busca das informações, sendo possível encontrar nos dados armazenados informações úteis que podem não ser perceptíveis em sua forma natural. O objetivo desta tese é testar técnicas de mineração de dados para a análise de dados de sinistros de trânsito, bem como comparar padrões de sinistros encontrados na literatura envolvendo o transporte rodoviário de cargas com os padrões de sinistros ocorridos em rodovias federais do Brasil utilizando ferramentas de mineração de dados, a partir dos dados disponibilizados pela Polícia Rodoviária Federal (PRF), no período de 2017 a 2021 e investigar os possíveis impactos da pandemia de COVID-19 nos sinistros de trânsito, visando contribuir no processo decisório dos gestores de organizações públicas e privadas. Metodologicamente, foi realizada uma comparação de algoritmos de mineração de dados, avaliando o desempenho de cada técnica de mineração e a comparação da literatura com sinistros no Brasil. O estudo revela ser possível extrair fatores que influenciam nos sinistros de trânsito como os fatores humano, da via e do ambiente, corroborando com os resultados encontrados na literatura. Ao comparar os quatro algoritmos, o estudo mostrou que o algoritmo J48 se apresentou como um classificador satisfatório nos testes realizados.Abstract: Brazil is among the countries with the highest number of deaths from traffic accidents in the world. Considering the scenario of Brazilian federal highways, freight vehicles are the third most common type of vehicle involved. Still, the COVID-19 pandemic has had a significant impact on human mobility around the world. Regarding the study of this problem, the databases of traffic accidents contain a series of information capable of guiding the decision making of managers to improve traffic safety. To investigate such databases, there are methodologies such as Knowledge Discovery in Databases (KDD), that is, knowledge discovery of databases. Data Mining (DM), one of the stages of KDD, can be seen as a technique to assist in the processes of extracting and searching for information, making it possible to find useful information in the stored data that may not be perceptible in its natural form. The objective of this thesis is to test data mining techniques for the analysis of traffic claims data, as well as to compare claims patterns found in the literature involving road freight transport with the claims patterns occurred on federal highways in Brazil using tools of data mining, based on data provided by the Federal Highway Police (PRF), from 2017 to 2021 and to investigate the possible impacts of the COVID-19 pandemic on traffic claims, aiming to contribute to the decision-making process of managers of public organizations and private. Methodologically, a comparison of data mining algorithms was performed, evaluating the performance of each mining technique and comparing the literature with claims in Brazil. The study reveals that it is possible to extract factors that influence traffic accidents, such as human, road and environmental factors, corroborating the results found in the literature. When comparing the four algorithms, the study showed that the J48 algorithm presented itself as a satisfactory classifier in the tests performed

    Mineração de textos para o tratamento automático em sistemas de atendimento ao usuário

    Get PDF
    The explosion of new forms of communication between companies and new opportunities and means for companies to take advantage of this interaction. The way customers interact with companies has evolved in the recent years due to the increase in mobile devices and Internet access: clients who traditionally requested phone service migrated to electronic means of service, whether via smartphone app's or via customer service portals. As a result of this technological transformation of the communication medium, text mining has become an attractive form for companies to extract new knowledge from the register of interactions carried out by customers. Within this context, the telecommunications environment provides the inputs for conducting experiments due to the large volume of data generated daily in customer service systems. This job aims to analyze if the use of text mining increases the accuracy of data mining models in applications involving free texts. For this purpose, an application is developed that aims to identify clients likely to leave internal service environments (CRM) and migrate to regulatory agencies in the telecommunications sector [Baeza, Ricardo e Berthier ,1999]. Also addressed are the main problems encountered in text mining applications. Finally, the results of the application of classification algorithms on different data sets are presented for the evaluation of the improvement obtained with the inclusion of text mining for this type of application. The results obtained show a consolidated gain in the improvement of the acuraria in the order of 32%, making the mining of texts a useful tool for this type of problem.A explosão de novas formas de comunicação entre empresas e clientes proporciona novas oportunidades e meios para que empresas possam tirar proveito desta interação. A forma como os clientes interagem com as empresas tem evoluído nos últimos anos, devido ao aumento dos dispositivos móveis e o acesso à internet: clientes que tradicionalmente solicitavam atendimento via telefone migraram para meios de atendimento eletrônicos, sejam eles via app´s dos smartphones ou via portais de atendimento a clientes. Como resultado desta transformação tecnológica do meio de comunicação, a Mineração de Textos tornou-se uma atrativa forma das empresas extraírem conhecimento novo a partir do registro das interações realizadas pelos clientes. Dentro deste contexto, o ambiente de telecomunicações proporciona os insumos para a realização de experimentos devido ao grande volume de dados gerados diariamente em sistemas de atendimento a clientes. Esse trabalho tem por objetivo analisar se o uso de Mineração de Textos aumenta a acurácia dos modelos de Mineração de Dados em aplicações que envolvem textos livres. Para isso é desenvolvido uma aplicação que visa a identificação de clientes propensos a saírem de ambientes internos de atendimento (CRM) e migrarem para órgãos regulamentadores do setor de telecomunicações. Também são abordados os principais problemas encontrados em aplicações de Mineração de Textos. Por fim, são apresentados os resultados da aplicação de algoritmos de classificação sobre diferentes conjuntos de dados, para a avaliação da melhoria obtida com a inclusão da Mineração de Textos para este tipo de aplicação. Os resultados obtidos mostram um ganho consolidado na melhoria da acuraria na ordem de 32%, fazendo da Mineração de Textos uma ferramenta útil para este tipo de problema

    Ultrapassando o poder de expressão de SQL com mineração de dados

    Get PDF
    TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Sistemas de Informação.Apesar do forte poder de expressão do SQL, que se manifesta através de operadores algébricos e cálculos relacionais, não há suporte para buscas que objetivam descobrir padrões sobre dados de um banco de dados. Com base nisto, este trabalho visa explorar, através de experimentos, até onde é possível obter as informações desejadas sobre um banco de dados fazendo uso exclusivamente de SQL. A partir das limitações encontradas, serão descritas soluções com mineração de dados, de forma a evidenciar motivações para seu uso

    Previsão do pagamento em atraso de faturas

    Get PDF
    O pagamento em atraso das faturas é um dos principais desafios das operações de uma empresa. Com uma gestão inadequada do processo de cobrança de faturas, os pagamentos em atraso podem-se acumular e causar problemas no negócio. Por outras palavras, o aumento do número de faturas não pagas pode levar a problemas de fluxo de caixa na empresa. Nesta dissertação, é desenvolvido um sistema automático de treino de modelos de previsão do pagamento de faturas. Na realização da solução, são criados modelos de aprendizagem automática supervisionada para identificar antecipadamente as faturas que serão pagas em atraso. Será seguida a metodologia CRISP-DM, onde os principais procedimentos abordados pelo trabalho são a limpeza e pré-processamento de dados, construção de modelos de aprendizagem automática e avaliação do desempenho do modelo. A solução pretendida pela CPCIT4all fornecerá aos seus clientes do setor público, como a Goldenergy, fornecedor dos dados para o projeto, a possibilidade de prever que clientes seus têm maior probabilidade de não pagar dentro do limite. Podendo assim, atuar sobre estes para que realizem os pagamentos dentro o limite, melhorando consequentemente o fluxo de caixa da empresa.The late payment invoices is one of the main challenges of a company's operations. With a inadequate management of the invoice collection process, the late payments can accumulate and cause business problems. In other words, increasing the number of unpaid invoices can lead to cash flow problems in the company. In this dissertation, a proactive approach was directed to improve the management of invoice payment collection, using a predictive model generated by an automated mechanism. In the realization of the solution, supervised machine learning models were created to identify in advance the invoices that will be paid late. The CRISP-DM methodology will be followed, where the main procedures covered by the work are data cleaning and pre-processing, construction of automatic learning models and model performance evaluation. The solution intended by CPCIT4all, will provide its public sector customers, such as Goldenergy, provider of the data for this project, with the possibility of predicting which of their customers are more likely to not pay within the limit, acting on them to make payments within the limits, thus improving their invoice collection process and consequently increasing the company's cash flow

    Slope stability evaluation. Performance of neural networks versus support vector machines

    Get PDF
    Neste trabalho são comparados os desempenhos das Redes Neuronais Artificiais (RNA) com as Máquinas de Vetores de Suporte (MVS) na avaliação da estabilidade de taludes. Para isso foi gerada uma base de dados contendo os fatores de segurança (FS) calculados para 501 taludes homogéneos bem como as suas características geométricas e geotécnicas. Os fatores de segurança foram obtidos usando o método de Bishop modificado e o software SLOPE/W. Nas análises efetuadas foi usada a biblioteca RMiner no ambiente R para facilitar o uso deste nas tarefas de classificação e regressão. Para usar aquela tarefa as bases de dados foram ajustadas substituindo o fator de segurança dos taludes por “estável” quando FS é maior ou igual à unidade e “instável” quando FS é menor que 1. Constata-se que tanto as RNA como as MVS apresentam bons desempenhos nas tarefas de regressão e de classificação. No entanto, são as MVS que apresentam os melhores desempenhos nas duas tarefas.This work compares the performances of the Artificial Neural Networks (ANN) with the Support Vector Machines (SVM) in the slope stability evaluation. For this purpose a database containing the factors of safety (FS) computed for 501 homogeneous slopes as well as their geometric and geotechnical characteristics was generated. The factors of safety were obtained using the modified Bishop method and the SLOPE/W software. The analyses were performed using the RMiner library in the R environment to facilitate its use in classification and regression tasks. In the classification task the data were adjusted by replacing the FS for “stable” when FS is greater or equal to 1 and “unstable” when FS is lower than 1. Both ANN and SVM presented good performances in regression and classification tasks. Nevertheless, the SVM had better performance in both tasks
    corecore