4 research outputs found

    A Simple Density with Distance Based Initial Seed Selection Technique for K Means Algorithm

    Get PDF
    Open issues with respect to K means algorithm are identifying the number of clusters, initial seed concept selection, clustering tendency, handling empty clusters, identifying outliers etc. In this paper we propose a novel and a simple technique considering both density and distance of the concepts in a dataset to identify initial seed concepts for clustering. Many authors have proposed different techniques to identify initial seed concepts; but our method ensures that the initial seed concepts are chosen from different clusters that are to be generated by the clustering solution. The hallmark of our algorithm is that it is a single pass algorithm that does not require any extra parameters to be estimated. Further, our seed concepts are one among the actual concepts and not the mean of representative concepts as is the case in many other algorithms. We have implemented our proposed algorithm and compared the results with the interval based technique of Fouad Khan. We see that our method outperforms the interval based method. We have also compared our method with the original random K means and K Means++ algorithms

    Author Index

    Get PDF

    A Simple Density with Distance Based Initial Seed Selection Technique for K Means Algorithm

    No full text

    Análises implícitas de dados na produção de conhecimento em Ciência da computação: um estudo bibliométrico

    Get PDF
    Trabalho de Conclusão de Curso, apresentado para obtenção do grau de Bacharel no Curso de Ciência da Computação da Universidade do Extremo Sul Catarinense, UNESC.Ciência e negócios são exemplos de áreas afetadas em decorrência do notável volume e variedade de dados atualmente disponíveis. Com isto uma área de estudos fica em evidencia, ciência dos dados. O grande desafio e analisar esta quantidade de dados e gerar informação. Necessitando o emprego de técnicas apropriadas, as análises implícitas. Dada a importância destes algoritmos em nosso cotidiano, as produções cientificas fundamentadas nesta área também avultam. Então, pela bibliometria, campo de estudo da ciência da informação, que de forma quantitativa e estatística avalia as produções cientificas. Este trabalho tem por objetivo, desenvolver uma pesquisa bibliométrica na ciência da computação a partir de trabalhos que empregam técnicas de analises implícitas. Além do mapeamento bibliométrico, também foi realizada a fundamentação teórica sobre ciência dos dados, analises implícitas e bibliometria. São abordadas as seguintes analises implicitas: Apriori, arvores de decisão, classificadores bayesianos, DBSCAN, FPGrowth, máquinas de vetores de suporte, redes neurais artificiais, k-means e kmedoid. Os artigos científicos analisados são oriundos de três bases de dados, SciElo, Scopus e Web of Science. A pesquisa seguiu os seguintes critérios de inclusão de arquivos: artigos aplicados a computação, utilizar alguma das analises implícitas e não ser uma bibliometria. Ao fim da pesquisa bibliométrica com volume de 46 artigos, dos quais foram obtidos resultados e conclusões relevantes ao cenário da pesquisa de analises implícitas em ciência da computação. Por meio do h-index, os três principais autores são: Brazdil Thomaš, Artur S. D'Avila Garcez e Mahajan, Meena com os respectivos h-index, quinze, treze e doze, e identificado que o pesquisador Ye, Yongkai destaca-se por ser o unico autor com mais de um trabalho nesta pesquisa, assim como, estabelece uma relação de coautoria em demais trabalhos. Ainda, o ano de 2018 foi o ano mais produtivo com dezesseis artigos, também destaca-se China e Índia pelas suas produtividades, nove e sete respectivamente. Também, a partir dos artigos destaca-se cinco grupos de pesquisas: Pesquisa e Desenvolvimento, Processamento de Linguagem Natural, Seguranca Computacional, Pesquisa e Indexação de Conteúdo e Ausência de Dados em datasets. As análises mais utilizadas foram árvores de decisão, Apriori e redes neurais artificiais. De acordo com os resultados obtidos, conclui-se que este campo de pesquisa encontra-se em crescimento, possui pelo menos duas subáreas de tendência de pesquisa: Pesquisa e Desenvolvimento Computacional e Processamento de Linguagem Natural, além de uma lacuna de pesquisa, Ausência de Dados em datasets. Ainda, entre os autores, confirma-se a existência de uma relação de cooperação qual e identificado pelos trabalhos do autor Ye, Yongkai e também os estudos apontam para análises mais utilizadas, árvores de decisão, Apriori e redes neurais artificiais
    corecore