3 research outputs found

    Exploring different machine learning strategies in pre-processing problems

    No full text
    Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e TecnologiaCom o aumento de volumes de dados, melhorias tecnológicas, e a necessidade crescente em extrairconhecimento de dados, as técnicas de Machine Learning têm sido alvo de grande estudo, focandoseas principais contribuições no desenvolvimento e melhoria dos seus algoritmos. Nesse contexto,a qualidade dos dados é um ponto crucial na obtenção de bons resultados. Incluído na análisede dados, o pré-processamento é uma das etapas da extração de conhecimentos que possibilita amelhoria da qualidade dos dados. Esta dissertação visa contribuir em dois problemas que podemsurgir na fase de pré-processamento: dados incompletos e dados não balanceados.Para resolver o primeiro problema, os investigadores usam tipicamente estratégias brute-forceque, para além do seu elevado custo computacional, não têm em consideração a natureza dosdados e, portanto, não possibilitam a sua generalização para diferentes contextos. Neste trabalho éexplorada a relação entre o desempenho das técnicas de imputação estado-da-arte e a distribuiçãodos dados, procurando desenvolver uma heurística que permita escolher a técnica de imputaçãomais apropriada para cada variável incluída no estudo, evitando a necessidade de testar váriastécnicas. Os resultados mostram que existe uma relação entre a distribuição das variáveis e odesempenho dos algoritmos. Este desempenho parece ser influenciado pela estratégia e taxa degeração dos dados em falta.No segundo problema pretende-se medir o desempenho dos classificadores em contextos de dadosnão balanceados. A abordagem utilizada para proceder à validação cruzada (antes ou depois dopré-processamento) pode levar a desempenhos sobre-otimistas, aquando da aplicação de técnicasde sobre-amostragem para atenuar a diferença entre classes. Este trabalho visa mostrar qual aabordagem mais correta na validação cruzada e relacionar o motivo do sobre-otimismo com acomplexidade dos datasets. Os resultados demostram que a abordagem de validação cruzada maisadequada é aquela onde a divisão do dataset é efetuada antes do pré-processamento, e o sobreotimismoaparenta estar relacionado com a semelhança na complexidade dos conjuntos de treino eteste.With increasing volumes of data, technological improvements, and the need to extract knowledgefrom data, Machine Learning techniques have been subjected to great study, where the main contributionsare currently focused in the development and improvement of algorithms. In this context,data quality is a crucial point to achieve good results. Included in data analysis, preprocessing isone of the stages of knowledge-discovery in databases that enables the improvement of data quality.This dissertation aims to contribute to two problems that may arise in the preprocessing stage:Missing Data and Imbalanced Data.To solve the first problem, researchers typically use brute-force strategies that, in addition totheir high computational cost, do not take into account the nature of the data and therefore donot allow their generalization to different contexts. In this work, the relationship between theperformance of the state-of-art imputation techniques and the data distribution is explored, bytrying to develop a heuristic that allows choosing the most appropriate imputation technique foreach feature included in the study, to avoid the need of testing several techniques. The results showthat there is a relationship between the features’ distributions and the imputation performance.This performance seems to be influenced by the strategy and rate of the missing data generation.In the second problem, the intention is to measure the performance of classifiers in imbalanceddata contexts. The approach used to perform cross-validation (before or after pre-processing)can lead to over-optimistic performances when applying oversampling techniques to attenuate thebetween-class imbalance. This work aims to show the most correct approach of cross-validationand to relate the over-optimistic performance with the datasets’ complexity. The results show thatthe most appropriate cross-validation approach is the one where the dataset splitting is performedbefore the pre-processing stage, and over-optimistic performances seem to be related to the similarityof the complexity of training and test sets

    Generating Synthetic Missing Data: A Review by Missing Mechanism

    No full text
    The performance evaluation of imputation algorithms often involves the generation of missing values. Missing values can be inserted in only one feature (univariate con guration) or in several features (multivariate con guration) at different percentages (missing rates) and according to distinct missing mechanisms, namely, missing completely at random, missing at random, and missing not at random. Since the missing data generation process de nes the basis for the imputation experiments (con guration, missing rate, and missing mechanism), it is essential that it is appropriately applied; otherwise, conclusions derived from ill-de ned setups may be invalid. The goal of this paper is to review the different approaches to synthetic missing data generation found in the literature and discuss their practical details, elaborating on their strengths and weaknesses. Our analysis revealed that creating missing at random and missing not at random scenarios in datasets comprising qualitative features is the most challenging issue in the related work and, therefore, should be the focus of future work in the field
    corecore