Search CORE

3 research outputs found

Feature selectionof inconsistent datain HDF5+Python environment on INCD cloud

Author: Apolónia João
Cavique Luís
Publication venue: Universidade Aberta
Publication date: 01/12/2019
Field of study

O tratamento de conjuntos de dados de grande dimensão é uma questão que é recorrente nos dias de hoje. Uma das abordagens possíveis passa por realizar uma seleção de atributos que permita diminuir, consideravelmente, a dimensão dos dados sem aumentar a inconsistência dos mesmos. A Análise Lógica de Dados Inconsistentes (LAID) é uma metodologia sistematizada, robusta, sendo fácil de interpretar e consegue lidar com dados inconsistentes. O paradigma, relativamente ao manuseamento de grandes volumes de dados, tem-se alterado. Antes, o tratamento dos dados era efetuado num único computador e o acesso era realizado depois do seu carregamento em memória. A tendência atual é aceder aos dados em disco, num ambiente cloud. Este trabalho pretende validar o novo paradigma, com recurso ao sistema de dados HDF5 e ao ambiente remoto disponibilizado pela. Pelo facto de o HDF5 ser o sistema adotado pela comunidade Python para lidar com dados de grande dimensão, esta linguagem foi escolhida para implementação do LAID.The treatment of large datasets is an issue that is often addressed today and whose task is not simple, given the computational limitations that still exist.One possible approach is to perform a feature selection that allows a considerably reduction of data size without increasing inconsistency. Logical Analysis of Inconsistent Data (LAID) is a systematic, robust methodology that is easy to interpret and can handle inconsistent data.The paradigm regarding the handling of large data has hasbeen changing over. Previously, data processing was performed on a single computer, with in-memory data access. The current trend is to access data on disk, in a cloud environment. The present work intends to validate this new paradigm, using HDF5 data system and remote environment provided by INCD. Because HDF5 is the system adopted by Python’s community to handle large datasets, this language was chosen for LAID algorithm implementation.info:eu-repo/semantics/publishedVersio

Repositório Aberto da Universidade Aberta

Seleção de atributos de dados inconsistentes

Author: Apolónia João
Publication venue
Publication date: 07/02/2019
Field of study

O tratamento de conjuntos de dados de grande dimensão é uma questão que é recorrente nos dias de hoje e cuja tarefa não é simples, dadas as limitações computacionais, ainda, existentes. Uma das abordagens possíveis passa por realizar uma seleção de atributos que permita diminuir, consideravelmente, a dimensão dos dados sem aumentar a inconsistência dos mesmos. “Rough Sets” é uma abordagem que difere doutras técnicas de seleção de atributos pela sua capacidade de lidar com dados inconsistentes. Outra abordagem para redução de dados é conhecida como Análise Lógica de Dados (LAD). A Análise Lógica de Dados Inconsistentes (LAID) junta as vantagens destas duas abordagens. Com o grande aumento do volume de dados, o paradigma, relativamente ao seu manuseamento, tem-se alterado. Antes, o tratamento dos dados era efetuado num único computador e o acesso era realizado depois do seu carregamento em memória. A tendência atual é aceder aos dados em disco, num ambiente cloud. O trabalho realizado pretende validar este novo paradigma, com recurso ao sistema de dados HDF5 (Hierarchical Data Format) e ao ambiente remoto disponibilizado pela INCD (Infraestrutura Nacional de Computação Distribuída). Pelo facto de o HDF5 ser o sistema adotado pela comunidade Python para lidar com dados de grande dimensão, esta linguagem foi escolhida para implementação do LAID. A presente dissertação é mais um contributo para o aprofundamento das técnicas de Data Mining (extração de conhecimento de dados). Nomeadamente, aborda a seleção de atributos (feature selection) aplicada a conjunto de dados de grande dimensão, guardados no formato HDF5, com avaliação da inconsistência dos dados, através da aplicação do algoritmo LAID, codificado em Python, num ambiente cloud.The treatment of large datasets is an issue that is often addressed today and whose task is not simple, given the computational limitations that still exist. One possible approach is to perform a feature selection that allows a considerably reduction of data size without increasing inconsistency. “Rough Sets” is an approach that differs from other feature selection techniques by its ability to deal with inconsistent data. Another approach to data reduction is known as Logical Analysis of Data (LAD). Logical Analysis of Inconsistent Data (LAID) combines the advantages of these two approaches. With the increase of large volumes of data, its handling paradigm has been changing over. Previously, data processing was performed on a single computer, with in-memory data access. The current trend is to access data on disk, in a cloud environment. The work carried out intends to validate this new paradigm, using HDF5 data system (Hierarchical Data Format) and remote environment provided by INCD (National Distributed Computing Infrastructure). Because HDF5 is the system adopted by Python’s community to handle large datasets, this language was chosen for LAID algorithm implementation. The present document is one more contribution for deepening research of Data Mining techniques (data knowledge extraction). It addresses the feature selection applied to large datasets, stored in HDF5 format, with the evaluation of data inconsistency, through the application of LAID’s algorithm, encoded in Python, in a cloud environment

Repositório Aberto da Universidade Aberta

A biobjective feature selection algorithm for large omics datasets

Author: Almuallim
Boros
Cavique
Cavique
Chandrashekar
Chung
Chvatal
Collette
Crama
Joncour
Kira
Liu
Pawlak
Pawlak
Peters
Polkowski
Smet
Stephens
Talbi
The 1000 Genomes Project Consortium
Yao
Publication venue: 'Wiley'
Publication date
Field of study

Crossref