3 research outputs found

    An Instance Selection Algorithm for Big Data in High imbalanced datasets based on LSH

    Full text link
    Training of Machine Learning (ML) models in real contexts often deals with big data sets and high-class imbalance samples where the class of interest is unrepresented (minority class). Practical solutions using classical ML models address the problem of large data sets using parallel/distributed implementations of training algorithms, approximate model-based solutions, or applying instance selection (IS) algorithms to eliminate redundant information. However, the combined problem of big and high imbalanced datasets has been less addressed. This work proposes three new methods for IS to be able to deal with large and imbalanced data sets. The proposed methods use Locality Sensitive Hashing (LSH) as a base clustering technique, and then three different sampling methods are applied on top of the clusters (or buckets) generated by LSH. The algorithms were developed in the Apache Spark framework, guaranteeing their scalability. The experiments carried out in three different datasets suggest that the proposed IS methods can improve the performance of a base ML model between 5% and 19% in terms of the geometric mean.Comment: 23 pages, 15 figure

    IV. Biodiversidad del río Bita, Vichada, Colombia

    No full text
    Dentro del proyecto “Desarrollo de un marco conceptual, metodológico y operativo para el establecimiento de una figura innovadora de Río Protegido en el río Bita/Departamento del Vichada”, suscrito entre la Gobernación del Vichada y el Instituto Alexander von Humboldt (IAvH), se llevó a cabo un estudio entre la Fundación Omacha y el IAvH que incluyó una evaluación biológica rápida realizada en aguas bajas y altas, en cuatro ventanas de trabajo: Anakay, Mi Familia, La Florida y Rampa Vieja, ubicadas en la parte media y alta del Bita, con representatividad en los municipios de La Primavera y Puerto Carreño. En conjunto, las cuatro ventanas de trabajo cubrieron un tramo de aproximadamente 200 km lineales del río. La selección de estas áreas tuvo en cuenta varios criterios: 1-.Que incluyera una muestra representativa de ecosistemas terrestres y acuáticos. 2-. Que fueran representativos de la cuenca alta y media del río. 3-. Accesibilidad. 4-. Parches anchos de bosque de galería. El equipo de profesionales e investigadores locales incluyó 51 personas, que evaluaron la flora, esponjas, macroinvertebrados acuáticos, escarabajos coprófagos, crustáceos decápodos, peces, herpetofauna, aves y mamíferos. El trabajo de campo se realizó en dos períodos climáticos contrastantes: el primero entre el 13 y el 24 de febrero de 2016 (época seca), y el segundo del 26 de mayo al 5 de junio del 2016 (época de lluvias). En ambos muestreos se coordinó la logística previamente, y el ingreso de los investigadores se hizo por vía terrestre. Las embarcaciones y la instalación de los campamentos se hicieron con un equipo de avanzada.Bogotá, D. C

    Asymmetric architecture is non-random and repeatable in a bird’s nests

    No full text
    corecore