3 research outputs found
An Instance Selection Algorithm for Big Data in High imbalanced datasets based on LSH
Training of Machine Learning (ML) models in real contexts often deals with
big data sets and high-class imbalance samples where the class of interest is
unrepresented (minority class). Practical solutions using classical ML models
address the problem of large data sets using parallel/distributed
implementations of training algorithms, approximate model-based solutions, or
applying instance selection (IS) algorithms to eliminate redundant information.
However, the combined problem of big and high imbalanced datasets has been less
addressed. This work proposes three new methods for IS to be able to deal with
large and imbalanced data sets. The proposed methods use Locality Sensitive
Hashing (LSH) as a base clustering technique, and then three different sampling
methods are applied on top of the clusters (or buckets) generated by LSH. The
algorithms were developed in the Apache Spark framework, guaranteeing their
scalability. The experiments carried out in three different datasets suggest
that the proposed IS methods can improve the performance of a base ML model
between 5% and 19% in terms of the geometric mean.Comment: 23 pages, 15 figure
IV. Biodiversidad del río Bita, Vichada, Colombia
Dentro del proyecto “Desarrollo de un marco conceptual, metodológico y operativo para el establecimiento de una figura innovadora de Río Protegido en el río Bita/Departamento del Vichada”, suscrito entre la Gobernación del Vichada y el Instituto Alexander von Humboldt (IAvH), se llevó a cabo un estudio entre la Fundación Omacha y el IAvH que incluyó una evaluación biológica rápida realizada en aguas bajas y altas, en cuatro ventanas de trabajo: Anakay, Mi Familia, La Florida y Rampa Vieja, ubicadas en la parte media y alta del Bita, con representatividad en los municipios de La Primavera y Puerto Carreño. En conjunto, las cuatro ventanas de trabajo cubrieron un tramo de aproximadamente 200 km lineales del río. La selección de estas áreas tuvo en cuenta varios criterios:
1-.Que incluyera una muestra representativa de ecosistemas terrestres y acuáticos.
2-. Que fueran representativos de la cuenca alta y media del río.
3-. Accesibilidad.
4-. Parches anchos de bosque de galería.
El equipo de profesionales e investigadores locales incluyó 51 personas, que evaluaron la flora, esponjas, macroinvertebrados acuáticos, escarabajos coprófagos,
crustáceos decápodos, peces, herpetofauna, aves y mamíferos. El trabajo de campo se realizó en dos períodos climáticos contrastantes: el primero entre el 13 y el 24 de
febrero de 2016 (época seca), y el segundo del 26 de mayo al 5 de junio del 2016 (época de lluvias). En ambos muestreos se coordinó la logística previamente, y el ingreso de los investigadores se hizo por vía terrestre. Las embarcaciones y la instalación de los campamentos se hicieron con un equipo de avanzada.Bogotá, D. C