Search CORE

11 research outputs found

Framework for data quality in knowledge discovery tasks

Author: Corrales Muñoz David Camilo
Publication venue
Publication date: 01/01/2018
Field of study

Actualmente la explosión de datos es tendencia en el universo digital debido a los avances en las tecnologías de la información. En este sentido, el descubrimiento de conocimiento y la minería de datos han ganado mayor importancia debido a la gran cantidad de datos disponibles. Para un exitoso proceso de descubrimiento de conocimiento, es necesario preparar los datos. Expertos afirman que la fase de preprocesamiento de datos toma entre un 50% a 70% del tiempo de un proceso de descubrimiento de conocimiento. Herramientas software basadas en populares metodologías para el descubrimiento de conocimiento ofrecen algoritmos para el preprocesamiento de los datos. Según el cuadrante mágico de Gartner de 2018 para ciencia de datos y plataformas de aprendizaje automático, KNIME, RapidMiner, SAS, Alteryx, y H20.ai son las mejores herramientas para el desucrimiento del conocimiento. Estas herramientas proporcionan diversas técnicas que facilitan la evaluación del conjunto de datos, sin embargo carecen de un proceso orientado al usuario que permita abordar los problemas en la calidad de datos. Adem´as, la selección de las técnicas adecuadas para la limpieza de datos es un problema para usuarios inexpertos, ya que estos no tienen claro cuales son los métodos más confiables. De esta forma, la presente tesis doctoral se enfoca en abordar los problemas antes mencionados mediante: (i) Un marco conceptual que ofrezca un proceso guiado para abordar los problemas de calidad en los datos en tareas de descubrimiento de conocimiento, (ii) un sistema de razonamiento basado en casos que recomiende los algoritmos adecuados para la limpieza de datos y (iii) una ontología que representa el conocimiento de los problemas de calidad en los datos y los algoritmos de limpieza de datos. Adicionalmente, esta ontología contribuye en la representacion formal de los casos y en la fase de adaptación, del sistema de razonamiento basado en casos.The creation and consumption of data continue to grow by leaps and bounds. Due to advances in Information and Communication Technologies (ICT), today the data explosion in the digital universe is a new trend. The Knowledge Discovery in Databases (KDD) gain importance due the abundance of data. For a successful process of knowledge discovery is necessary to make a data treatment. The experts affirm that preprocessing phase take the 50% to 70% of the total time of knowledge discovery process. Software tools based on Knowledge Discovery Methodologies offers algorithms for data preprocessing. According to Gartner 2018 Magic Quadrant for Data Science and Machine Learning Platforms, KNIME, RapidMiner, SAS, Alteryx and H20.ai are the leader tools for knowledge discovery. These software tools provide different techniques and they facilitate the evaluation of data analysis, however, these software tools lack any kind of guidance as to which techniques can or should be used in which contexts. Consequently, the use of suitable data cleaning techniques is a headache for inexpert users. They have no idea which methods can be confidently used and often resort to trial and error. This thesis presents three contributions to address the mentioned problems: (i) A conceptual framework to provide the user a guidance to address data quality issues in knowledge discovery tasks, (ii) a Case-based reasoning system to recommend the suitable algorithms for data cleaning, and (iii) an Ontology that represent the knowledge in data quality issues and data cleaning methods. Also, this ontology supports the case-based reasoning system for case representation and reuse phase.Programa Oficial de Doctorado en Ciencia y Tecnología InformáticaPresidente: Fernando Fernández Rebollo.- Secretario: Gustavo Adolfo Ramírez.- Vocal: Juan Pedro Caraça-Valente Hernánde

Universidad Carlos III de Madrid e-Archivo

Simulating urban densities in the face of local flood risks

Author: Broitman D.
Koomen E.
Rijken B.C.
Publication venue
Publication date: 21/03/2014
Field of study

Estrategia de predicción en procesos biológicos del campo agrícola con datos limitados: casos de aplicación en café y banano.

Author: Calvo-Valverde Luis Alexánder
Publication venue: 'Instituto Tecnologico de Costa Rica'
Publication date: 01/01/2020
Field of study

Proyecto de Graduación (Doctorado en Ciencias Naturales para el Desarrollo) Instituto Tecnológico de Costa Rica, Área Académica del Doctorado en Ciencias Naturales para el Desarrollo; Universidad Nacional; Universidad Estatal a Distancia, 2020.En la época actual se vive una creciente demanda por contar con alimentos en mayores cantidades y a menor costo para la población. Pero a la vez, las áreas destinadas a la producción de alimentos agrícolas, en lugar de aumentar, han tendido a decrecer; esto fruto de la urbanización, los requerimientos de la industria y la extracción de recursos naturales. En este contexto, los organismos internacionales han invitado a proveer apoyo tecnológico para responder a esta problemática. Para aportar en la solución y en el marco del Doctorado en Ciencias Naturales para el Desarrollo (DOCINADE), es que se desarrolla la presente tesis doctoral. La idea central es aplicar técnicas del aprendizaje automático al mundo agrícola con el fin de ayudar a los agricultores en la toma de decisiones, aportándoles predicciones basadas en datos históricos de sus procesos biológicos y de variables climatológicas. Concretamente, este trabajo propone una estrategia para la aplicación del aprendizaje automático en la predicción de procesos biológicos en el campo agrícola, mostrando casos de aplicación en los cultivos del banano y del café. Acorde con los fines del DOCINADE, si bien la estrategia tiene un uso abierto para la comunidad mundial, su construcción estuvo orientada a pequeños y medianos productores, quienes normalmente no cuentan con conjuntos de datos provenientes de sensores de alta calidad y costo, y más bien se trata de apoyar el trabajo colaborativo entre los productores. De la estrategia se resaltan los siguientes aportes: propone una estrategia esquemática que favorece la repetibilidad del proceso, no requiere predecir variables meteorológicas, propone un método de aumento de datos, no requiere contar con imágenes para iniciar con la experimentación, propone una manera de trabajar con el espacio paramétrico de manera heurística, permite una optimización multiobjetivo, aprovecha el aprendizaje por transferencia y contribuye en la selección de atributos.Nowadays humanity is experiencing an increasing demand for food for a growing population at low cost. At the same time the agricultural areas are decreasing. That is the result of urbanization, industry requirements and the extraction of natural resources. In this situation, international organizations have invited to provide technological support to respond to this problem. To overcome this worldwide problem and within the framework of the Doctoral Program in Natural Sciences for Development (DOCINADE), the present work contributes to the solution of this problem. The central idea is to apply machine learning techniques to the agricultural world in order to support farmers in their decision making, providing them with predictions based on historical data of their biological processes and climatic variables. Specifically, this work proposes a strategy for the application of machine learning in the prediction of biological processes in the agricultural field, taking banana and coffee crops as use cases. According to the DOCINADE goals, although the strategy has an open use for the world community, its construction was aimed at small and medium producers, who usually do not have data sets from sensors of high quality and cost. It rather supports collaborative work among producers. The following contributions are highlighted from the strategy: a schematic strategy that favors the repeatability of the process, it does not require to predict meteorological variables nor requires images to start the experimentation. It proposes a method for data augmentation and a way of working with the parametric space in a heuristic way. It also integrates multi-objective optimization, takes advantage of transfer learning, and contributes to the selection of attributes

Modelling for Environment's Sake:Proceedings of the 5th Biennial Conference of the International Environmental Modelling and Software Society, iEMSs 2010

Author
Publication venue
Publication date: 01/12/2010
Field of study

University of Twente Research Information

Influence of non-hydrophobic factors on the sorption of ionizable xenobiotics to solids

Author: Franco Antonio
Lützhøft Hans-Christian Holten
Trapp Stefan
Publication venue: SETAC Europe
Publication date: 01/01/2011
Field of study

Integrated testing strategies (ITS) for bioaccumulation: hierarchical scheme of chemistrydriven modules and definition of applicability domains

Author: Benfenati E.
Bleeker E.
Dimitrov S.
Franco Antonio
Giralt F.
Kühne R.
Lombardo A.
Mclachlan M.
Nendza M.
Rallo R.
Roncalioni A.
Scheringer M.
Segner H.
Strempel S.
Trapp Stefan
Vermeire T.
Publication venue
Publication date: 01/01/2011
Field of study

Gestion de la biodiversité dans les écosystèmes agricoles

Author: Bioversity International
Cooper H.D.
Jarvis Devra I.
Padoch C.
Publication venue
Publication date: 15/10/2019
Field of study

La biodiversité dans les écosystèmes agricoles nous fournit la nourriture ainsi que les moyens de la produire. Les différentes variétés de plantes et d’animaux qui nous servent de nourriture sont des éléments indéniables de la biodiversité agricole. Moins visibles, mais tout aussi importants, sont les myriades d'organismes du sol, les pollinisateurs, et les ennemis naturels tels que les épidémies et les maladies, essentiellement utiles à la régulation qui renforce la production agricole. Ce livre examine ces différents aspects de la biodiversité agricole. Un certain nombre de chapitres examinent les ressourcesgénétiques des cultures et les ressources génétiques animales. Les autres chapitres portent sur la biodiversité aquatique, la diversité des pollinisateurs, et la biodiversité des sols. Trois chapitres traitent les différents aspects de la relation entre la diversité et la gestion des épidémies et des maladies. Les chapitres 12 et 13 concernent les agriculteurs et leur gestion de la diversité dans un contexte plus large en matière de complexité spatiale et de changements environnementaux et économiques. Le chapitre 14 se penche sur la contribution de la diversité au régime alimentaire, à la nutrition et à la santé humaine. Les chapitres 15 à 17 analysent la valeur des ressources génétiques et des services écologiques apportée par la biodi- versité dans les écosystèmes agricoles