7 research outputs found

    The Effect of Distinct Geometric Semantic Crossover Operators in Regression Problems

    Get PDF
    This paper investigates the impact of geometric semantic crossover operators in a wide range of symbolic regression problems. First, it analyses the impact of using Manhattan and Euclidean distance geometric semantic crossovers in the learning process. Then, it proposes two strategies to numerically optimize the crossover mask based on mathematical properties of these operators, instead of simply generating them randomly. An experimental analysis comparing geometric semantic crossovers using Euclidean and Manhattan distances and the proposed strategies is performed in a test bed of twenty datasets. The results show that the use of different distance functions in the semantic geometric crossover has little impact on the test error, and that our optimized crossover masks yield slightly better results. For SGP practitioners, we suggest the use of the semantic crossover based on the Euclidean distance, as it achieved similar results to those obtained by more complex operators

    Enhancement of Epidemiological Models for Dengue Fever Based on Twitter Data

    Full text link
    Epidemiological early warning systems for dengue fever rely on up-to-date epidemiological data to forecast future incidence. However, epidemiological data typically requires time to be available, due to the application of time-consuming laboratorial tests. This implies that epidemiological models need to issue predictions with larger antecedence, making their task even more difficult. On the other hand, online platforms, such as Twitter or Google, allow us to obtain samples of users' interaction in near real-time and can be used as sensors to monitor current incidence. In this work, we propose a framework to exploit online data sources to mitigate the lack of up-to-date epidemiological data by obtaining estimates of current incidence, which are then explored by traditional epidemiological models. We show that the proposed framework obtains more accurate predictions than alternative approaches, with statistically better results for delays greater or equal to 4 weeks.Comment: ACM Digital Health 201

    An ant colony-based semi-supervised approach for learning classification rules

    Get PDF
    Semi-supervised learning methods create models from a few labeled instances and a great number of unlabeled instances. They appear as a good option in scenarios where there is a lot of unlabeled data and the process of labeling instances is expensive, such as those where most Web applications stand. This paper proposes a semi-supervised self-training algorithm called Ant-Labeler. Self-training algorithms take advantage of supervised learning algorithms to iteratively learn a model from the labeled instances and then use this model to classify unlabeled instances. The instances that receive labels with high confidence are moved from the unlabeled to the labeled set, and this process is repeated until a stopping criteria is met, such as labeling all unlabeled instances. Ant-Labeler uses an ACO algorithm as the supervised learning method in the self-training procedure to generate interpretable rule-based models—used as an ensemble to ensure accurate predictions. The pheromone matrix is reused across different executions of the ACO algorithm to avoid rebuilding the models from scratch every time the labeled set is updated. Results showed that the proposed algorithm obtains better predictive accuracy than three state-of-the-art algorithms in roughly half of the datasets on which it was tested, and the smaller the number of labeled instances, the better the Ant-Labeler performance

    A Spatio-temporal Gaussian Process-based Model For Forecasting Dengue Fever Incidence

    No full text
    Exportado OPUSMade available in DSpace on 2019-08-11T20:27:28Z (GMT). No. of bitstreams: 1 julioalbinati.pdf: 5340787 bytes, checksum: 7ac86cc07fc6faf9acc5fe14d587f7b6 (MD5) Previous issue date: 16Dengue é uma doença presente em todas zonas tropicais do mundo, afetando quase 400 milhões de pessoas ao redor do mundo todos os anos. Como não há tratamento ou vacinas disponíveis para o público geral, a dengue só pode ser contida através do controle populacional do mosquito transmissor do vírus e identificando rapidamente novos focos da doença através de modelos preditivos capazes de estimar, de forma acurada, o número de casos de dengue em uma determinada área e período de tempo. O Brasil é responsável pelo maior número de casos confirmados de dengue nas Américas, atingindo mais de um quarto do número total de casos no continente. Motivado por esse cenário, o principal objetivo desse trabalho é desenvolver um modelo para predição de número de casos de dengue em cidades brasileiras. Para tanto, exploramos o framework não-paramétrico e bayesiano de inferência utilizando processos gaussianos, um método que reside na interseção entre modelos interpretáveis e estado-da-arte.O modelo proposto é equipado com uma função de covariância espaço-temporal. O componente temporal explora dependências locais e sazonalidade, sendo expresso através de uma função quasi-periódica. Já o componente espacial é definido por meio de uma matriz de covariância entre cidades, que é aprendida com base nos dados apenas, sem nenhuma intervenção humana. Além disso, propusemos uma metodologia para extender o modelo proposto de forma a utilizar dados de fontes online, como dados do Twitter, no cenário mais realista onde os dados epidemiológicos são fornecidos com atraso. Assim, os dados online atuam como proxy para os dados epidemiológicos.Conduzimos uma análise experimental extensiva para analizar a acurácia do modelo proposto, bem como a sua extensão para o cenário descrito acima. Verificamos que as propostas obtiveram predições mais acuradas quando comparadas a formulações alternativas, incluindo um modelo previamente proposto para previsão de incidência de dengue no Brasil. Nossos resultados foram particularmente interessantes no cenário onde os valores de incidência são categorizados em níveis de incidência - baixa, média ou alta -, onde o modelo obteve uma área sob a curva ROC mediana superior a 0.90,comparada à area de 0.74 obtida pela melhor formulação alternativa
    corecore