5 research outputs found

    A Meshsize Boosting Algorithm In Kernel Density Estimation

    Get PDF
    This paper proposes a new algorithm for boosting in kernel density estimation (KDE). This algorithm enjoys the property of a bias reduction technique like other existing boosting algorithms and also enjoys the property of less function evaluations when compared with other boosting schemes. Numerical examples are used and compared with existing algorithm and the findings are comparatively interesting. Keywords: Boosting, kernel density estimation, bias reduction, boosting algorithm. Journal of Science and Technology (Ghana) Vol. 28 (2) 2008: pp. 69-7

    A Precise High-Dimensional Asymptotic Theory for Boosting and Minimum-1\ell_1-Norm Interpolated Classifiers

    Full text link
    This paper establishes a precise high-dimensional asymptotic theory for boosting on separable data, taking statistical and computational perspectives. We consider a high-dimensional setting where the number of features (weak learners) pp scales with the sample size nn, in an overparametrized regime. Under a class of statistical models, we provide an exact analysis of the generalization error of boosting when the algorithm interpolates the training data and maximizes the empirical 1\ell_1-margin. Further, we explicitly pin down the relation between the boosting test error and the optimal Bayes error, as well as the proportion of active features at interpolation (with zero initialization). In turn, these precise characterizations answer certain questions raised in \cite{breiman1999prediction, schapire1998boosting} surrounding boosting, under assumed data generating processes. At the heart of our theory lies an in-depth study of the maximum-1\ell_1-margin, which can be accurately described by a new system of non-linear equations; to analyze this margin, we rely on Gaussian comparison techniques and develop a novel uniform deviation argument. Our statistical and computational arguments can handle (1) any finite-rank spiked covariance model for the feature distribution and (2) variants of boosting corresponding to general q\ell_q-geometry, q[1,2]q \in [1, 2]. As a final component, via the Lindeberg principle, we establish a universality result showcasing that the scaled 1\ell_1-margin (asymptotically) remains the same, whether the covariates used for boosting arise from a non-linear random feature model or an appropriately linearized model with matching moments.Comment: 68 pages, 4 figure

    Some Theoretical Aspects of Boosting in the Presence of Noisy Data

    No full text
    This is a survey of some theoretical results on boosting obtained from an analogous treatment of some regression and classification boosting algorithms. Some related papers include [J99] and [J00a,b,c,d], which is a set of (mutually overlapping) papers concerning the assumption of weak hypotheses, behavior of generalization error in the large time limit and during the process of boosting, comparison to the optimal Bayes error in noisy situations, overfitting, and regularization. 1

    Combinación de clasificadores mediante el método boosting. Una aplicación a la predicción del fracaso empresarial en España

    Get PDF
    El trabajo que se presenta está estructurado en tres partes. La primera parte comprende del capítulo i al capítulo IV. Tras exponer algunos aspectos generales de los problemas de clasificación, se analizan algunos de los métodos de clasificación individuales más utilizados en la actualidad, destacando sus principales ventajas e inconvenientes. En la segunda parte (capítulos V al VII) se analizan algunos aspectos relacionados con el comportamiento y las propiedades de los clasificadores individuales. En concreto, se plantean las dificultades que pueden surgir debido al uso de los clasificadores individuales, como son la precisión y la estabilidad de los mismos. A continuación, en el capitulo vi, se aborda el estudio de la combinación de clasificadores prestando especial atención al método boosting. Además, se recoge una taxonomía de los métodos de combinación y se introducen también el método bagging y el bosque aleatorio. Por último, se estudian los primeros algoritmos que han dado lugar al desarrollo posterior del método boosting. También se exponen algunas de las modificaciones que se han propuesto al algoritmo adaboost, incluyendo las que sirven para afrontar la existencia de más de dos clases y, para acabar, se analiza cual debe ser el tamaño adecuado de los arboles utilizados en la combinación. En la tercera parte (capítulos 8-10) se proporciona una visión general de la predicción del fallo empresarial, sus antecedentes y estado actual. Además, se elaborara un listado con los ratios financieros que han resultado de mayor utilidad para el pronóstico del fracaso. También se lleva a cabo una descripción de la evolución que han seguido en España las empresas fracasadas. El capitulo IX se centra en la aplicación práctica. Después de recoger brevemente algunas consideraciones teóricas sobre el tratamiento de la información, se realiza un análisis exploratorio de los datos. Además de catorce ratios financieros, se utilizan otras tres variables menos habituales que intentan recoger el tamaño de la empresa, la actividad a la que se dedica y la forma jurídica que presenta. Se coteja el método boosting con los arboles de clasificación, tanto para el caso dicotómico, como cuando se distingue entre tres clases. A continuación se realiza una comparación, algo menos detallada, con otros cinco métodos de clasificación. Posteriormente, se examina la capacidad de los modelos establecidos anteriormente para predecir el fracaso empresarial cuando aumenta la distancia temporal al periodo en que se hace efectivo el fallo. Finalmente, se concluye que boosting mejora los resultados de los arboles de clasificación individuales. Entre las principales aportaciones de este trabajo destacan el uso de una técnica novedosa, el método boosting y la consideración de un concepto de fracaso empresarial más amplio del habitual
    corecore