5 research outputs found

    How to Fine-tune the Model: Unified Model Shift and Model Bias Policy Optimization

    Full text link
    Designing and deriving effective model-based reinforcement learning (MBRL) algorithms with a performance improvement guarantee is challenging, mainly attributed to the high coupling between model learning and policy optimization. Many prior methods that rely on return discrepancy to guide model learning ignore the impacts of model shift, which can lead to performance deterioration due to excessive model updates. Other methods use performance difference bound to explicitly consider model shift. However, these methods rely on a fixed threshold to constrain model shift, resulting in a heavy dependence on the threshold and a lack of adaptability during the training process. In this paper, we theoretically derive an optimization objective that can unify model shift and model bias and then formulate a fine-tuning process. This process adaptively adjusts the model updates to get a performance improvement guarantee while avoiding model overfitting. Based on these, we develop a straightforward algorithm USB-PO (Unified model Shift and model Bias Policy Optimization). Empirical results show that USB-PO achieves state-of-the-art performance on several challenging benchmark tasks

    Business plan for the creation of an adventure cycling agency in the Metropolitan District of Quito

    No full text
    En la actualidad se destacan dos procesos, comparativamente nuevos y coherentes entre sí, son en la coyuntura elementos precisos del desarrollo de las poblaciones en Ecuador, América Latina y el mundo: El primero es el de la urbanización acelerada de la sociedad humana y el segundo es el creciente cambio climático global. Los procesos mencionados poseen una ocurrencia en términos globales, pero deben revolverse en los sitios locales. Las magnas resoluciones que se acogen en las Conferencias Internacionales se deben transportar a los ámbitos de cada país y de cada ciudad y más aún si se trata de una ciudad capital, transfigurar en políticas nacionales y luego definirse en políticas y acciones en cada argumento local. Les pertenece entonces a los gobiernos locales adjudicarse el rol de liderazgo para implantar, en sus territorios y en sus comunidades, los cambios y creaciones necesarias para que los efectos y resultados de los dos procesos no perturben de modo sustantivo a sus atribuciones. Quito, médula de la actividad productora y comercial de la región norte – centro del país, integra las cinco ciudades ecuatorianas que han poseído las tasas más altas de incremento demográfico en el plazo de la última década. Esas tasas, que se adosan al 4% anual, hacen predecir que la ciudad duplicará su población en el lapso de los próximos 20 o 25 años. No obstante, existe una similitud entre el procedimiento global de urbanización y el cambio del proceder climático en el mundo, las realidades de ese cambio apenas se han hecho perceptibles en el período más nuevo, de modo que la agregación de movilización sustentable (Bicicleta) como materia de intranquilidad no tiene mayores registros. No obstante, esas certezas del cambio climático son cada día más terminantes y en la popularidad existe una afirmación global de que es uno de los mayores retos que afronta la humanidad. Dichas convicciones esbozan el requerimiento de encarar este reto de forma emergente, instantánea, integral y completa. Por esta razón, se plantea el actual proyecto que tiene como objetivo solucionar varios problemas, entre los cuales se encuentra, la movilización sustentable y la reducción de la contaminación ambiental como fuente de combustibles fósiles. Es así, que este proyecto solventará no sólo las dos aristas mencionadas, sino que, además, va a generar fuentes de empleo y opciones que aportarán a una movilidad más eficiente aportando beneficios en la salud de los usuarios. Los análisis previos y la prefactibilidad nos muestran un panorama bastante atractivo en donde la demanda es 10 a 1 contra la oferta de este proyecto

    Influence of Volume-to-Surface Area Ratio on the Creep Behavior of Steel Fiber Ceramsite Concrete Beams

    No full text
    To explore the influence of the volume-to-surface area ratio (V/S) on the creep of ceramsite concrete beams, the creep performance of ceramsite concrete beams with different V/S was studied through a long-term deformation observation test, theoretical derivation analysis and finite element modeling. First, by observing the creep deflection of ceramsite concrete beams with five different V/Ss for 180 days, the relationship between creep deflection and loading time as well as the influence of V/S on creep deflection were obtained. Then, referring to the ACI209 and ACI435 creep coefficient calculation formula, the creep theory of ceramsite concrete beams involving V/S was established. Finally, the numerical model was built according to the test parameters. The results showed that the growth rate of the creep of ceramsite concrete beams increased rapidly in the early stage, but gradually slowed down with the passage of time and tended to be stable after 120 days of loading. The V/S had a significant impact on the creep of ceramsite concrete beams. In the first 7 days, the creep growth rate of each beam was approximately the same. Thereafter, the higher the V/S was, the lower the creep became. After 28 days, the creep of ceramsite concrete beams with varied V/Ss showed sharp differences. After the V/S exceeded 30, the increasing V/S could effectively reduce the creep value and the creep growth rate under a long-term load. The calculated results were in good agreement with the measured values, which fully reflected its creep variation. The finite element simulation further verified the influence of V/S on the creep of ceramsite concrete beams and the reliability of the creep calculation formula
    corecore