85 research outputs found

    A Hybrid Three Layer Architecture for Fire Agent Management in Rescue Simulation Environment

    Full text link
    This paper presents a new architecture called FAIS for imple- menting intelligent agents cooperating in a special Multi Agent environ- ment, namely the RoboCup Rescue Simulation System. This is a layered architecture which is customized for solving fire extinguishing problem. Structural decision making algorithms are combined with heuristic ones in this model, so it's a hybrid architecture

    Thermodynamic investigation of oxidation of NiAl-(Cr, Mo) alloys used for manufacturing metal matrix composites by directional solidification

    Get PDF
    In den letzten Jahrzehnten waren intermetallische Werkstoffe auf NiAl-Basis aufgrund von hochtemperaturtechnischen Anwendungen wie Gasturbinen von Interesse. Jedoch zeigt reines NiAl mit B2-Struktur eine schlechte Duktilität und Bruchzähigkeit bei Raumtemperatur, sowie unzureichende Kriechbeständigkeit und Festigkeit bei hohen Temperaturen. Dieses Verhalten kann durch eine gerichtete Verfestigung durch Metallmatrix-Verbundwerkstoffe der NiAl-Phase, verstärkt mit in situ gebildeten Chrom- und Molybdänfasern, unterdrückt werden. Dies ist der Grund, weshalb gerichtet erstarrte Metallmatrix-Kompositwerkstoffe auf Basis von NiAl-Legierungen mit eingebetteten Chrom- oder Molybdänfasern, welche im Vergleich zu reinem NiAl verbesserte mechanische Eigenschaften aufweisen, im Fokus der aktuellen Forschung liegen. Um Bauteile mithilfe von Integrated Computational Materials Engineering (ICME) zu entwickeln, muss die Materialthermodynamik des quaternären Ni-Al-Cr-Mo-Systems inklusive der relevanten intermetallischen Phasen sowie der heterogenen Phasenreaktionen modelliert werden. Darüber hinaus wird das Oxidationsverhalten der gerichtet erstarrten NiAl-Cr und NiAl-Mo untersucht, da diese Legierungen in ständigem Kontakt mit Verbrennungsgasen mit hohem Sauerstoffgehalt bei hohen Temperaturen stehen, sodass Oxidationsprozesse unvermeidlich sind. In der vorliegenden Arbeit wird die CALPHAD-Methode (computer coupling of phase diagrams and thermochemistry) verwendet, um das Ni-Al-Cr-Mo-O System mit dem Fokus auf die NiAl-(Cr, Mo)-Komposite zu modellieren, als Ergebnis wird eine thermodynamische Datenbank entwickelt. Die entsprechenden zehn binären und zehn ternären Subsysteme wurden berücksichtigt und für berechnete Mehrkomponenten-Erweiterungen kombiniert. Die meisten der metallischen Subsysteme wurden bereits untersucht und die thermodynamischen Beschreibungen aus der Literatur werden akzeptiert. Allerdings gibt es Mängel und fehlende Daten bezüglich der oxidischen Systeme in den verfügbaren Assessments aus der Literatur. Daher werden in der vorliegenden Arbeit die relevanten Oxid-Systeme untersucht und, wenn nötig, die thermodynamische Beschreibung aus der Literatur angepasst. In der vorliegenden Arbeit werden verschiedene Oxide, welche sich während der Oxidation von NiAl-Cr und NiAl-Mo bilden können, in der Datenbank berücksichtigt, wie zum Beispiel α{\alpha}-Al2_2O3_3, Cr2_2O3_3, NiO, sowie die Spinellphasen. Die Lösungsphasen werden mithilfe des Untergittermodells im Compound Energy Formalism beschrieben, wohingegen beide metallischen Flüssigphasen sowie die Oxidschmelzen mit dem ionischen Zwei-Untergitter-Modell (ionic two-sublattice model) beschrieben werden. Im System auftretende Spinelle wie Cr3_3O4_4, NiCr2_2O4_4 und NiAl2_2O4_4 werden mithilfe von vier Untergittern beschrieben. Zusätzlich werden manche anwendungsrelevanten metastabilen Oxide, welche sich bei niedrigeren Temperaturen oder in der Anfangsphase des Oxidationsprozesses bilden, wie zum Beispiel γ{\gamma}-Al2_2O3_3 (mit Spinellstruktur), δ{\delta}-Al2_2O3_3 und κ{\kappa}-Al2_2O3_3, berücksichtigt. Die isotherme Oxidation einer NiAl-Legierung mit einem darin eingeschlossenen Cr-Stab wurde in einer Thermowaage unter Argon-Atmosphäre mit 13 Vol.% O2_2 bei Temperaturen von 800 °C, 1200 °C und 1300 °C experimentell untersucht, wobei die Bildung der Mischoxide in der Grenzfläche von NiAl und Cr mithilfe von Röntgendiffraktometrie (XRD), Rasterelektronenmikroskopie (REM) mit energiedispersiver Röntgenspektroskopie (EDX), Elektronenrückstreubeugung (EBSD), sowie Electron probe micro-analyzer (EPMA) untersucht wurden. Bei hohen Temperaturen führte die Oxidation von NiAl-Cr zur Bildung eines kontinuierlichen Mischkristalls von (Al,Cr)2_2O3_3 an der Grenzfläche von NiAl und Cr, in dem sich die Zusammensetzung von nahezu reinem Al2_2O3_3 in der Nähe der NiAl-Matrix bis zu fast reinem Cr2_2O3_3 an der Oberfläche veränderte, während reines Cr2_2O3_3 sowie Al2_2O3_3 in der Cr-Region beziehungsweise der NiAl-Region entstand. Die gebildete Oxidschicht war bis zu einem gewissen Maße protektiv. Das Oxidationsverhalten des gerichtet erstarrten NiAl-34Cr wurde mit den gleichen Methoden wie die einfach NiAl-Cr Legierung untersucht, wobei eine ausgeprägtere Spallation der Oxid-Schuppen während des Oxidationsprozesses im Vergleich zu der NiAl-Cr Legierung festgestellt werden konnte. Die Spallation wurde hauptsächlich durch die Cr-reichen Regionen hervorgerufen, welche sich zwischen den Oxid-Schuppen und der Substratoberfläche gebildet haben. Eine ähnliche Prozedur wurde ebenfalls an NiAl mit einem eingebetteten Mo-Stab durchgeführt, wobei eine rapide Gewichtsabnahme der Probe während der Oxidation auch schon bei relativ niedrigen Temperaturen gemessen wurde. Dies wurde durch die Bildung von volatilen Mo-Oxiden hervorgerufen. Die meisten der entstandenen Mo-Oxide verdampften, wodurch die weiterführende Untersuchung der Grenzfläche zwischen NiAl und Mo nicht möglich war. Die computerlesbare Datenbank, welche aus der CALPHAD-Modellierung resultiert, in welcher die analytischen Funktionen der freien Energie jeder Phase hinterlegt sind, wurde mithilfe der Thermo-Calc Software genutzt, um die Stabilitätsbereiche der gebildeten intermetallischen Phasen und Oxide der Legierungen zu bestimmen. Die Phasendiagramme wie isotherme Schnitte, Isoplethen und Potentialdiagramme, sowie Eigenschaftsdiagramme und thermodynamische Eigenschaften wurden berechnet und mit den experimentellen Ergebnissen verglichen, wobei die Ergebnisse eine gute Übereinstimmung zeigen

    Hidden Markov Model-based Methods In Condition Monitoring of Machinery Systems

    Get PDF
    Ph.DDOCTOR OF PHILOSOPH

    Practical reinforcement learning using representation learning and safe exploration for large scale Markov decision processes

    Get PDF
    Thesis (Ph. D.)--Massachusetts Institute of Technology, Dept. of Aeronautics and Astronautics, 2012.Cataloged from PDF version of thesis.Includes bibliographical references (p. 157-168).While creating intelligent agents who can solve stochastic sequential decision making problems through interacting with the environment is the promise of Reinforcement Learning (RL), scaling existing RL methods to realistic domains such as planning for multiple unmanned aerial vehicles (UAVs) has remained a challenge due to three main factors: 1) RL methods often require a plethora of data to find reasonable policies, 2) the agent has limited computation time between interactions, and 3) while exploration is necessary to avoid convergence to the local optima, in sensitive domains visiting all parts of the planning space may lead to catastrophic outcomes. To address the first two challenges, this thesis introduces incremental Feature Dependency Discovery (iFDD) as a representation expansion method with cheap per-timestep computational complexity that can be combined with any online, value-based reinforcement learning using binary features. In addition to convergence and computational complexity guarantees, when coupled with SARSA, iFDD achieves much faster learning (i.e., requires much less data samples) in planning domains including two multi-UAV mission planning scenarios with hundreds of millions of state-action pairs. In particular, in a UAV mission planning domain, iFDD performed more than 12 times better than the best competitor given the same number of samples. The third challenge is addressed through a constructive relationship between a planner and a learner in order to mitigate the learning risk while boosting the asymptotic performance and safety of an agent's behavior. The framework is an instance of the intelligent cooperative control architecture where a learner initially follows a safe policy generated by a planner. The learner incrementally improves this baseline policy through interaction, while avoiding behaviors believed to be risky. The new approach is demonstrated to be superior in two multi-UAV task assignment scenarios. For example in one case, the proposed method reduced the risk by 8%, while improving the performance of the planner up to 30%.by Alborz Geramifard.Ph.D

    Batch-iFDD for representation expansion in large MDPs

    Get PDF
    Matching pursuit (MP) methods are a promising class of feature construction algorithms for value function approximation. Yet existing MP methods require creating a pool of potential features, mandating expert knowledge or enumeration of a large feature pool, both of which hinder scalability. This paper introduces batch incremental feature dependency discovery (Batch-iFDD) as an MP method that inherits a provable convergence property. Additionally, Batch-iFDD does not require a large pool of features, leading to lower computational complexity. Empirical policy evaluation results across three domains with up to one million states highlight the scalability of Batch-iFDD over the previous state of the art MP algorithm.United States. Office of Naval Research (Grant N00014-07-1-0749)United States. Office of Naval Research (Grant N00014-11-1-0688

    Dyna-style planning with linear function approximation and prioritized sweeping

    Get PDF
    We consider the problem of efficiently learning optimal control policies and value functions over large state spaces in an online setting in which estimates must be available after each interaction with the world. This paper develops an explicitly model-based approach extending the Dyna architecture to linear function approximation. Dyna-style planning proceeds by generating imaginary experience from the world model and then applying model-free reinforcement learning algorithms to the imagined state transitions. Our main results are to prove that linear Dyna-style planning converges to a unique solution independent of the generating distribution, under natural conditions. In the policy evaluation setting, we prove that the limit point is the least-squares (LSTD) solution. An implication of our results is that prioritized-sweeping can be soundly extended to the linear approximation case, backing up to preceding features rather than to preceding states. We introduce two versions of prioritized sweeping with linear Dyna and briefly illustrate their performance empirically on the Mountain Car and Boyan Chain problems

    Oxidation behaviour of NiAl intermetallics with embedded Cr and Mo

    Get PDF
    The isothermal oxidation of directionally solidified NiAl-34Cr and NiAl alloys with embedded Cr bar and Mo wire were studied in a thermobalance at 800 °C, 1200 °C and 1300 °C for 50 h (Ar/ 13 vol.% O2_{2}). NiAl-Cr showed formation of a continuous Al2_{2}O3_{3}-Cr2_{2}O3_{3} solid solution in the vicinity of the interface of NiAl and Cr in which the composition changed from almost pure Al2_{2}O3_{3} near the metal matrix to almost pure Cr2_{2}O3_{3} near the gas surface. DS NiAl-34Cr showed more spallation compared to NiAl-Cr. In case of NiAl-Mo, a weight loss was observed due to formation of volatile oxides

    Model Estimation Within Planning and Learning

    Get PDF
    Risk and reward are fundamental concepts in the cooperative control of unmanned systems. In this research, we focus on developing a constructive relationship between cooperative planning and learning algorithms to mitigate the learning risk, while boosting system (planner & learner) asymptotic performance and guaranteeing the safety of agent behavior. Our framework is an instance of the intelligent cooperative control architecture (iCCA) where the learner incrementally improves on the output of a baseline planner through interaction and constrained exploration. We extend previous work by extracting the embedded parameterized transition model from within the cooperative planner and making it adaptable and accessible to all iCCA modules. We empirically demonstrate the advantage of using an adaptive model over a static model and pure learning approaches in an example GridWorld problem and a UAV mission planning scenario with 200 million possibilities. Finally we discuss two extensions to our approach to handle cases where the true model can not be captured exactly through the presumed functional form.United States. Air Force Office of Scientific Research (FA9550-09-1-0522)Natural Sciences and Engineering Research Council of CanadaUSAF (FA9550-09-1-0522
    corecore