352 research outputs found
Deep Reinforcement Learning for Swarm Systems
Recently, deep reinforcement learning (RL) methods have been applied
successfully to multi-agent scenarios. Typically, these methods rely on a
concatenation of agent states to represent the information content required for
decentralized decision making. However, concatenation scales poorly to swarm
systems with a large number of homogeneous agents as it does not exploit the
fundamental properties inherent to these systems: (i) the agents in the swarm
are interchangeable and (ii) the exact number of agents in the swarm is
irrelevant. Therefore, we propose a new state representation for deep
multi-agent RL based on mean embeddings of distributions. We treat the agents
as samples of a distribution and use the empirical mean embedding as input for
a decentralized policy. We define different feature spaces of the mean
embedding using histograms, radial basis functions and a neural network learned
end-to-end. We evaluate the representation on two well known problems from the
swarm literature (rendezvous and pursuit evasion), in a globally and locally
observable setup. For the local setup we furthermore introduce simple
communication protocols. Of all approaches, the mean embedding representation
using neural network features enables the richest information exchange between
neighboring agents facilitating the development of more complex collective
strategies.Comment: 31 pages, 12 figures, version 3 (published in JMLR Volume 20
Guided Deep Reinforcement Learning for Swarm Systems
In this paper, we investigate how to learn to control a group of cooperative
agents with limited sensing capabilities such as robot swarms. The agents have
only very basic sensor capabilities, yet in a group they can accomplish
sophisticated tasks, such as distributed assembly or search and rescue tasks.
Learning a policy for a group of agents is difficult due to distributed partial
observability of the state. Here, we follow a guided approach where a critic
has central access to the global state during learning, which simplifies the
policy evaluation problem from a reinforcement learning point of view. For
example, we can get the positions of all robots of the swarm using a camera
image of a scene. This camera image is only available to the critic and not to
the control policies of the robots. We follow an actor-critic approach, where
the actors base their decisions only on locally sensed information. In
contrast, the critic is learned based on the true global state. Our algorithm
uses deep reinforcement learning to approximate both the Q-function and the
policy. The performance of the algorithm is evaluated on two tasks with simple
simulated 2D agents: 1) finding and maintaining a certain distance to each
others and 2) locating a target.Comment: 15 pages, 8 figures, accepted at the AAMAS 2017 Autonomous Robots and
Multirobot Systems (ARMS) Worksho
Regulation von chemokine-like receptor 1 in hepatischen Sternzellen
Es konnte an einem relativ großen NAFLD-Patientenkollektiv gezeigt werden, dass es geschlechtsabhängige Unterschiede in der Expression von CMKLR1 bei NASH-Patienten gibt. So wurde nachgewiesen, dass bei den männlichen Patienten des Kollektivs die hepatische CMKLR1 mRNA positiv mit dem NASH activity score und den darin eingehenden Merkmalen Entzündung und Fibrose korreliert. Bei den weiblichen Patienten zeigte sich kein solcher Zusammenhang. Des Weiteren lassen die sowohl in der gesamten Kohorte als auch in beiden Geschlechtern gefundenen schwachen Assoziationen zwischen der CMKLR1 mRNA und der Komorbidität Diabetes mellitus Typ 2 auf einen Zusammenhang schließen. Diese Ergebnisse sind jedoch mit Vorsicht zu interpretieren und es bedarf hier weiterer Untersuchungen, um einen wirklichen Zusammenhang annehmen oder ablehnen zu können. Auch zeigte sich bei den weiblichen Patienten des Kollektivs ein Trend zu erhöhten CMKLR1 mRNA-Werten bei Patientinnen mit Hypercholesterinämie. Doch auch diese Assoziation ist mit Vorsicht zu interpretieren und es bedarf weiterer Untersuchungen in diese Richtung.
Bei Stimulation von humanen Sternzellen und Zellen der LX-2-Zellreihe mit IL-6, Leptin, TGF-β, TNF-α und Lipopolysaccharid und anschließender Analyse von CMKLR1 mittels Immunoblot in den Zelllysaten, konnte keine Veränderung von CMKLR1 festgestellt werden.
Die Studie zeigt somit, dass ein Zusammenhang zwischen der hepatischen CMKLR1 mRNA und der NASH besteht. Dass die hepatischen Sternzellen in diesem Zusammenhang zu der erhöhten CMKLR1-Expression beitragen, scheint auf Grundlage der hier erhobenen Daten unwahrscheinlich. Da jedoch in den Stimulationsversuchen Proteine analysiert wurden und eine differenzielle Regulation von CMKLR1 auf Protein- und mRNA-Ebene diskutiert wird, sind weitere Untersuchungen notwendig, um diese Frage abschließend zu klären.
Bei den Analysen von Chemerin in den obig beschrieben Stimulationsversuchen zeigten sich keine Veränderungen der Proteinkonzentration in den Zellysaten. Wurden die Konzentrationen an löslichem Chemerin in den Überständen der Experimente untersucht, konnte eine signifikante Abnahme der Konzentration bei den Stimulationen mit LPS und TNF-α nachgewiesen werden. Bei den Stimulationen mit TGF-β zeigte sich ein Trend zu erniedrigten Konzentrationen von löslichem Chemerin.
Die hepatischen Sternzellen scheinen also mit ein Grund für die veränderten Chemerinkonzentrationen in der Leber und im Serum bei NASH-Patienten zu sein. Da die Ergebnisse der Stimulationsversuche von hepatischen Sternzellen zum Teil den Ergebnissen gleicher Stimulationen mit Hepatozyten widersprechen [39] und diese einen viel größeren Zellanteil in der Leber besitzen, gilt es in weiteren Untersuchungen zu klären, wie groß der Einfluss von Konzentrationsänderungen an Chemerin in HSCs auf die gesamte Leber wirklich ist
Information-Theoretic Trust Regions for Stochastic Gradient-Based Optimization
Stochastic gradient-based optimization is crucial to optimize neural networks. While popular approaches heuristically adapt the step size and direction by rescaling gradients, a more principled
approach to improve optimizers requires second-order information. Such methods precondition
the gradient using the objective’s Hessian. Yet, computing the Hessian is usually expensive and
effectively using second-order information in the stochastic gradient setting is non-trivial. We propose using Information-Theoretic Trust Region Optimization (arTuRO) for improved updates with
uncertain second-order information. By modeling the network parameters as a Gaussian distribution and using a Kullback-Leibler divergence-based trust region, our approach takes bounded steps
accounting for the objective’s curvature and uncertainty in the parameters. Before each update, it
solves the trust region problem for an optimal step size, resulting in a more stable and faster optimization process. We approximate the diagonal elements of the Hessian from stochastic gradients
using a simple recursive least squares approach, constructing a model of the expected Hessian over
time using only first-order information. We show that arTuRO combines the fast convergence of
adaptive moment-based optimization with the generalization capabilities of SGD
Deep reinforcement learning for attacking wireless sensor networks
Recent advances in Deep Reinforcement Learning allow solving increasingly complex problems. In this work, we show how current defense mechanisms in Wireless Sensor Networks are vulnerable to attacks that use these advances. We use a Deep Reinforcement Learning attacker architecture that allows having one or more attacking agents that can learn to attack using only partial observations. Then, we subject our architecture to a test-bench consisting of two defense mechanisms against a distributed spectrum sensing attack and a backoff attack. Our simulations show that our attacker learns to exploit these systems without having a priori information about the defense mechanism used nor its concrete parameters. Since our attacker requires minimal hyper-parameter tuning, scales with the number of attackers, and learns only by interacting with the defense mechanism, it poses a significant threat to current defense procedures
Information-Theoretic Trust Regions for Stochastic Gradient-Based Optimization
Stochastic gradient-based optimization is crucial to optimize neural
networks. While popular approaches heuristically adapt the step size and
direction by rescaling gradients, a more principled approach to improve
optimizers requires second-order information. Such methods precondition the
gradient using the objective's Hessian. Yet, computing the Hessian is usually
expensive and effectively using second-order information in the stochastic
gradient setting is non-trivial. We propose using Information-Theoretic Trust
Region Optimization (arTuRO) for improved updates with uncertain second-order
information. By modeling the network parameters as a Gaussian distribution and
using a Kullback-Leibler divergence-based trust region, our approach takes
bounded steps accounting for the objective's curvature and uncertainty in the
parameters. Before each update, it solves the trust region problem for an
optimal step size, resulting in a more stable and faster optimization process.
We approximate the diagonal elements of the Hessian from stochastic gradients
using a simple recursive least squares approach, constructing a model of the
expected Hessian over time using only first-order information. We show that
arTuRO combines the fast convergence of adaptive moment-based optimization with
the generalization capabilities of SGD
Die Interaktion zwischen Tumorzellen und tumorassoziierten Fibroblasten und deren Einfluss auf die Therapie des Pankreaskarzinoms
Hintergrund: Das Pankreaskarzinom ist mit einer sehr hohen Mortalität verbunden. Dies ist unter anderem durch die unspezifischen Symptome, den schnellen Krankheitsprogress und ein hohes Rezidivrisiko, resultierend in einer niedrigen 5-Jahres-Überlebensrate von nur 7%, bedingt. Prognosen weisen auf, dass bis zum Jahr 2030 das Pankreaskarzinom die zweithäufigste Todesursache bei Krebspatienten in Deutschland sein wird. Trotz wesentlicher Fortschritte in den letzten Jahren, sowohl in der Forschung als auch in der klinischen Behandlung, stehen für das Pankreaskarzinom nur wenige Behandlungsmöglichkeiten zur Verfügung. Die einzige kurativ intendierte Therapie bietet die Resektion des Tumors mit anschließender adjuvanter Chemotherapie. Im Vergleich zu anderen Tumorentitäten haben die etablierten Chemotherapeutika nur einen begrenzten Effekt. Für die hohe Chemoresistenz verantwortlich gemacht wird unter anderem das Tumorstroma, welches bis zu 90% des Tumorvolumens ausmacht. Ziel dieser Arbeit war es, den Einfluss von Stromazellen auf das Therapieansprechen von Pankreaskarzinomzellen in-vitro zu untersuchen. Methodik: Sechs primäre tumorassoziierte Fibroblasten (CAFs) wurden von insgesamt 50 Patienten gewonnen. Die Interaktion zwischen CAFs und zwei etablierten Tumorzelllinien (AsPC und Panc-1) wurde in indirekten und direkten Ko-Kulturen untersucht und mit den entsprechenden Monokulturen verglichen. Die Zellen wurden mit Gemcitabin, nab-Paclitaxel und einem Notch-Inhibitor (γ-Sekretaseinhibitor) behandelt und die Zellviabilität eines jeden Komponenten mittels eines Zellproliferationsassays, XTT, gemessen. Ergebnisse: In den CAF Monokulturen zeigte sich eine wesentlich geringere Reduktion der Zellviabilität verglichen mit den Monokulturen der Tumorzelllinien. Es konnte für nicht-immortalisierte CAFs gezeigt werden, dass diese durch eine Chemotherapie kaum beeinflusst werden und somit das Tumorstroma selbst als ein resistenter Bestandteil des Pankreaskarzinoms anzusehen ist. Während die Zellviabilität in indirekten Ko-Kulturen denen der Monokulturen ähnelte, sprachen direkte Ko-Kulturen kaum auf die untersuchten Therapeutika an. Die einzige effektive Therapie war die Ko-Therapie mit Gemcitabin und nab-Paclitaxel. Da genau dieses Therapieregime auch in klinischen Studien als eines der effektivsten beschrieben wurde, reflektiert das System der direkten Ko-Kulturen am ehesten die klinische Realität. Zudem wurden in direkten Ko-Kulturen Tumorzellagglomerate von CAFs umschlossen und formierten sich so zu käfig-ähnliche Strukturen. Obwohl der Notch-Signalweg bekanntermaßen in direkten Ko-Kulturen aktiviert ist, konnte durch den Einsatz eines Notch-Inhibitors das Ansprechen auf die Chemotherapie in direkten Ko-Kulturen nicht verbessert werden. Zusammenfassung Abschließend konnte diese Arbeit zeigen, dass die Tumorresistenz im Wesentlichen durch die Eigenschaften der direkten Ko-Kulturen bedingt ist. Hierzu zählen der direkte Zell-Zell-Kontakt, die Extrazellulärmatrix und die Kulturmorphologie der käfig-ähnlichen Strukturen.Background: Pancreatic cancer is one of the most lethal types of cancer because of its non-specific symptoms, rapid progress, high risk of relapse, all resulting in a low five-year survival rate of 7%. Moreover, pancreatic cancer is progressively gaining attention since it is predicted to be the second most common lethal cause of cancer in Germany by 2030. Treatment options, however, are limited and resection and adjuvant chemotherapy offer the only curative way. Compared to other types of cancer, limited progress has been made and pancreatic cancer still remains highly chemoresistant to any chemotherapeutic treatment known. One of the major reasons for the high chemoresistance is thought to be the stroma component which makes up to 90% of the tumor volume. The main aim of this project, therefore, was to investigate the in-vitro effect stromal cells have on the therapeutic response of cancer cells.
Methods: Six patient derived cancer associated fibroblasts (CAFs) were isolated from a cohort of 50 patients. The interaction between CAFs and two well established cancer cell lines (AsPC and Panc-1) was investigated in indirect and direct co-cultures and compared to the corresponding monocultures. Cells were treated with gemcitabine, nab-paclitaxel and a Notch-inhibitor (Îł-secretase inhibitor) and the cell viabilities of each component was measured via XTT.
Results: In CAF monocultures the reduction in cell viability was far less pronounced than in cultures of cancer cells. For the first time, non-immortalized CAFs were found to be highly chemoresistant indicating that the tumor stroma itself is a strongly resistant component of the tumor’s microenvironment. Whilst the therapeutic effect observed in indirect co-cultures was similar to that of monocultures, direct co-cultures hardly responded to any therapies. The only effective therapy being the co-therapy of gemcitabine and nab-paclitaxel. Since clinical studies have identified this co-therapy to be one of the most effective ones, the system of direct co-cultures reflects clinical reality. Moreover, in direct co-cultures tumor cell agglomerates were surrounded by CAFs, forming cage-like structures. Even though the Notch signaling pathway is known to be amplified in direct co-cultures, treating direct co-cultures with a Notch-inhibitor did not show any therapeutic effect.
Conclusion: In conclusion, the results of this work have clearly linked the tumor’s chemoresistance to the characteristics specific to direct co-cultures. Namely direct cell cell contact, the extracellular matrix and the morphology of cage-like structures
- …