2,321 research outputs found

    Robust Subspace Learning: Robust PCA, Robust Subspace Tracking, and Robust Subspace Recovery

    Full text link
    PCA is one of the most widely used dimension reduction techniques. A related easier problem is "subspace learning" or "subspace estimation". Given relatively clean data, both are easily solved via singular value decomposition (SVD). The problem of subspace learning or PCA in the presence of outliers is called robust subspace learning or robust PCA (RPCA). For long data sequences, if one tries to use a single lower dimensional subspace to represent the data, the required subspace dimension may end up being quite large. For such data, a better model is to assume that it lies in a low-dimensional subspace that can change over time, albeit gradually. The problem of tracking such data (and the subspaces) while being robust to outliers is called robust subspace tracking (RST). This article provides a magazine-style overview of the entire field of robust subspace learning and tracking. In particular solutions for three problems are discussed in detail: RPCA via sparse+low-rank matrix decomposition (S+LR), RST via S+LR, and "robust subspace recovery (RSR)". RSR assumes that an entire data vector is either an outlier or an inlier. The S+LR formulation instead assumes that outliers occur on only a few data vector indices and hence are well modeled as sparse corruptions.Comment: To appear, IEEE Signal Processing Magazine, July 201

    Approximate dynamic programming application to inventory management

    Get PDF
    2010 Summer.Includes bibliographical references.This study has developed a new method and investigated the performance of current Approximate Dynamic Programming (ADP) approaches in the context of common inventory circumstances that have not been adequately studied in the literature. The new method uses a technique similar to eligibility trace [113] to improve performance of the residual gradient method [7]. The ADP approach uses approximation techniques, including learning and simulation schemes, to provide the flexible and adaptive control needed for practical inventory management. However, though ADP has received extensive attention in inventory management research lately, there are still many issues left uninvestigated. Some of the issues include (1) an application of ADP with a scalable, linear operating capable, and universal approximation function, i.e., Radial Basis Function (RBF); (2) performance of bootstrapping and convergence-guaranteed learning schemes, i.e., Eligibility Trace and Residual Gradient, respectively; (3) an effect of latent state variables, introduced by recently found GARCH(1,1), to a model-free property of learning-based ADPs; and (4) a performance comparison between two main ADP families, learning-based and simulation-based ADPs. The purpose of this study is to determine appropriate ADP components and corresponding settings for practical inventory problems by examining these issues. A series of simulation-based experiments are employed to study each of the ADP issues. Due to its simplicity in implementation and popularity as a benchmark in ADP research, the Look-Ahead method is used as a benchmark in this study. Conclusions are drawn mainly based on the significance test with aggregate costs as performance measurement. The performance of each ADP method was tested to be comparable to Look-Ahead for inventory problems with low variance demand and shown to have significantly better performance than performance of Look-Ahead, at 0.05 significance level, for an inventory problem with high variance demand. The analysis of experimental results shows that (1) RBF, with evenly distributed centers and half midpoint effect scales, is an effective approximate cost-to-go method; (2) Sarsa, a widely used algorithm based on one-step temporal difference learning. (TD0), is the most efficient learning scheme compared to its eligibility trace enhancement, Sarsa(λ),or to the Residual Gradient method; (3) the new method, Direct Credit Back, works significantly better than the benchmark Look-Ahead, but it does not show significant improvement over Residual Gradient in either zero or one-period leadtime problem; (4) a model-free property of learning-based ADPs is affirmed under the presence of GARCH(1,1) latent state variables; and (5) performance of a simulation-based ADP, i.e., Rollout and Hindsight Optimization, is superior to performance of a learning-based ADP. In addition, links between ADP setting, i.e., Sarsa(λ)'s Eligibility Trace factor and Rollout's number of simulations and horizon, and conservative behavior, Le., maintaining higher inventory level, have been found. Our conclusions show agreement with theoretical and early speculations on ADP applicability, RBF and TD0 effectiveness, learning-based ADP's model-free property, and that there is an advantage of simulation-based ADP. On the other hand, our findings contradict any significance of GARCH(1,1) awareness, identified by Zhang [130], at least when a learning-based ADP is used. The work presented here has profound implications for future studies of adaptive control for practical inventory management and may one day help solve the problem associated with stochastic supply chain management

    Adaptive Order Dispatching based on Reinforcement Learning: Application in a Complex Job Shop in the Semiconductor Industry

    Get PDF
    Heutige Produktionssysteme tendieren durch die Marktanforderungen getrieben zu immer kleineren Losgrößen, höherer Produktvielfalt und größerer Komplexität der Materialflusssysteme. Diese Entwicklungen stellen bestehende Produktionssteuerungsmethoden in Frage. Im Zuge der Digitalisierung bieten datenbasierte Algorithmen des maschinellen Lernens einen alternativen Ansatz zur Optimierung von Produktionsabläufen. Aktuelle Forschungsergebnisse zeigen eine hohe Leistungsfähigkeit von Verfahren des Reinforcement Learning (RL) in einem breiten Anwendungsspektrum. Im Bereich der Produktionssteuerung haben sich jedoch bisher nur wenige Autoren damit befasst. Eine umfassende Untersuchung verschiedener RL-Ansätze sowie eine Anwendung in der Praxis wurden noch nicht durchgeführt. Unter den Aufgaben der Produktionsplanung und -steuerung gewährleistet die Auftragssteuerung (order dispatching) eine hohe Leistungsfähigkeit und Flexibilität der Produktionsabläufe, um eine hohe Kapazitätsauslastung und kurze Durchlaufzeiten zu erreichen. Motiviert durch komplexe Werkstattfertigungssysteme, wie sie in der Halbleiterindustrie zu finden sind, schließt diese Arbeit die Forschungslücke und befasst sich mit der Anwendung von RL für eine adaptive Auftragssteuerung. Die Einbeziehung realer Systemdaten ermöglicht eine genauere Erfassung des Systemverhaltens als statische Heuristiken oder mathematische Optimierungsverfahren. Zusätzlich wird der manuelle Aufwand reduziert, indem auf die Inferenzfähigkeiten des RL zurückgegriffen wird. Die vorgestellte Methodik fokussiert die Modellierung und Implementierung von RL-Agenten als Dispatching-Entscheidungseinheit. Bekannte Herausforderungen der RL-Modellierung in Bezug auf Zustand, Aktion und Belohnungsfunktion werden untersucht. Die Modellierungsalternativen werden auf der Grundlage von zwei realen Produktionsszenarien eines Halbleiterherstellers analysiert. Die Ergebnisse zeigen, dass RL-Agenten adaptive Steuerungsstrategien erlernen können und bestehende regelbasierte Benchmarkheuristiken übertreffen. Die Erweiterung der Zustandsrepräsentation verbessert die Leistung deutlich, wenn ein Zusammenhang mit den Belohnungszielen besteht. Die Belohnung kann so gestaltet werden, dass sie die Optimierung mehrerer Zielgrößen ermöglicht. Schließlich erreichen spezifische RL-Agenten-Konfigurationen nicht nur eine hohe Leistung in einem Szenario, sondern weisen eine Robustheit bei sich ändernden Systemeigenschaften auf. Damit stellt die Forschungsarbeit einen wesentlichen Beitrag in Richtung selbstoptimierender und autonomer Produktionssysteme dar. Produktionsingenieure müssen das Potenzial datenbasierter, lernender Verfahren bewerten, um in Bezug auf Flexibilität wettbewerbsfähig zu bleiben und gleichzeitig den Aufwand für den Entwurf, den Betrieb und die Überwachung von Produktionssteuerungssystemen in einem vernünftigen Gleichgewicht zu halten
    corecore