9 research outputs found
Rankitect: Ranking Architecture Search Battling World-class Engineers at Meta Scale
Neural Architecture Search (NAS) has demonstrated its efficacy in computer
vision and potential for ranking systems. However, prior work focused on
academic problems, which are evaluated at small scale under well-controlled
fixed baselines. In industry system, such as ranking system in Meta, it is
unclear whether NAS algorithms from the literature can outperform production
baselines because of: (1) scale - Meta ranking systems serve billions of users,
(2) strong baselines - the baselines are production models optimized by
hundreds to thousands of world-class engineers for years since the rise of deep
learning, (3) dynamic baselines - engineers may have established new and
stronger baselines during NAS search, and (4) efficiency - the search pipeline
must yield results quickly in alignment with the productionization life cycle.
In this paper, we present Rankitect, a NAS software framework for ranking
systems at Meta. Rankitect seeks to build brand new architectures by composing
low level building blocks from scratch. Rankitect implements and improves
state-of-the-art (SOTA) NAS methods for comprehensive and fair comparison under
the same search space, including sampling-based NAS, one-shot NAS, and
Differentiable NAS (DNAS). We evaluate Rankitect by comparing to multiple
production ranking models at Meta. We find that Rankitect can discover new
models from scratch achieving competitive tradeoff between Normalized Entropy
loss and FLOPs. When utilizing search space designed by engineers, Rankitect
can generate better models than engineers, achieving positive offline
evaluation and online A/B test at Meta scale.Comment: Wei Wen and Kuang-Hung Liu contribute equall
Accelerated Policy Evaluation: Learning Adversarial Environments with Adaptive Importance Sampling
The evaluation of rare but high-stakes events remains one of the main
difficulties in obtaining reliable policies from intelligent agents, especially
in large or continuous state/action spaces where limited scalability enforces
the use of a prohibitively large number of testing iterations. On the other
hand, a biased or inaccurate policy evaluation in a safety-critical system
could potentially cause unexpected catastrophic failures during deployment. In
this paper, we propose the Accelerated Policy Evaluation (APE) method, which
simultaneously uncovers rare events and estimates the rare event probability in
Markov decision processes. The APE method treats the environment nature as an
adversarial agent and learns towards, through adaptive importance sampling, the
zero-variance sampling distribution for the policy evaluation. Moreover, APE is
scalable to large discrete or continuous spaces by incorporating function
approximators. We investigate the convergence properties of proposed algorithms
under suitable regularity conditions. Our empirical studies show that APE
estimates rare event probability with a smaller variance while only using
orders of magnitude fewer samples compared to baseline methods in both
multi-agent and single-agent environments.Comment: 10 pages, 5 figure
Modellfreies Lernen optimaler zeitdiskreter Regelungsstrategien für Fertigungsprozesse mit endlichem Zeithorizont
Die Qualität und Leistungsfähigkeit von Bauteilen wird wesentlich von der Ausführung der beteiligten Fertigungsprozesse bestimmt. Das Prozessergebnis hängt -- neben dem Anfangszustand des Bauteils und des Prozesses -- von dem Prozessverlauf ab. Bei vielen Fertigungsprozessen kann der Prozessverlauf durch zeitlich veränderliche Stellgrößen maßgeblich bestimmt werden.
Die Optimierung dieser zeitveränderlichen Größen mit Hinsicht auf die Qualität des Bauteils ist Gegenstand dieser Arbeit. Die Bauteilqualität ergibt sich zum einen aus den makroskopischen Eigenschaften des erzeugten Bauteils und zum anderen aus der Material-Struktur am Ende des Fertigungsprozesses. Beides lässt sich häufig erst im Anschluss an die Prozessausführung, in Form einer Qualitätskontrolle, beurteilen und quantifizieren. Prozesspfade sind Sequenzen von Werten der Stellgrößen, die in dieser Arbeit mit Hinsicht auf die Ergebnisqualität optimiert werden.
Reale Prozesse sind nicht vollständig determiniert, sondern hängen auch von während des Prozesses schwankenden Prozessbedingungen ab, die häufig nicht direkt messbar sind. Somit können keine allgemein gültigen, optimalen Prozesspfade ermittelt werden.
Die Optimierung der Stellgrößen muss vielmehr während der Prozessausführung erfolgen und stellt dann ein Problem der optimalen Regelung dar, wo anstelle der Prozesspfade Regelungsstrategien treten. Diese sind Abbildungen von beobachteten Größen auf Stellgrößen, welche in Hinsicht auf das Prozessergebnis optimiert werden. Herkömmliche Methoden zur optimalen Regelung setzen meist ein Prozessmodell voraus, das gleichzeitig effizient zu berechnen und ausreichend akkurat bezüglich der Aufgabenstellung sein muss. Dies stellt insbesondere bei komplexen nicht-linearen Fertigungsprozessen eine hohe Hürde dar.
Ziel der vorliegenden Arbeit ist deshalb die Entwicklung und Untersuchung von modellfreien Methoden, die selbstständig optimale Regelungsstrategien von Fertigungsprozessen in Hinsicht auf die Ergebnisqualität lernen. Die Basis für derartige Methoden findet sich in Bereichen des bestärkenden maschinellen Lernens und der adaptiven dynamischen Programmierung.
Zur Erreichung dieses übergreifenden Ziels werden in der Arbeit zwei Problemklassen, (a) die Optimierung von Regelungsstrategien partiell beobachtbarer Fertigungsprozesse (bei denen stellvertretend für den Prozesszustand nur einige, davon abhängige Messgrößen vorliegen) unter variierenden Einflüssen und (b) die Struktur-geleitete Optimierung von Fertigungsprozessen (bei denen die Herstellung einer gegebenen Material-Struktur angestrebt wird) definiert und Methoden des bestärkenden Lernens zur Lösung dieser Problemklassen gegenüber dem Stand der Forschung fortentwickelt und untersucht. Dabei werden weitere besondere Aufgabenstellungen in dem Kontext des übergreifenden Ziels, insbesondere die Entscheidungsoptimierung unter sich ändernden Zielvorgaben und die dateneffiziente Entscheidungsoptimierung bei mehreren äquivalenten Zielen, adressiert.
Die entwickelten, generischen Methoden werden für Prozesse der Metallverarbeitung ausgeprägt und in einer virtuellen Surrogat-Umgebung experimentell untersucht. Die physikalische Simulation eines Tiefziehprozesses wird durch Module zur Simulation der variierenden Prozesseinflüsse und der partiellen Beobachtbarkeit erweitert und bildet die Basis der Untersuchungen der Lösungsmethoden für die Problemklasse (a). Die Simulation eines Metall-Bearbeitungsprozesses zur einachsigen Deformation in beliebige Richtungen bildet die Basis der Untersuchungen zur Struktur-geleiteten Optimierung. Die Ergebnisse der Untersuchungen zeigen die Leistungsfähigkeit der entwickelten Methoden im Vergleich zu klassischen Basismethoden. Neben der Leistungsfähigkeit werden die Dateneffizienz und die Robustheit gegenüber Parameterausprägungen der entwickelten Methoden gezeigt und die Auswirkungen einzelner entwickelter Methodenbestandteile auf die Ergebnisse untersucht
Recommended from our members
Rare-Event Estimation and Calibration for Large-Scale Stochastic Simulation Models
Stochastic simulation has been widely applied in many domains. More recently, however, the rapid surge of sophisticated problems such as safety evaluation of intelligent systems has posed various challenges to conventional statistical methods. Motivated by these challenges, in this thesis, we develop novel methodologies with theoretical guarantees and numerical applications to tackle them from different perspectives.
In particular, our works can be categorized into two areas: (1) rare-event estimation (Chapters 2 to 5) where we develop approaches to estimating the probabilities of rare events via simulation; (2) model calibration (Chapters 6 and 7) where we aim at calibrating the simulation model so that it is close to reality.
In Chapter 2, we study rare-event simulation for a class of problems where the target hitting sets of interest are defined via modern machine learning tools such as neural networks and random forests. We investigate an importance sampling scheme that integrates the dominating point machinery in large deviations and sequential mixed integer programming to locate the underlying dominating points. We provide efficiency guarantees and numerical demonstration of our approach.
In Chapter 3, we propose a new efficiency criterion for importance sampling, which we call probabilistic efficiency. Conventionally, an estimator is regarded as efficient if its relative error is sufficiently controlled. It is widely known that when a rare-event set contains multiple "important regions" encoded by the dominating points, importance sampling needs to account for all of them via mixing to achieve efficiency. We argue that the traditional analysis recipe could suffer from intrinsic looseness by using relative error as an efficiency criterion. Thus, we propose the new efficiency notion to tighten this gap. In particular, we show that under the standard Gartner-Ellis large deviations regime, an importance sampling that uses only the most significant dominating points is sufficient to attain this efficiency notion.
In Chapter 4, we consider the estimation of rare-event probabilities using sample proportions output by crude Monte Carlo. Due to the recent surge of sophisticated rare-event problems, efficiency-guaranteed variance reduction may face implementation challenges, which motivate one to look at naive estimators. In this chapter we construct confidence intervals for the target probability using this naive estimator from various techniques, and then analyze their validity as well as tightness respectively quantified by the coverage probability and relative half-width.
In Chapter 5, we propose the use of extreme value analysis, in particular the peak-over-threshold method which is popularly employed for extremal estimation of real datasets, in the simulation setting. More specifically, we view crude Monte Carlo samples as data to fit on a generalized Pareto distribution. We test this idea on several numerical examples. The results show that in the absence of efficient variance reduction schemes, it appears to offer potential benefits to enhance crude Monte Carlo estimates.
In Chapter 6, we investigate a framework to develop calibration schemes in parametric settings, which satisfies rigorous frequentist statistical guarantees via a basic notion that we call eligibility set designed to bypass non-identifiability via a set-based estimation. We investigate a feature extraction-then-aggregation approach to construct these sets that target at multivariate outputs. We demonstrate our methodology on several numerical examples, including an application to calibration of a limit order book market simulator.
In Chapter 7, we study a methodology to tackle the NASA Langley Uncertainty Quantification Challenge, a model calibration problem under both aleatory and epistemic uncertainties. Our methodology is based on an integration of distributionally robust optimization and importance sampling. The main computation machinery in this integrated methodology amounts to solving sampled linear programs. We present theoretical statistical guarantees of our approach via connections to nonparametric hypothesis testing, and numerical performances including parameter calibration and downstream decision and risk evaluation tasks