9 research outputs found

    Rankitect: Ranking Architecture Search Battling World-class Engineers at Meta Scale

    Full text link
    Neural Architecture Search (NAS) has demonstrated its efficacy in computer vision and potential for ranking systems. However, prior work focused on academic problems, which are evaluated at small scale under well-controlled fixed baselines. In industry system, such as ranking system in Meta, it is unclear whether NAS algorithms from the literature can outperform production baselines because of: (1) scale - Meta ranking systems serve billions of users, (2) strong baselines - the baselines are production models optimized by hundreds to thousands of world-class engineers for years since the rise of deep learning, (3) dynamic baselines - engineers may have established new and stronger baselines during NAS search, and (4) efficiency - the search pipeline must yield results quickly in alignment with the productionization life cycle. In this paper, we present Rankitect, a NAS software framework for ranking systems at Meta. Rankitect seeks to build brand new architectures by composing low level building blocks from scratch. Rankitect implements and improves state-of-the-art (SOTA) NAS methods for comprehensive and fair comparison under the same search space, including sampling-based NAS, one-shot NAS, and Differentiable NAS (DNAS). We evaluate Rankitect by comparing to multiple production ranking models at Meta. We find that Rankitect can discover new models from scratch achieving competitive tradeoff between Normalized Entropy loss and FLOPs. When utilizing search space designed by engineers, Rankitect can generate better models than engineers, achieving positive offline evaluation and online A/B test at Meta scale.Comment: Wei Wen and Kuang-Hung Liu contribute equall

    Accelerated Policy Evaluation: Learning Adversarial Environments with Adaptive Importance Sampling

    Full text link
    The evaluation of rare but high-stakes events remains one of the main difficulties in obtaining reliable policies from intelligent agents, especially in large or continuous state/action spaces where limited scalability enforces the use of a prohibitively large number of testing iterations. On the other hand, a biased or inaccurate policy evaluation in a safety-critical system could potentially cause unexpected catastrophic failures during deployment. In this paper, we propose the Accelerated Policy Evaluation (APE) method, which simultaneously uncovers rare events and estimates the rare event probability in Markov decision processes. The APE method treats the environment nature as an adversarial agent and learns towards, through adaptive importance sampling, the zero-variance sampling distribution for the policy evaluation. Moreover, APE is scalable to large discrete or continuous spaces by incorporating function approximators. We investigate the convergence properties of proposed algorithms under suitable regularity conditions. Our empirical studies show that APE estimates rare event probability with a smaller variance while only using orders of magnitude fewer samples compared to baseline methods in both multi-agent and single-agent environments.Comment: 10 pages, 5 figure

    Modellfreies Lernen optimaler zeitdiskreter Regelungsstrategien für Fertigungsprozesse mit endlichem Zeithorizont

    Get PDF
    Die Qualität und Leistungsfähigkeit von Bauteilen wird wesentlich von der Ausführung der beteiligten Fertigungsprozesse bestimmt. Das Prozessergebnis hängt -- neben dem Anfangszustand des Bauteils und des Prozesses -- von dem Prozessverlauf ab. Bei vielen Fertigungsprozessen kann der Prozessverlauf durch zeitlich veränderliche Stellgrößen maßgeblich bestimmt werden. Die Optimierung dieser zeitveränderlichen Größen mit Hinsicht auf die Qualität des Bauteils ist Gegenstand dieser Arbeit. Die Bauteilqualität ergibt sich zum einen aus den makroskopischen Eigenschaften des erzeugten Bauteils und zum anderen aus der Material-Struktur am Ende des Fertigungsprozesses. Beides lässt sich häufig erst im Anschluss an die Prozessausführung, in Form einer Qualitätskontrolle, beurteilen und quantifizieren. Prozesspfade sind Sequenzen von Werten der Stellgrößen, die in dieser Arbeit mit Hinsicht auf die Ergebnisqualität optimiert werden. Reale Prozesse sind nicht vollständig determiniert, sondern hängen auch von während des Prozesses schwankenden Prozessbedingungen ab, die häufig nicht direkt messbar sind. Somit können keine allgemein gültigen, optimalen Prozesspfade ermittelt werden. Die Optimierung der Stellgrößen muss vielmehr während der Prozessausführung erfolgen und stellt dann ein Problem der optimalen Regelung dar, wo anstelle der Prozesspfade Regelungsstrategien treten. Diese sind Abbildungen von beobachteten Größen auf Stellgrößen, welche in Hinsicht auf das Prozessergebnis optimiert werden. Herkömmliche Methoden zur optimalen Regelung setzen meist ein Prozessmodell voraus, das gleichzeitig effizient zu berechnen und ausreichend akkurat bezüglich der Aufgabenstellung sein muss. Dies stellt insbesondere bei komplexen nicht-linearen Fertigungsprozessen eine hohe Hürde dar. Ziel der vorliegenden Arbeit ist deshalb die Entwicklung und Untersuchung von modellfreien Methoden, die selbstständig optimale Regelungsstrategien von Fertigungsprozessen in Hinsicht auf die Ergebnisqualität lernen. Die Basis für derartige Methoden findet sich in Bereichen des bestärkenden maschinellen Lernens und der adaptiven dynamischen Programmierung. Zur Erreichung dieses übergreifenden Ziels werden in der Arbeit zwei Problemklassen, (a) die Optimierung von Regelungsstrategien partiell beobachtbarer Fertigungsprozesse (bei denen stellvertretend für den Prozesszustand nur einige, davon abhängige Messgrößen vorliegen) unter variierenden Einflüssen und (b) die Struktur-geleitete Optimierung von Fertigungsprozessen (bei denen die Herstellung einer gegebenen Material-Struktur angestrebt wird) definiert und Methoden des bestärkenden Lernens zur Lösung dieser Problemklassen gegenüber dem Stand der Forschung fortentwickelt und untersucht. Dabei werden weitere besondere Aufgabenstellungen in dem Kontext des übergreifenden Ziels, insbesondere die Entscheidungsoptimierung unter sich ändernden Zielvorgaben und die dateneffiziente Entscheidungsoptimierung bei mehreren äquivalenten Zielen, adressiert. Die entwickelten, generischen Methoden werden für Prozesse der Metallverarbeitung ausgeprägt und in einer virtuellen Surrogat-Umgebung experimentell untersucht. Die physikalische Simulation eines Tiefziehprozesses wird durch Module zur Simulation der variierenden Prozesseinflüsse und der partiellen Beobachtbarkeit erweitert und bildet die Basis der Untersuchungen der Lösungsmethoden für die Problemklasse (a). Die Simulation eines Metall-Bearbeitungsprozesses zur einachsigen Deformation in beliebige Richtungen bildet die Basis der Untersuchungen zur Struktur-geleiteten Optimierung. Die Ergebnisse der Untersuchungen zeigen die Leistungsfähigkeit der entwickelten Methoden im Vergleich zu klassischen Basismethoden. Neben der Leistungsfähigkeit werden die Dateneffizienz und die Robustheit gegenüber Parameterausprägungen der entwickelten Methoden gezeigt und die Auswirkungen einzelner entwickelter Methodenbestandteile auf die Ergebnisse untersucht
    corecore