17 research outputs found

    Rotting bandits are not harder than stochastic ones

    Get PDF
    In stochastic multi-armed bandits, the reward distribution of each arm is assumed to be stationary. This assumption is often violated in practice (e.g., in recommendation systems), where the reward of an arm may change whenever is selected, i.e., rested bandit setting. In this paper, we consider the non-parametric rotting bandit setting, where rewards can only decrease. We introduce the filtering on expanding window average (FEWA) algorithm that constructs moving averages of increasing windows to identify arms that are more likely to return high rewards when pulled once more. We prove that for an unknown horizon TT, and without any knowledge on the decreasing behavior of the KK arms, FEWA achieves problem-dependent regret bound of O~(log(KT)),\widetilde{\mathcal{O}}(\log{(KT)}), and a problem-independent one of O~(KT)\widetilde{\mathcal{O}}(\sqrt{KT}). Our result substantially improves over the algorithm of Levine et al. (2017), which suffers regret O~(K1/3T2/3)\widetilde{\mathcal{O}}(K^{1/3}T^{2/3}). FEWA also matches known bounds for the stochastic bandit setting, thus showing that the rotting bandits are not harder. Finally, we report simulations confirming the theoretical improvements of FEWA

    SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

    Full text link
    Large language models (LLMs) show excellent performance but are compute- and memory-intensive. Quantization can reduce memory and accelerate inference. However, for LLMs beyond 100 billion parameters, existing methods cannot maintain accuracy or do not run efficiently on hardware. We propose SmoothQuant, a training-free, accuracy-preserving, and general-purpose post-training quantization (PTQ) solution to enable 8-bit weight, 8-bit activation (W8A8) quantization for LLMs that can be implemented efficiently. We observe that systematic outliers appear at fixed activation channels. Based on the fact that weights are easy to quantize while activations are not, SmoothQuant smooths the activation outliers by offline migrating the quantization difficulty from activations to weights with a mathematically equivalent transformation. SmoothQuant enables an INT8 quantization of both weights and activations for all the GEMMs in LLMs, including OPT-175B, BLOOM-176B, and GLM-130B. SmoothQuant has better hardware efficiency than existing techniques using mixed-precision activation quantization or weight-only quantization. We demonstrate up to 1.56x speedup and 2x memory reduction for LLMs with negligible loss in accuracy. Thanks to the hardware-friendly design, we integrate SmoothQuant into FasterTransformer, a state-of-the-art LLM serving framework, and achieve faster inference speed with half the number of GPUs compared to FP16. Our work offers a turn-key solution that reduces hardware costs and democratizes LLMs. Code is available at: https://github.com/mit-han-lab/smoothquant.Comment: The first two authors contributed equally to this wor

    A single algorithm for both restless and rested rotting bandits

    Get PDF
    International audienceIn many application domains (e.g., recommender systems, intelligent tutoring systems), the rewards associated to the actions tend to decrease over time. This decay is either caused by the actions executed in the past (e.g., a user may get bored when songs of the same genre are recommended over and over) or by an external factor (e.g., content becomes outdated). These two situations can be modeled as specific instances of the rested and restless bandit settings, where arms are rotting (i.e., their value decrease over time). These problems were thought to be significantly different, since Levine et al. (2017) showed that state-of-the-art algorithms for restless bandit perform poorly in the rested rotting setting. In this paper, we introduce a novel algorithm, Rotting Adaptive Window UCB (RAW-UCB), that achieves near-optimal regret in both rotting rested and restless bandit, without any prior knowledge of the setting (rested or restless) and the type of non-stationarity (e.g., piece-wise constant, bounded variation). This is in striking contrast with previous negative results showing that no algorithm can achieve similar results as soon as rewards are allowed to increase. We confirm our theoretical findings on a number of synthetic and datasetbased experiments

    Efficient Change-Point Detection for Tackling Piecewise-Stationary Bandits

    Get PDF
    International audienceWe introduce GLR-klUCB, a novel algorithm for the piecewise iid non-stationary bandit problem with bounded rewards. This algorithm combines an efficient bandit algorithm, kl-UCB, with an efficient, parameter-free, changepoint detector, the Bernoulli Generalized Likelihood Ratio Test, for which we provide new theoretical guarantees of independent interest. Unlike previous non-stationary bandit algorithms using a change-point detector, GLR-klUCB does not need to be calibrated based on prior knowledge on the arms' means. We prove that this algorithm can attain a O(TAΥTlog(T))O(\sqrt{TA \Upsilon_T\log(T)}) regret in TT rounds on some ``easy'' instances, where A is the number of arms and ΥT\Upsilon_T the number of change-points, without prior knowledge of ΥT\Upsilon_T. In contrast with recently proposed algorithms that are agnostic to ΥT\Upsilon_T, we perform a numerical study showing that GLR-klUCB is also very efficient in practice, beyond easy instances

    Apprentissage automatique séquentiel pour les systèmes éducatifs intelligents

    No full text
    Designing an adaptive sequence of exercises in Intelligent Tutoring Systems (ITS) requiresto characterize the gaps of the student and to use this characterization in a relevantpedagogical strategy. Since a student does no more than a few tens of exercises in a session,these two objectives compete. Machine learning called these exploration-exploitationtrade-offs in sequential decision making the bandits problems. In this thesis, we studydifferent bandits setups for intelligent tutoring systems.The rested rotting bandits are a sequential decision problem in which the reward associatedwith an action may decrease when it is selected. It models the situation where the studentimproves when he works and the ITS aims the least known subject to fill the most importantgaps. We design new algorithms and we prove that for an unknown horizon T, and withoutany knowledge on the decreasing behavior of the K arms, these algorithms achieve problemdependentregret bound of O(logT); and a problem-independent one of Oe(pKT). Ourresult substantially improves over existing algorithms, which suffers minimax regretOe(K1=3T2=3). These bounds are at a polylog factor of the optimal bounds on the classicalstationary bandit; hence our conclusion: rotting bandits are not harder than stationary ones.In the restless rotting bandits, the reward may decrease at each round for all the actions.They model different situations such as the obsolescence of content in recommendersystems. We show that the rotting algorithms designed for the rested case match theproblem-independent lower bounds and a O(logT) problem-dependent one. The latter wasshown to be unachievable in the general case where rewards can increase. We conclude:the rotting assumption makes the restless bandits easier.Targeting the least known topic may be interesting before an exam but during the curriculum- when all the subjects are not yet understood - it can lead to failure in the learning of thestudent. We study a Partially Observable Markov Decision Process in which we aim atmastering as many topics as fast as possible. We show that under relevant assumptions onthe learning of the student, the best oracle policy targets the most known topic under themastery threshold. Since this optimal oracle does not need to know the transition dynamicsof the POMDP, we design a learning policy with classical bandits tools, hence avoidingthe data-intensive methods of POMDP learning.Proposer des séquences adaptatives d’exercices dans un Environnement informatique pourl’Apprentissage Humain (EIAH) nécessite de caractériser les lacunes de l’élève et d’utilisercette caractérisation dans une stratégie pédagogique adaptée. Puisque les élèves ne fontque quelques dizaines de questions dans une session de révision, ces deux objectifs sonten compétition. L’apprentissage automatique appelle problème de bandits ces dilemmesd’exploration-exploitation dans les prises de décisions séquentielles. Dans cette thèse,nous étudions trois problèmes de bandits pour une application dans les systèmes éducatifsadaptatifs.Les bandits décroissants au repos sont un problème de décision séquentiel dans lequel larécompense associée à une action décroît lorsque celle-ci est sélectionnée. Cela modélisele cas où un élève progresse quand il travaille et l’EIAH cherche à sélectionner le sujetle moins maîtrisé pour combler les plus fortes lacunes. Nous présentons de nouveauxalgorithmes et nous montrons que pour un horizon inconnu T et sans aucune connaissancesur la décroissance des K bras, ces algorithmes atteignent une borne de regret dépendantedu problème O(logT); et une borne indépendante du problème Oe(pKT). Nos résultatsaméliorent substantiellement l’état de l’art, ou seule une borne minimax Oe(K1=3T2=3) avaitété atteinte. Ces nouvelles bornes sont à des facteurs polylog des bornes optimales sur leproblème stationnaire, donc nous concluons : les bandits décroissants ne sont pas plus dursque les bandits stationnaires.Dans les bandits décroissants sans repos, la récompense peut décroître à chaque tour pourtoutes les actions. Cela modélise des situations différentes telles que le vieillissementdu contenu dans un système de recommandation. On montre que les algorithmes conçuspour le problème "au repos" atteignent les bornes inférieures agnostiques au problèmeet une borne dépendante du problème O(logT). Cette dernière est inatteignable dans lecas général où la récompense peut croître. Nous concluons : l’hypothèse de décroissancesimplifie l’apprentissage des bandits sans repos.Viser le sujet le moins connu peut être intéressant avant un examen, mais pendant lecursus - quand tous les sujets ne sont pas bien compris - cela peut mener à l’échec del’apprentissage de l’étudiant. On étudie un Processus de Décision Markovien PartiellementObservable (POMDP, selon l’acronyme anglais) dans lequel on cherche à maîtriser le plusde sujets le plus rapidement possible. On montre que sous des hypothèses raisonnablessur l’apprentissage de l’élève, la meilleure stratégie oracle sélectionne le sujet le plusconnu sous le seuil de maîtrise. Puisque cet oracle optimal n’a pas besoin de connaîtrela dynamique de transition du POMDP, nous proposons une stratégie apprenante avecdes outils "bandits" classiques, en évitant ainsi les méthodes gourmandes en données del’apprentissage de POMDP

    Apprentissage automatique séquentiel pour les systèmes éducatifs intelligents

    No full text
    Designing an adaptive sequence of exercises in Intelligent Tutoring Systems (ITS) requiresto characterize the gaps of the student and to use this characterization in a relevantpedagogical strategy. Since a student does no more than a few tens of exercises in a session,these two objectives compete. Machine learning called these exploration-exploitationtrade-offs in sequential decision making the bandits problems. In this thesis, we studydifferent bandits setups for intelligent tutoring systems.The rested rotting bandits are a sequential decision problem in which the reward associatedwith an action may decrease when it is selected. It models the situation where the studentimproves when he works and the ITS aims the least known subject to fill the most importantgaps. We design new algorithms and we prove that for an unknown horizon T, and withoutany knowledge on the decreasing behavior of the K arms, these algorithms achieve problemdependentregret bound of O(logT); and a problem-independent one of Oe(pKT). Ourresult substantially improves over existing algorithms, which suffers minimax regretOe(K1=3T2=3). These bounds are at a polylog factor of the optimal bounds on the classicalstationary bandit; hence our conclusion: rotting bandits are not harder than stationary ones.In the restless rotting bandits, the reward may decrease at each round for all the actions.They model different situations such as the obsolescence of content in recommendersystems. We show that the rotting algorithms designed for the rested case match theproblem-independent lower bounds and a O(logT) problem-dependent one. The latter wasshown to be unachievable in the general case where rewards can increase. We conclude:the rotting assumption makes the restless bandits easier.Targeting the least known topic may be interesting before an exam but during the curriculum- when all the subjects are not yet understood - it can lead to failure in the learning of thestudent. We study a Partially Observable Markov Decision Process in which we aim atmastering as many topics as fast as possible. We show that under relevant assumptions onthe learning of the student, the best oracle policy targets the most known topic under themastery threshold. Since this optimal oracle does not need to know the transition dynamicsof the POMDP, we design a learning policy with classical bandits tools, hence avoidingthe data-intensive methods of POMDP learning.Proposer des séquences adaptatives d’exercices dans un Environnement informatique pourl’Apprentissage Humain (EIAH) nécessite de caractériser les lacunes de l’élève et d’utilisercette caractérisation dans une stratégie pédagogique adaptée. Puisque les élèves ne fontque quelques dizaines de questions dans une session de révision, ces deux objectifs sonten compétition. L’apprentissage automatique appelle problème de bandits ces dilemmesd’exploration-exploitation dans les prises de décisions séquentielles. Dans cette thèse,nous étudions trois problèmes de bandits pour une application dans les systèmes éducatifsadaptatifs.Les bandits décroissants au repos sont un problème de décision séquentiel dans lequel larécompense associée à une action décroît lorsque celle-ci est sélectionnée. Cela modélisele cas où un élève progresse quand il travaille et l’EIAH cherche à sélectionner le sujetle moins maîtrisé pour combler les plus fortes lacunes. Nous présentons de nouveauxalgorithmes et nous montrons que pour un horizon inconnu T et sans aucune connaissancesur la décroissance des K bras, ces algorithmes atteignent une borne de regret dépendantedu problème O(logT); et une borne indépendante du problème Oe(pKT). Nos résultatsaméliorent substantiellement l’état de l’art, ou seule une borne minimax Oe(K1=3T2=3) avaitété atteinte. Ces nouvelles bornes sont à des facteurs polylog des bornes optimales sur leproblème stationnaire, donc nous concluons : les bandits décroissants ne sont pas plus dursque les bandits stationnaires.Dans les bandits décroissants sans repos, la récompense peut décroître à chaque tour pourtoutes les actions. Cela modélise des situations différentes telles que le vieillissementdu contenu dans un système de recommandation. On montre que les algorithmes conçuspour le problème "au repos" atteignent les bornes inférieures agnostiques au problèmeet une borne dépendante du problème O(logT). Cette dernière est inatteignable dans lecas général où la récompense peut croître. Nous concluons : l’hypothèse de décroissancesimplifie l’apprentissage des bandits sans repos.Viser le sujet le moins connu peut être intéressant avant un examen, mais pendant lecursus - quand tous les sujets ne sont pas bien compris - cela peut mener à l’échec del’apprentissage de l’étudiant. On étudie un Processus de Décision Markovien PartiellementObservable (POMDP, selon l’acronyme anglais) dans lequel on cherche à maîtriser le plusde sujets le plus rapidement possible. On montre que sous des hypothèses raisonnablessur l’apprentissage de l’élève, la meilleure stratégie oracle sélectionne le sujet le plusconnu sous le seuil de maîtrise. Puisque cet oracle optimal n’a pas besoin de connaîtrela dynamique de transition du POMDP, nous proposons une stratégie apprenante avecdes outils "bandits" classiques, en évitant ainsi les méthodes gourmandes en données del’apprentissage de POMDP

    Sequential machine learning for intelligent tutoring systems

    No full text
    Proposer des séquences adaptatives d’exercices dans un Environnement informatique pourl’Apprentissage Humain (EIAH) nécessite de caractériser les lacunes de l’élève et d’utilisercette caractérisation dans une stratégie pédagogique adaptée. Puisque les élèves ne fontque quelques dizaines de questions dans une session de révision, ces deux objectifs sonten compétition. L’apprentissage automatique appelle problème de bandits ces dilemmesd’exploration-exploitation dans les prises de décisions séquentielles. Dans cette thèse,nous étudions trois problèmes de bandits pour une application dans les systèmes éducatifsadaptatifs.Les bandits décroissants au repos sont un problème de décision séquentiel dans lequel larécompense associée à une action décroît lorsque celle-ci est sélectionnée. Cela modélisele cas où un élève progresse quand il travaille et l’EIAH cherche à sélectionner le sujetle moins maîtrisé pour combler les plus fortes lacunes. Nous présentons de nouveauxalgorithmes et nous montrons que pour un horizon inconnu T et sans aucune connaissancesur la décroissance des K bras, ces algorithmes atteignent une borne de regret dépendantedu problème O(logT); et une borne indépendante du problème Oe(pKT). Nos résultatsaméliorent substantiellement l’état de l’art, ou seule une borne minimax Oe(K1=3T2=3) avaitété atteinte. Ces nouvelles bornes sont à des facteurs polylog des bornes optimales sur leproblème stationnaire, donc nous concluons : les bandits décroissants ne sont pas plus dursque les bandits stationnaires.Dans les bandits décroissants sans repos, la récompense peut décroître à chaque tour pourtoutes les actions. Cela modélise des situations différentes telles que le vieillissementdu contenu dans un système de recommandation. On montre que les algorithmes conçuspour le problème "au repos" atteignent les bornes inférieures agnostiques au problèmeet une borne dépendante du problème O(logT). Cette dernière est inatteignable dans lecas général où la récompense peut croître. Nous concluons : l’hypothèse de décroissancesimplifie l’apprentissage des bandits sans repos.Viser le sujet le moins connu peut être intéressant avant un examen, mais pendant lecursus - quand tous les sujets ne sont pas bien compris - cela peut mener à l’échec del’apprentissage de l’étudiant. On étudie un Processus de Décision Markovien PartiellementObservable (POMDP, selon l’acronyme anglais) dans lequel on cherche à maîtriser le plusde sujets le plus rapidement possible. On montre que sous des hypothèses raisonnablessur l’apprentissage de l’élève, la meilleure stratégie oracle sélectionne le sujet le plusconnu sous le seuil de maîtrise. Puisque cet oracle optimal n’a pas besoin de connaîtrela dynamique de transition du POMDP, nous proposons une stratégie apprenante avecdes outils "bandits" classiques, en évitant ainsi les méthodes gourmandes en données del’apprentissage de POMDP.Designing an adaptive sequence of exercises in Intelligent Tutoring Systems (ITS) requiresto characterize the gaps of the student and to use this characterization in a relevantpedagogical strategy. Since a student does no more than a few tens of exercises in a session,these two objectives compete. Machine learning called these exploration-exploitationtrade-offs in sequential decision making the bandits problems. In this thesis, we studydifferent bandits setups for intelligent tutoring systems.The rested rotting bandits are a sequential decision problem in which the reward associatedwith an action may decrease when it is selected. It models the situation where the studentimproves when he works and the ITS aims the least known subject to fill the most importantgaps. We design new algorithms and we prove that for an unknown horizon T, and withoutany knowledge on the decreasing behavior of the K arms, these algorithms achieve problemdependentregret bound of O(logT); and a problem-independent one of Oe(pKT). Ourresult substantially improves over existing algorithms, which suffers minimax regretOe(K1=3T2=3). These bounds are at a polylog factor of the optimal bounds on the classicalstationary bandit; hence our conclusion: rotting bandits are not harder than stationary ones.In the restless rotting bandits, the reward may decrease at each round for all the actions.They model different situations such as the obsolescence of content in recommendersystems. We show that the rotting algorithms designed for the rested case match theproblem-independent lower bounds and a O(logT) problem-dependent one. The latter wasshown to be unachievable in the general case where rewards can increase. We conclude:the rotting assumption makes the restless bandits easier.Targeting the least known topic may be interesting before an exam but during the curriculum- when all the subjects are not yet understood - it can lead to failure in the learning of thestudent. We study a Partially Observable Markov Decision Process in which we aim atmastering as many topics as fast as possible. We show that under relevant assumptions onthe learning of the student, the best oracle policy targets the most known topic under themastery threshold. Since this optimal oracle does not need to know the transition dynamicsof the POMDP, we design a learning policy with classical bandits tools, hence avoidingthe data-intensive methods of POMDP learning

    Blocs nuls dans la hiérarchie mémoire

    No full text
    La hiérarchie mémoire subit une pression qui ne cesse de croître. Cette pression a eu pour origine la montée en fréquence des processeurs. Cependant, maintenant que la fréquence stagne autour de 3 GHz, le nombre de cœurs d'exécution et donc le nombre de processus s'exécutant simultanément augmentent à leur tour. La hiérarchie mémoire subit alors un nombre croissant de requêtes, conduisant à la saturation de sa bande passante. Les travaux présentés dans cette thèse montrent que la hiérarchie mémoire est souvent utilisée pour transporter des blocs de données totalement nuls. Ces blocs de valeur triviale se trouvent particulièrement nombreux au dernier niveau de cache et au niveau de la mémoire principale. Nous proposons dans ce document d'utiliser un cache spécialisé dans la gestion de ces blocs nuls, le Zero-Content Augmented Cache. Ce dernier est composé d'un cache traditionnel et d'un cache dédié aux blocs nuls. Cette proposition permet à la fois d'augmenter les performances globales du système et de réduire significativement la bande passante mémoire utilisée. Dans ce document, nous proposons également une architecture de mémoire compressée utilisant la présence de blocs nuls, la Decoupled Zero-Compressed Memory. Cette mémoire permet de stocker un working-set plus grand que la taille de la mémoire physique, et donc de réduire significativement le nombre d'accès aux périphériques de stockage de masse.The memory hierarchy undergoes a growing pressure. This pressure has been due to the increasing frequency of the processors. However, now that the frequency stays around 3 GHz, the number of execution cores and thus the number of processes running simultaneously are increasing. The growing number of requests handled by the memory hierarchy leads to bandwidth saturation. This study shows that the memory hierarchy is often used to transport null data blocks. These trivial value blocks are particularly numerous in the last level cache and in the main memory. We propose in this thesis to use the Zero-Content Augmented Cache, a cache specialized in the management of these null blocks. It consists of a traditional cache and a cache dedicated to null blocks. This proposal allows increasing overall system performance and significantly reducing memory bandwidth usage. In this document, we also propose a compressed memory architecture using the null blocks, the Decoupled Zero-Compressed Memory. This compressed memory can store a working-set greater than the size of the physical memory, and thus significantly reduce the number of accesses to the mass storage devices.RENNES1-BU Sciences Philo (352382102) / SudocSudocFranceF

    Decoupled Zero-Compressed Memory

    Get PDF
    For each computer system generation, there are always applications or workloads for which the main memory size is the major limitation. On the other hand, in many cases, one could free a very significant portion of the memory space by storing data in a compressed form. Therefore, a hardware compressed memory is an attractive way to artificially increase the amount of data accessible in a reasonable delay. Among the data that are highly compressible are null data blocks. Previous work has shown that, on many applications null blocks represent a significant fraction of the working set resident in main memory. We propose to leverage this property through the use of a hardware compressed memory that only targets null data blocks, the decoupled zero-compressed memory. Borrowing ideas from the decoupled sectored cache [12] and the zero-content augmented cache [7], the decoupled zero-compressed memory, or DZC memory, manages the main memory as a decoupled sectored set-associative cache where null blocks are only represented by a validity bit. Our experiments show that for many applications, the DZC memory allows to artificially enlarge the main memory, i.e. it reduces the effective physical memory size needed to accommodate the working set of an application without excessive page swapping. Moreover, the DZC memory can be associated with a zero-content augmented cache to manage null blocks across the whole memory hierarchy. On some applications, such a management significantly decreases the memory traffic and therefore can significantly improve performance.
    corecore