5 research outputs found
BERTIN: Efficient Pre-Training of a Spanish Language Model using Perplexity Sampling
The pre-training of large language models usually requires massive amounts of
resources, both in terms of computation and data. Frequently used web sources
such as Common Crawl might contain enough noise to make this pre-training
sub-optimal. In this work, we experiment with different sampling methods from
the Spanish version of mC4, and present a novel data-centric technique which we
name that enables the pre-training of language
models in roughly half the amount of steps and using one fifth of the data. The
resulting models are comparable to the current state-of-the-art, and even
achieve better results for certain tasks. Our work is proof of the versatility
of Transformers, and paves the way for small teams to train their models on a
limited budget. Our models are available at this
.Comment: Published at Procesamiento del Lenguaje Natura
BERTIN: Preentrenamiento eficiente de un modelo de lenguaje en español usando muestreo de perplejidad
The pre-training of large language models usually requires massive amounts of resources, both in terms of computation and data. Frequently used web sources such as Common Crawl might contain enough noise to make this pretraining sub-optimal. In this work, we experiment with different sampling methods from the Spanish version of mC4, and present a novel data-centric technique which we name perplexity sampling that enables the pre-training of language models in roughly half the amount of steps and using one fifth of the data. The resulting models are comparable to the current state-of-the-art, and even achieve better results for certain tasks. Our work is proof of the versatility of Transformers, and paves the way for small teams to train their models on a limited budget.El preentrenamiento de grandes modelos de lenguaje generalmente requiere cantidades masivas de recursos, tanto en términos de computación como de datos. Las fuentes web comúnmente usadas, como Common Crawl, pueden contener el suficiente ruido para que el preentrenamiento no sea óptimo. En este trabajo experimentamos con diferentes métodos de muestreo de la versión en español de mC4 y presentamos una técnica novedosa centrada en datos que llamamos muestreo de perplejidad y que permite el preentrenamiento de modelos de lenguaje en aproximadamente la mitad de pasos, y con una quinta parte de los datos normalmente necesarios. Los modelos obtenidos logran resultados comparables e incluso superan el estado del arte para ciertas tareas. Nuestro trabajo es una muestra de la versatilidad de los modelos Transformers en cuanto a aprendizaje práctico y allana el camino para que otros equipos pequeños entrenen sus modelos con un presupuesto limitado.This project was made possible thanks to the Flax/Jax Community Week organized by HuggingFace, and sponsored by Google Cloud, which provided free credits for the use of their TPUs
Sapientia, 1980, Vol. XXXV, nÂş 137-138 (nĂşmero completo)
Contenido: PresentaciĂłn / Guillermo P. Blanco – Mons. Dr. Octavio Nicolás Derisi – La obra escrita de Mons. Dr. O. N. Derisi – El pensamiento filosĂłfico de Octavio Nicolás Derisi / JosĂ© M. de Estrada – Los “humanismos” y el humanismo cristiano / Alberto Caturelli – Presencia y lugar de la nada en la filosofĂa del ser / Cesáreo LĂłpez Salgado – Ciencia polĂtica y teologĂa / Benito Raffo Magnasco – Los problemas epistemolĂłgicos del hombre / Juan A. CasaubĂłn – Realidad y transrealidad de la obra de arte / Carmen Balzer – Tres dĂ©cadas de estudios plotinianos / Francisco GarcĂa Bazán --- Hacia una ontologĂa de la persona / JosĂ© R. Sanabria – La querella antropolĂłgica del siglo XIII (Sigerio y Santo Tomás) / Marcelo Sánchez Sorondo – Problemas de la analogĂa / Luigui Bogliolo – Originalidad cristiana de la filosofĂa (en conmemoraciĂłn del centenario de la encĂclica “Aeterni Patris”) / Stanislav Ladusans – Las motivaciones del ateĂsmo / Victorino RodrĂguez – La teologĂa moral desde la encĂclica “Aeterni Patris” / TeĂłfilo Urdánoz -- ÂżQuĂ© es la conciencia habitual? / R. GarcĂa de Haro – Sobre las virtudes morales / MarĂa de la Luz G. Alonso – La libertad polĂtica en perspectiva filosĂłfica / JosĂ© P. Galvao de Souza – El bien comĂşn, la persona y la sociedad civil / Carlos Cardona – El derecho como manifestaciĂłn del “ser” / Francisco E. Trusso – Fundamento y esencia de la politosofĂa / AgustĂn Basave F. del Valle – Francisco Zumel, excelente intĂ©rprete y acĂ©rrimo defensor de Santo Tomás / Emilio Silva – El concepto de orden / Juan JosĂ© Sanguinetti – El conocimiento del ser y el acceso a la metafĂsica / LeĂłn Elders – El estudio de Santo Tomás en el magisterio de Juan Pablo II / Luis Clavell – La individuaciĂłn de las substancias materiales en Averroes y Santo Tomás / Alfonso GarcĂa MarquĂ©s – El principio de la sindĂ©resis : fuentes y funciĂłn en la Ă©tica de Tomás de Aquino / Vernon J. Bourque – La metafĂsica y las ciencias del hombre / Gustavo E. Ponferrada – MetafĂsica y concepciĂłn del mundo : A propĂłsito del problema filosĂłfico de la evoluciĂłn en una perspectiva tomista / Joseph de Financ
Sapientia, 1980, Vol. XXXV, nÂş 137-138 (nĂşmero completo)
Contenido: PresentaciĂłn / Guillermo P. Blanco – Mons. Dr. Octavio Nicolás Derisi – La obra escrita de Mons. Dr. O. N. Derisi – El pensamiento filosĂłfico de Octavio Nicolás Derisi / JosĂ© M. de Estrada – Los “humanismos” y el humanismo cristiano / Alberto Caturelli – Presencia y lugar de la nada en la filosofĂa del ser / Cesáreo LĂłpez Salgado – Ciencia polĂtica y teologĂa / Benito Raffo Magnasco – Los problemas epistemolĂłgicos del hombre / Juan A. CasaubĂłn – Realidad y transrealidad de la obra de arte / Carmen Balzer – Tres dĂ©cadas de estudios plotinianos / Francisco GarcĂa Bazán --- Hacia una ontologĂa de la persona / JosĂ© R. Sanabria – La querella antropolĂłgica del siglo XIII (Sigerio y Santo Tomás) / Marcelo Sánchez Sorondo – Problemas de la analogĂa / Luigui Bogliolo – Originalidad cristiana de la filosofĂa (en conmemoraciĂłn del centenario de la encĂclica “Aeterni Patris”) / Stanislav Ladusans – Las motivaciones del ateĂsmo / Victorino RodrĂguez – La teologĂa moral desde la encĂclica “Aeterni Patris” / TeĂłfilo Urdánoz -- ÂżQuĂ© es la conciencia habitual? / R. GarcĂa de Haro – Sobre las virtudes morales / MarĂa de la Luz G. Alonso – La libertad polĂtica en perspectiva filosĂłfica / JosĂ© P. Galvao de Souza – El bien comĂşn, la persona y la sociedad civil / Carlos Cardona – El derecho como manifestaciĂłn del “ser” / Francisco E. Trusso – Fundamento y esencia de la politosofĂa / AgustĂn Basave F. del Valle – Francisco Zumel, excelente intĂ©rprete y acĂ©rrimo defensor de Santo Tomás / Emilio Silva – El concepto de orden / Juan JosĂ© Sanguinetti – El conocimiento del ser y el acceso a la metafĂsica / LeĂłn Elders – El estudio de Santo Tomás en el magisterio de Juan Pablo II / Luis Clavell – La individuaciĂłn de las substancias materiales en Averroes y Santo Tomás / Alfonso GarcĂa MarquĂ©s – El principio de la sindĂ©resis : fuentes y funciĂłn en la Ă©tica de Tomás de Aquino / Vernon J. Bourque – La metafĂsica y las ciencias del hombre / Gustavo E. Ponferrada – MetafĂsica y concepciĂłn del mundo : A propĂłsito del problema filosĂłfico de la evoluciĂłn en una perspectiva tomista / Joseph de Financ
Sapientia, 1980, Vol. XXXV, nÂş 137-138 (nĂşmero completo)
Contenido: PresentaciĂłn / Guillermo P. Blanco – Mons. Dr. Octavio Nicolás Derisi – La obra escrita de Mons. Dr. O. N. Derisi – El pensamiento filosĂłfico de Octavio Nicolás Derisi / JosĂ© M. de Estrada – Los “humanismos” y el humanismo cristiano / Alberto Caturelli – Presencia y lugar de la nada en la filosofĂa del ser / Cesáreo LĂłpez Salgado – Ciencia polĂtica y teologĂa / Benito Raffo Magnasco – Los problemas epistemolĂłgicos del hombre / Juan A. CasaubĂłn – Realidad y transrealidad de la obra de arte / Carmen Balzer – Tres dĂ©cadas de estudios plotinianos / Francisco GarcĂa Bazán --- Hacia una ontologĂa de la persona / JosĂ© R. Sanabria – La querella antropolĂłgica del siglo XIII (Sigerio y Santo Tomás) / Marcelo Sánchez Sorondo – Problemas de la analogĂa / Luigui Bogliolo – Originalidad cristiana de la filosofĂa (en conmemoraciĂłn del centenario de la encĂclica “Aeterni Patris”) / Stanislav Ladusans – Las motivaciones del ateĂsmo / Victorino RodrĂguez – La teologĂa moral desde la encĂclica “Aeterni Patris” / TeĂłfilo Urdánoz -- ÂżQuĂ© es la conciencia habitual? / R. GarcĂa de Haro – Sobre las virtudes morales / MarĂa de la Luz G. Alonso – La libertad polĂtica en perspectiva filosĂłfica / JosĂ© P. Galvao de Souza – El bien comĂşn, la persona y la sociedad civil / Carlos Cardona – El derecho como manifestaciĂłn del “ser” / Francisco E. Trusso – Fundamento y esencia de la politosofĂa / AgustĂn Basave F. del Valle – Francisco Zumel, excelente intĂ©rprete y acĂ©rrimo defensor de Santo Tomás / Emilio Silva – El concepto de orden / Juan JosĂ© Sanguinetti – El conocimiento del ser y el acceso a la metafĂsica / LeĂłn Elders – El estudio de Santo Tomás en el magisterio de Juan Pablo II / Luis Clavell – La individuaciĂłn de las substancias materiales en Averroes y Santo Tomás / Alfonso GarcĂa MarquĂ©s – El principio de la sindĂ©resis : fuentes y funciĂłn en la Ă©tica de Tomás de Aquino / Vernon J. Bourque – La metafĂsica y las ciencias del hombre / Gustavo E. Ponferrada – MetafĂsica y concepciĂłn del mundo : A propĂłsito del problema filosĂłfico de la evoluciĂłn en una perspectiva tomista / Joseph de Financ