5 research outputs found

    BERTIN: Efficient Pre-Training of a Spanish Language Model using Perplexity Sampling

    Full text link
    The pre-training of large language models usually requires massive amounts of resources, both in terms of computation and data. Frequently used web sources such as Common Crawl might contain enough noise to make this pre-training sub-optimal. In this work, we experiment with different sampling methods from the Spanish version of mC4, and present a novel data-centric technique which we name perplexity sampling\textit{perplexity sampling} that enables the pre-training of language models in roughly half the amount of steps and using one fifth of the data. The resulting models are comparable to the current state-of-the-art, and even achieve better results for certain tasks. Our work is proof of the versatility of Transformers, and paves the way for small teams to train their models on a limited budget. Our models are available at this \href\href{https://huggingface.co/bertin-project}{URL}.Comment: Published at Procesamiento del Lenguaje Natura

    BERTIN: Preentrenamiento eficiente de un modelo de lenguaje en español usando muestreo de perplejidad

    No full text
    The pre-training of large language models usually requires massive amounts of resources, both in terms of computation and data. Frequently used web sources such as Common Crawl might contain enough noise to make this pretraining sub-optimal. In this work, we experiment with different sampling methods from the Spanish version of mC4, and present a novel data-centric technique which we name perplexity sampling that enables the pre-training of language models in roughly half the amount of steps and using one fifth of the data. The resulting models are comparable to the current state-of-the-art, and even achieve better results for certain tasks. Our work is proof of the versatility of Transformers, and paves the way for small teams to train their models on a limited budget.El preentrenamiento de grandes modelos de lenguaje generalmente requiere cantidades masivas de recursos, tanto en términos de computación como de datos. Las fuentes web comúnmente usadas, como Common Crawl, pueden contener el suficiente ruido para que el preentrenamiento no sea óptimo. En este trabajo experimentamos con diferentes métodos de muestreo de la versión en español de mC4 y presentamos una técnica novedosa centrada en datos que llamamos muestreo de perplejidad y que permite el preentrenamiento de modelos de lenguaje en aproximadamente la mitad de pasos, y con una quinta parte de los datos normalmente necesarios. Los modelos obtenidos logran resultados comparables e incluso superan el estado del arte para ciertas tareas. Nuestro trabajo es una muestra de la versatilidad de los modelos Transformers en cuanto a aprendizaje práctico y allana el camino para que otros equipos pequeños entrenen sus modelos con un presupuesto limitado.This project was made possible thanks to the Flax/Jax Community Week organized by HuggingFace, and sponsored by Google Cloud, which provided free credits for the use of their TPUs

    Sapientia, 1980, Vol. XXXV, nÂş 137-138 (nĂşmero completo)

    No full text
    Contenido: Presentación / Guillermo P. Blanco – Mons. Dr. Octavio Nicolás Derisi – La obra escrita de Mons. Dr. O. N. Derisi – El pensamiento filosófico de Octavio Nicolás Derisi / José M. de Estrada – Los “humanismos” y el humanismo cristiano / Alberto Caturelli – Presencia y lugar de la nada en la filosofía del ser / Cesáreo López Salgado – Ciencia política y teología / Benito Raffo Magnasco – Los problemas epistemológicos del hombre / Juan A. Casaubón – Realidad y transrealidad de la obra de arte / Carmen Balzer – Tres décadas de estudios plotinianos / Francisco García Bazán --- Hacia una ontología de la persona / José R. Sanabria – La querella antropológica del siglo XIII (Sigerio y Santo Tomás) / Marcelo Sánchez Sorondo – Problemas de la analogía / Luigui Bogliolo – Originalidad cristiana de la filosofía (en conmemoración del centenario de la encíclica “Aeterni Patris”) / Stanislav Ladusans – Las motivaciones del ateísmo / Victorino Rodríguez – La teología moral desde la encíclica “Aeterni Patris” / Teófilo Urdánoz -- ¿Qué es la conciencia habitual? / R. García de Haro – Sobre las virtudes morales / María de la Luz G. Alonso – La libertad política en perspectiva filosófica / José P. Galvao de Souza – El bien común, la persona y la sociedad civil / Carlos Cardona – El derecho como manifestación del “ser” / Francisco E. Trusso – Fundamento y esencia de la politosofía / Agustín Basave F. del Valle – Francisco Zumel, excelente intérprete y acérrimo defensor de Santo Tomás / Emilio Silva – El concepto de orden / Juan José Sanguinetti – El conocimiento del ser y el acceso a la metafísica / León Elders – El estudio de Santo Tomás en el magisterio de Juan Pablo II / Luis Clavell – La individuación de las substancias materiales en Averroes y Santo Tomás / Alfonso García Marqués – El principio de la sindéresis : fuentes y función en la ética de Tomás de Aquino / Vernon J. Bourque – La metafísica y las ciencias del hombre / Gustavo E. Ponferrada – Metafísica y concepción del mundo : A propósito del problema filosófico de la evolución en una perspectiva tomista / Joseph de Financ

    Sapientia, 1980, Vol. XXXV, nÂş 137-138 (nĂşmero completo)

    No full text
    Contenido: Presentación / Guillermo P. Blanco – Mons. Dr. Octavio Nicolás Derisi – La obra escrita de Mons. Dr. O. N. Derisi – El pensamiento filosófico de Octavio Nicolás Derisi / José M. de Estrada – Los “humanismos” y el humanismo cristiano / Alberto Caturelli – Presencia y lugar de la nada en la filosofía del ser / Cesáreo López Salgado – Ciencia política y teología / Benito Raffo Magnasco – Los problemas epistemológicos del hombre / Juan A. Casaubón – Realidad y transrealidad de la obra de arte / Carmen Balzer – Tres décadas de estudios plotinianos / Francisco García Bazán --- Hacia una ontología de la persona / José R. Sanabria – La querella antropológica del siglo XIII (Sigerio y Santo Tomás) / Marcelo Sánchez Sorondo – Problemas de la analogía / Luigui Bogliolo – Originalidad cristiana de la filosofía (en conmemoración del centenario de la encíclica “Aeterni Patris”) / Stanislav Ladusans – Las motivaciones del ateísmo / Victorino Rodríguez – La teología moral desde la encíclica “Aeterni Patris” / Teófilo Urdánoz -- ¿Qué es la conciencia habitual? / R. García de Haro – Sobre las virtudes morales / María de la Luz G. Alonso – La libertad política en perspectiva filosófica / José P. Galvao de Souza – El bien común, la persona y la sociedad civil / Carlos Cardona – El derecho como manifestación del “ser” / Francisco E. Trusso – Fundamento y esencia de la politosofía / Agustín Basave F. del Valle – Francisco Zumel, excelente intérprete y acérrimo defensor de Santo Tomás / Emilio Silva – El concepto de orden / Juan José Sanguinetti – El conocimiento del ser y el acceso a la metafísica / León Elders – El estudio de Santo Tomás en el magisterio de Juan Pablo II / Luis Clavell – La individuación de las substancias materiales en Averroes y Santo Tomás / Alfonso García Marqués – El principio de la sindéresis : fuentes y función en la ética de Tomás de Aquino / Vernon J. Bourque – La metafísica y las ciencias del hombre / Gustavo E. Ponferrada – Metafísica y concepción del mundo : A propósito del problema filosófico de la evolución en una perspectiva tomista / Joseph de Financ

    Sapientia, 1980, Vol. XXXV, nÂş 137-138 (nĂşmero completo)

    Get PDF
    Contenido: Presentación / Guillermo P. Blanco – Mons. Dr. Octavio Nicolás Derisi – La obra escrita de Mons. Dr. O. N. Derisi – El pensamiento filosófico de Octavio Nicolás Derisi / José M. de Estrada – Los “humanismos” y el humanismo cristiano / Alberto Caturelli – Presencia y lugar de la nada en la filosofía del ser / Cesáreo López Salgado – Ciencia política y teología / Benito Raffo Magnasco – Los problemas epistemológicos del hombre / Juan A. Casaubón – Realidad y transrealidad de la obra de arte / Carmen Balzer – Tres décadas de estudios plotinianos / Francisco García Bazán --- Hacia una ontología de la persona / José R. Sanabria – La querella antropológica del siglo XIII (Sigerio y Santo Tomás) / Marcelo Sánchez Sorondo – Problemas de la analogía / Luigui Bogliolo – Originalidad cristiana de la filosofía (en conmemoración del centenario de la encíclica “Aeterni Patris”) / Stanislav Ladusans – Las motivaciones del ateísmo / Victorino Rodríguez – La teología moral desde la encíclica “Aeterni Patris” / Teófilo Urdánoz -- ¿Qué es la conciencia habitual? / R. García de Haro – Sobre las virtudes morales / María de la Luz G. Alonso – La libertad política en perspectiva filosófica / José P. Galvao de Souza – El bien común, la persona y la sociedad civil / Carlos Cardona – El derecho como manifestación del “ser” / Francisco E. Trusso – Fundamento y esencia de la politosofía / Agustín Basave F. del Valle – Francisco Zumel, excelente intérprete y acérrimo defensor de Santo Tomás / Emilio Silva – El concepto de orden / Juan José Sanguinetti – El conocimiento del ser y el acceso a la metafísica / León Elders – El estudio de Santo Tomás en el magisterio de Juan Pablo II / Luis Clavell – La individuación de las substancias materiales en Averroes y Santo Tomás / Alfonso García Marqués – El principio de la sindéresis : fuentes y función en la ética de Tomás de Aquino / Vernon J. Bourque – La metafísica y las ciencias del hombre / Gustavo E. Ponferrada – Metafísica y concepción del mundo : A propósito del problema filosófico de la evolución en una perspectiva tomista / Joseph de Financ
    corecore