22 research outputs found

    Lemmatization and grammatical annotation of the Corpus Histórico Judeoespañol (CORHIJE): problems, solutions, and resolutions

    Get PDF
    Tras un breve repaso de las características más sobresalientes del Corpus Histórico Judeoespañol - CORHIJE —a modo de recordatorio, pues ya fue presentado en la III edición del Congreso de Corpus Diacrónicos en lenguas Iberorrománicas (CODILI) en 2014 en Zurich—, mostraremos el proceso de lematización y etiquetado gramatical que se está llevando a cabo sobre el mismo, pasando revista a los distintos problemas detectados y a las soluciones aplicadas durante el mismo que, en algunos casos, nos han obligado a tomar resoluciones, relativamente arbitrarias, en función de los objetivos de descripción y análisis perseguidos: problemas, soluciones y resoluciones que amplifican el título de nuestra presentación.Tras un breve repaso de las características más sobresalientes del Corpus Histórico Judeoespañol - CORHIJE —a modo de recordatorio, pues ya fue presentado en la III edición del Congreso de Corpus Diacrónicos en lenguas Iberorrománicas (CODILI) en 2014 en Zurich—, mostraremos el proceso de lematización y etiquetado gramatical que se está llevando a cabo sobre el mismo, pasando revista a los distintos problemas detectados y a las soluciones aplicadas durante el mismo que, en algunos casos, nos han obligado a tomar resoluciones, relativamente arbitrarias, en función de los objetivos de descripción y análisis perseguidos: problemas, soluciones y resoluciones que amplifican el título de nuestra presentación.Tras un breve repaso de las características más sobresalientes del Corpus Histórico Judeoespañol - CORHIJE —a modo de recordatorio, pues ya fue presentado en la III edición del Congreso de Corpus Diacrónicos en lenguas Iberorrománicas (CODILI) en 2014 en Zurich—, mostraremos el proceso de lematización y etiquetado gramatical que se está llevando a cabo sobre el mismo, pasando revista a los distintos problemas detectados y a las soluciones aplicadas durante el mismo que, en algunos casos, nos han obligado a tomar resoluciones, relativamente arbitrarias, en función de los objetivos de descripción y análisis perseguidos: problemas, soluciones y resoluciones que amplifican el título de nuestra presentación.After a brief review of the most salient features of the Corpus Histórico Judeoespañol - CORHIJE —which was already presented at the 3rd Edition of the Congreso de Corpus Diacrónicos en lenguas Iberorrománicas (CODILI, Zurich 2014)—, this paper describes the ongoing process of lemmatization and grammatical annotation of the corpus. We focus on describing the challenges we have encountered during the annotation process and the solutions we have applied to them, which, in some cases, have led us to take relatively arbitrary resolutions in accordance with the description and analysis goals we were trying to achieve: problems, solutions, and resolutions that amplify the title of our presentation

    Etiquetado gramatical y lematización en el Corpus Histórico Judeoespañol (CORHIJE) : problemas, soluciones y resoluciones

    Get PDF
    Tras un breve repaso de las características más sobresalientes del Corpus Histórico Judeoespañol - CORHIJE -a modo de recordatorio, pues ya fue presentado en la III edición del Congreso de Corpus Diacrónicos en lenguas Iberorrománicas (CODILI) en 2014 en Zurich-, mostraremos el proceso de lematización y etiquetado gramatical que se está llevando a cabo sobre el mismo, pasando revista a los distintos problemas detectados y a las soluciones aplicadas durante el mismo que, en algunos casos, nos han obligado a tomar resoluciones, relativamente arbitrarias, en función de los objetivos de descripción y análisis perseguidos: problemas, soluciones y resoluciones que amplifican el título de nuestra presentación.After a brief review of the most salient features of the Corpus Histórico Judeoespañol - CORHIJE -which was already presented at the 3rd Edition of the Congreso de Corpus Diacrónicos en lenguas Iberorrománicas (CODILI, Zurich 2014)-, this paper describes the ongoing process of lemmatization and grammatical annotation of the corpus. We focus on describing the challenges we have encountered during the annotation process and the solutions we have applied to them, which, in some cases, have led us to take relatively arbitrary resolutions in accordance with the description and analysis goals we were trying to achieve: problems, solutions, and resolutions that amplify the title of our presentation

    Innovación y tradición en el léxico de las traducciones bíblicas castellanas medievales: el uso de cultismos y voces patrimoniales en las versiones del siglo XV

    Get PDF
    This paper analyses the variation in the use of learned vocabulary as well as other lexical and morphological innovations in four Spanish medieval translations of the Hebrew Bible composed during the fifteenth century. In order to do so, we analyze a selection of Hebrew lemmas and their corresponding Spanish translations, as well as the distribution of a number of derivational morphology phenomena. Our goal is to determine, through a quantitative and qualitative comparison of the Romance variants used by the translators, the distribution of traditional vernacular lexicon and learned innovations. Our results show that while the Arragel Bible and the Bible of the Marques de Santillana are immersed in the early fifteenth century trend of incorporating learned and latinate structures, other traditional texts, such as the Bible E3, do not use such words. The Bible E5/E7, on the other hand, lays somewhere between those two types as it exhibits some of the traditional lexical options, as the E3 translation, but also incorporates a small number of learned words, although to a lesser extent than the Arragel and Santillana Bibles.En este trabajo se aborda el uso de cultismos y otras innovaciones léxicas y morfológicas en los cuatro romanceamientos medievales completos de la Biblia hebrea compuestos en el siglo XV. Para ello se analiza una selección de lemas hebreos y de sus traducciones castellanas correspondientes, así como la distribución de ciertos fenómenos de morfología derivativa. El objetivo es determinar, mediante la comparación cuantitativa y cualitativa de las soluciones romances empleadas, el reparto de léxico vernáculo tradicional frente a innovaciones cultas. Nuestros resultados muestran que mientras la Biblia de Arragel y la Biblia del Marqués de Santillana se muestran inmersas en la tendencia de principios del siglo XV hacia el uso de cultismos y estructuras latinizantes, los textos más tradicionales, como la Biblia E3, no los presentan de forma apreciable. La Biblia E5/E7, por otro lado, queda a medio camino respecto del resto de las versiones, haciendo uso por lo general de opciones tradicionales en la línea de E3, pero incorporando igualmente voces cultas aunque en menor medida que las Biblias de Santillana y de Arragel

    El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales : lematización y etiquetado gramatical

    Get PDF
    Este trabajo expone los aspectos relacionados con el procesamiento de las formas, lemas, análisis gramatical y textos en el Old Spanish Textual Archive (OSTA), un corpus lingüístico de más de 32 millones de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales escritos en castellano, asturiano, leonés, navarro-aragonés y aragonés realizadas por los colaboradores del Hispanic Seminary of Medieval Studies (HSMS). Se describe además el proceso de etiquetado y lematización mediante el uso de Freeling, una herramienta de Procesamiento del Lenguaje Natural, y de HSMS-app, una herramienta de análisis textual desarrollada para este proyecto.This paper presents aspects related to the processing of forms, lemmas, grammatical analysis and texts in the Old Spanish Textual Archive (OSTA), a linguistic corpus of more than 32 million words, based on the more than 400 semipaleographic transcriptions of medieval texts written in Castilian, Asturian, Leonese, Navarro-Aragonese and Aragonese prepared by the collaborators of the Hispanic Seminary of Medieval Studies (HSMS). It also describes the process of tagging and lemmatization using Freeling, a Natural Language Processing tool, and HSMS-app, a textual analysis tool developed for this project

    Estudios sefardíes dedicados a la memoria de Iacob M. Hassán (ź"l)

    Get PDF
    Elena Romero y Aitor García Moreno son los editores de este volumen.[EN] This work aims to honour Iacob. M. Hassán, who set up, promoted, and for decades maintained, the CSIC's School of Sephardic studies (Escuela de Estudios Sefardíes) in Madrid. It comprises a collection of articles on the Jews in the medieval Spanish kingdoms, along with other articles on a wide variety of language issues, and the study and publication of literary works produced or handed down by the Sephardim of the Balkans and Morocco between the sixteenth and the twentieth centuries, such as biblical commentaries and lexicons, liturgical poetry, rabbinic literature, biographies, folk tales, popular folk songs, ballads, and modern songs ... These studies also include an article by Iacob. M. Hassán published here for the first time in the form of a facsimile of his original typed manuscript. The work is preceded by a foreword and an unpublished text of one of his lectures, which contains a wealth of autobiographical information, as well as his views on the vicissitudes of Sephardic Studies as an academic discipline.[ES] Con esta obra se quiere honrar al creador, impulsor y mantenedor durante decenios de la llamada Escuela de Estudios Sefardíes del CSIC (Madrid). Se recogen en ella artículos relativos a los judíos en los reinos hispanos medievales, y otros dedicados a muy variados temas de lengua, y al estudio y edición de obras literarias producidas o transmitidas por los sefardíes de los Balcanes y de Marruecos entre el siglo XVI y el XX: comentarios y léxicos bíblicos, poesía litúrgica, literatura rabínica, biografías, cuentos tradicionales, coplas, romances, cancionero moderno, etc., etc. Entre los estudios se incluye además, como primicia, un artículo mecanografiado de Iacob. M. Hassán que se publica por primera vez en edición facsímil. La obra va precedida de un Prólogo y del texto inédito de una de sus conferencias, en la que aporta numerosos datos autobiográficos, así como su visión sobre los avatares de los Estudios Sefardíes como disciplina académica

    Homenaje a Elena Romero

    Get PDF
    Edición a cargo de Aitor García MorenoEste volumen no quiere ser sino, desde el punto de vista del contenido, representación del sefardismo en la actualidad en sus múltiples facetas, con estudios que den muestra de su admirable variedad como campo de estudios, muestra asimismo de la increíble experiencia y peripecia vital de un grupo cultural como el de los judeoespañoles.Este volumen es un resultado más del proyecto «Sefarad, siglo XXI (2009-2011): Edición y estudio filológico de textos sefardíes» del Plan Nacional de I+D+I (ref. FFI2009-10672).Peer reviewe

    El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales: el corpus textual.

    No full text
    In this paper we offer a brief historical overview of the development of OSTA, from the initial idea (Nitti 1978) to the Biblioteca Digital de Textos del Español Antiguo (Gago Jover 2015), its most recent precedent. We also discuss the problems encountered and the proposed solutions for the processing of transcriptions, codices and worksEn este trabajo ofrecemos un breve panorama histórico del desarrollo de OSTA, desde la idea inicial (Nitti 1978) hasta la Biblioteca Digital de Textos del Español Antiguo (Gago Jover 2015), su más reciente precedente. Exponemos además los problemas encontrados y las soluciones propuestas para el procesado de transcripciones, códices y obras

    Etiquetado gramatical y lematización en el Corpus Histórico Judeoespañol (CORHIJE) : problemas, soluciones y resoluciones

    No full text
    Tras un breve repaso de las características más sobresalientes del Corpus Histórico Judeoespañol - CORHIJE -a modo de recordatorio, pues ya fue presentado en la III edición del Congreso de Corpus Diacrónicos en lenguas Iberorrománicas (CODILI) en 2014 en Zurich-, mostraremos el proceso de lematización y etiquetado gramatical que se está llevando a cabo sobre el mismo, pasando revista a los distintos problemas detectados y a las soluciones aplicadas durante el mismo que, en algunos casos, nos han obligado a tomar resoluciones, relativamente arbitrarias, en función de los objetivos de descripción y análisis perseguidos: problemas, soluciones y resoluciones que amplifican el título de nuestra presentación.After a brief review of the most salient features of the Corpus Histórico Judeoespañol - CORHIJE -which was already presented at the 3rd Edition of the Congreso de Corpus Diacrónicos en lenguas Iberorrománicas (CODILI, Zurich 2014)-, this paper describes the ongoing process of lemmatization and grammatical annotation of the corpus. We focus on describing the challenges we have encountered during the annotation process and the solutions we have applied to them, which, in some cases, have led us to take relatively arbitrary resolutions in accordance with the description and analysis goals we were trying to achieve: problems, solutions, and resolutions that amplify the title of our presentation

    El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales : lematización y etiquetado gramatical

    No full text
    Este trabajo expone los aspectos relacionados con el procesamiento de las formas, lemas, análisis gramatical y textos en el Old Spanish Textual Archive (OSTA), un corpus lingüístico de más de 32 millones de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales escritos en castellano, asturiano, leonés, navarro-aragonés y aragonés realizadas por los colaboradores del Hispanic Seminary of Medieval Studies (HSMS). Se describe además el proceso de etiquetado y lematización mediante el uso de Freeling, una herramienta de Procesamiento del Lenguaje Natural, y de HSMS-app, una herramienta de análisis textual desarrollada para este proyecto.This paper presents aspects related to the processing of forms, lemmas, grammatical analysis and texts in the Old Spanish Textual Archive (OSTA), a linguistic corpus of more than 32 million words, based on the more than 400 semipaleographic transcriptions of medieval texts written in Castilian, Asturian, Leonese, Navarro-Aragonese and Aragonese prepared by the collaborators of the Hispanic Seminary of Medieval Studies (HSMS). It also describes the process of tagging and lemmatization using Freeling, a Natural Language Processing tool, and HSMS-app, a textual analysis tool developed for this project
    corecore