69 research outputs found

    Tecnoloxías da lingua galega e normalización lingüística

    Get PDF

    P. S. Post Scriptum: Two Diachronic Corpora of Ordinary Writing

    Get PDF
    En este trabajo se da a conocer el proyecto de investigación P. S. Post Scriptum, que tiene por objeto la búsqueda sistemática, edición y estudio histórico-lingüístico de cartas privadas escritas en España y Portugal durante la Edad Moderna. Estas cartas constituyen manuscritos inéditos escritos por personas de muy diferente condición social y suelen presentar una retórica cercana a la oralidad, tematizando asuntos de lo cotidiano. Son, por tanto, de gran interés para la investigación en lingüística diacrónica. La finalidad del proyecto es publicar y estudiar 7000 de estas cartas, ofreciendo una edición crítica digital del manuscrito y, simultáneamente, convirtiendo el contenido de las cartas en dos corpus anotados de un millón de palabras cada uno: uno para el español y otro para el portugués.In this paper, we present an overall description of P. S. Post Scriptum. Within this research project, systematic research will be developed, along with the publishing and historical-linguistic study of private letters written in Portugal and Spain along the Modern Ages. The letters included in P. S. Post Scriptum are unpublished manuscripts, written by authors from different social backgrounds. In addition, these textual resources often present an (almost) oral rhetoric, treating everyday issues of past centuries. They are, therefore, of great interest for research in Diachronic Linguistics. We aim to publish and study 7,000 of those letters. For this purpose, we are preparing a scholarly digital edition of the manuscripts and, simultaneously, converting the content of the letters into two annotated corpora of a million words each, one containing the Portuguese letters, the other the Spanish.El proyecto de investigación P. S. Post Scriptum está siendo financiado por el Consejo Europeo de Investigación (7FP/ERC Advanced Grant – GA 295562)

    P. S. Post Scriptum. Dos corpus diacrónicos de escritura cotidiana

    Get PDF
    En este trabajo se da a conocer el proyecto de investigación P. S. Post Scriptum, que tiene por objeto la búsqueda sistemática, edición y estudio histórico-lingüístico de cartas privadas escritas en España y Portugal durante la Edad Moderna. Estas cartas constituyen manuscritos inéditos escritos por personas de muy diferente condición social y suelen presentar una retórica cercana a la oralidad, tematizando asuntos de lo cotidiano. Son, por tanto, de gran interés para la investigación en lingüística diacrónica. La finalidad del proyecto es publicar y estudiar 7000 de estas cartas, ofreciendo una edición crítica digital del manuscrito y, simultáneamente, convirtiendo el contenido de las cartas en dos corpus anotados de un millón de palabras cada uno: uno para el español y otro para el portugués.In this paper, we present an overall description of P. S. Post Scriptum. Within this research project, systematic research will be developed, along with the publishing and historical-linguistic study of private letters written in Portugal and Spain along the Modern Ages. The letters included in P. S. Post Scriptum are unpublished manuscripts, written by authors from different social backgrounds. In addition, these textual resources often present an (almost) oral rhetoric, treating everyday issues of past centuries. They are, therefore, of great interest for research in Diachronic Linguistics. We aim to publish and study 7,000 of those letters. For this purpose, we are preparing a scholarly digital edition of the manuscripts and, simultaneously, converting the content of the letters into two annotated corpora of a million words each, one containing the Portuguese letters, the other the Spanish

    P. S. Post Scriptum. Dos corpus diacrónicos de escritura cotidiana

    Get PDF
    In this paper, we present an overall description of P. S. Post Scriptum. Within this research project, systematic research will be developed, along with the publishing and historical-linguistic study of private letters written in Portugal and Spain along the Modern Ages. The letters included in P. S. Post Scriptum are unpublished manuscripts, written by authors from different social backgrounds. In addition, these textual resources often present an (almost) oral rhetoric, treating everyday issues of past centuries. They are, therefore, of great interest for research in Diachronic Linguistics. We aim to publish and study 7,000 of those letters. For this purpose, we are preparing a scholarly digital edition of the manuscripts and, simultaneously, converting the content of the letters into two annotated corpora of a million words each, one containing the Portuguese letters, the other the Spanish.info:eu-repo/semantics/publishedVersio

    Evaluating machine translation in a low-resource language combination : Spanish-Galician

    Get PDF
    This paper reports the results of a study designed to assess the perception of adequacy of three different types of machine translation systems within the context of a minoritized language combination (Spanish-Galician). To perform this evaluation, a mixed design with three different metrics (BLEU, survey and error analysis) is used to extract quantitative and qualitative data about two marketing letters from the energy industry translated with a rulebased system (RBMT), a phrase-based system (PBMT) and a neural system (NMT). Results show that in the case of low-resource languages rule-based and phrase-based machine translations systems still play an important role

    Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA

    Get PDF
    A construción de recursos lingüísticos, entre os que se encontran os corpus ou bases de datos textuais, é necesaria en toda lingua para continuar profundando no seu coñecemento, mais tamén é fundamental para o procesamento da linguaxe natural. Nos últimos anos, ademais, as novas tecnoloxías xorden como un parámetro máis de clasificación das linguas en función da súa presenza ou ausencia nelas. Neste marco sitúase o presente traballo, onde se recollen e describen polo miúdo os diferentes recursos lingüísticos elaborados –etiquetario, lexicón e corpus de adestramento, basicamente– para que poida executarse con garantías dunha alta taxa de acerto un etiquetador de tipo estatístico-probabilístico como é o Etiquetador/Lematizador do galego actual (XIADA), aplicado aos documentos que conforman o Corpus de Referencia do Galego Actual (CORGA) –corpus considerado representativo da lingua galega actual, cuxas características lingüísticas constatan as dificultades de traballar con lingua real–. Coa etiquetaxe permítese dar un salto cualitativo no sistema de consultas, de xeito que se facilita a recuperación de información a través dunha aplicación web mediante a consulta por forma, lema, etiqueta morfosintáctica ou calquera combinación destas; co engadido, naturalmente, das prestacións do CORGA. O resultado palpable da aplicación do sistema XIADA á análise de corpus en galego pode consultarse en liña accedendo ao Corpus de Referencia do Galego Actual etiquetado (CORGAetq)

    Lingüística de corpus

    Get PDF
    Este artículo es una presentación general de la lingüística de corpus en el que se expone qué es un corpus lingüístico, qué relación tiene con otros tipos de datos, por qué es necesario anotarlo y cómo es el proceso de anotación. También se pasa revista a algunas de las tareas más comunes en la investigación lingüística basada en corpus, tales como la obtención de listados de frecuencias, la exploración de concordancias o la búsqueda de coapariciones (colocaciones) y otros tipos de información contextual. A lo largo del texto se intenta mostrar la relevancia de este tipo de datos para la teoría lingüística, en particular, para los modelos basados en el uso, como los cognitivos y funcionales.Este artículo es una presentación general de la lingüística de corpus en el que se exponequé es un corpus lingüístico, qué relación tiene con otros tipos de datos, por qué esnecesario anotarlo y cómo es el proceso de anotación. También se pasa revista a algunasde las tareas más comunes en la investigación lingüística basada en corpus, tales como laobtención de listados de frecuencias, la exploración de concordancias o la búsqueda decoapariciones (colocaciones) y otros tipos de información contextual. A lo largo del textose intenta mostrar la relevancia de este tipo de datos para la teoría lingüística, enparticular, para los modelos basados en el uso, como los cognitivos y funcionales.In this paper a general presentation of Corpus Linguistics is provided by explaining whata linguistic corpus is, how it is related to other types of data, why it is necessary toannotate it, and what the annotation process is like. Some of the more common tasks incorpus-based linguistic research are also reviewed, such as obtaining frequency lists,exploring concordances, or finding co-occurrences (collocations) and other types ofcontextual information. Throughout the text, an attempt is made to show the relevance ofthis type of data for linguistic theory, in particular for use-based models, such as thecognitive and functional ones

    Lingüística de corpus: de los datos textuales a la teoría lingüística

    Get PDF
    In this paper a general presentation of Corpus Linguistics is provided by explaining what a linguistic corpus is, how it is related to other types of data, why it is necessary to annotate it, and what the annotation process is like. Some of the more common tasks in corpus-based linguistic research are also reviewed, such as obtaining frequency lists, exploring concordances, or finding co-occurrences (collocations) and other types of contextual information. Throughout the text, an attempt is made to show the relevance of this type of data for linguistic theory, in particular for use-based models, such as the cognitive and functional ones.Este artículo es una presentación general de la lingüística de corpus en el que se expone qué es un corpus lingüístico, qué relación tiene con otros tipos de datos, por qué es necesario anotarlo y cómo es el proceso de anotación. También se pasa revista a algunas de las tareas más comunes en la investigación lingüística basada en corpus, tales como la obtención de listados de frecuencias, la exploración de concordancias o la búsqueda de coapariciones (colocaciones) y otros tipos de información contextual. A lo largo del texto se intenta mostrar la relevancia de este tipo de datos para la teoría lingüística, en particular, para los modelos basados en el uso, como los cognitivos y funcionales

    Aproximación a la lingüística computacional

    Get PDF
    520 p.Esta tesis surge con el objetivo de intentar dar respuesta, desde la perspectiva de la Lingüística, a una serie de preguntas básicas planteadas a raíz de una primera toma de contacto con el campo de la Lingüística Computacional. En primer lugar, buscando delimitar el objeto, finalidad, líneas de investigación e historia de la disciplina. En segundo lugar, analizando las implicaciones del tratamiento computacional del lenguaje a través de sus principales áreas de trabajo, así como algunas de las aplicaciones de la LC. Por último, incidiendo en uno de los aspectos que más interés han suscitado, el de la recopilación de grandes muestras textuales de uso de la lengua, o corpus. Todos estos puntos se han articulado en sendos materiales en línea que sirven desde hace algunos años como apoyo de la docencia de las asignaturas correspondientes de la licenciatura en Lingüística y que son de consulta libre para todos aquellos que quieran utilizarlo
    corecore