69 research outputs found
P. S. Post Scriptum: Two Diachronic Corpora of Ordinary Writing
En este trabajo se da a conocer el proyecto de investigación P. S. Post Scriptum, que tiene por objeto la búsqueda sistemática, edición y estudio histórico-lingüístico de cartas privadas escritas en España y Portugal durante la Edad Moderna. Estas cartas constituyen manuscritos inéditos escritos por personas de muy diferente condición social y suelen presentar una retórica cercana a la oralidad, tematizando asuntos de lo cotidiano. Son, por tanto, de gran interés para la investigación en lingüística diacrónica. La finalidad del proyecto es publicar y estudiar 7000 de estas cartas, ofreciendo una edición crítica digital del manuscrito y, simultáneamente, convirtiendo el contenido de las cartas en dos corpus anotados de un millón de palabras cada uno: uno para el español y otro para el portugués.In this paper, we present an overall description of P. S. Post Scriptum. Within this research project, systematic research will be developed, along with the publishing and historical-linguistic study of private letters written in Portugal and Spain along the Modern Ages. The letters included in P. S. Post Scriptum are unpublished manuscripts, written by authors from different social backgrounds. In addition, these textual resources often present an (almost) oral rhetoric, treating everyday issues of past centuries. They are, therefore, of great interest for research in Diachronic Linguistics. We aim to publish and study 7,000 of those letters. For this purpose, we are preparing a scholarly digital edition of the manuscripts and, simultaneously, converting the content of the letters into two annotated corpora of a million words each, one containing the Portuguese letters, the other the Spanish.El proyecto de investigación P. S. Post Scriptum está siendo financiado por el Consejo Europeo de Investigación (7FP/ERC Advanced Grant – GA 295562)
P. S. Post Scriptum. Dos corpus diacrónicos de escritura cotidiana
En este trabajo se da a conocer el proyecto de investigación P. S. Post Scriptum, que tiene por objeto la búsqueda sistemática, edición y estudio histórico-lingüístico de cartas privadas escritas en España y Portugal durante la Edad Moderna. Estas cartas constituyen manuscritos inéditos escritos por personas de muy diferente condición social y suelen presentar una retórica cercana a la oralidad, tematizando asuntos de lo cotidiano. Son, por tanto, de gran interés para la investigación en lingüística diacrónica. La finalidad del proyecto es publicar y estudiar 7000 de estas cartas, ofreciendo una edición crítica digital del manuscrito y, simultáneamente, convirtiendo el contenido de las cartas en dos corpus anotados de un millón de palabras cada uno: uno para el español y otro para el portugués.In this paper, we present an overall description of P. S. Post Scriptum. Within this research project, systematic research will be developed, along with the publishing and historical-linguistic study of private letters written in Portugal and Spain along the Modern Ages. The letters included in P. S. Post Scriptum are unpublished manuscripts, written by authors from different social backgrounds. In addition, these textual resources often present an (almost) oral rhetoric, treating everyday issues of past centuries. They are, therefore, of great interest for research in Diachronic Linguistics. We aim to publish and study 7,000 of those letters. For this purpose, we are preparing a scholarly digital edition of the manuscripts and, simultaneously, converting the content of the letters into two annotated corpora of a million words each, one containing the Portuguese letters, the other the Spanish
P. S. Post Scriptum. Dos corpus diacrónicos de escritura cotidiana
In this paper, we present an overall description of P. S. Post Scriptum. Within this research project, systematic research will be developed, along with the publishing and historical-linguistic study of private letters written in Portugal and Spain along the Modern Ages. The letters included in P. S. Post Scriptum are unpublished manuscripts, written by authors from different social backgrounds. In addition, these textual resources often present an (almost) oral rhetoric, treating everyday issues of past centuries. They are, therefore, of great interest for research in Diachronic Linguistics. We aim to publish and study 7,000 of those letters. For this purpose, we are preparing a scholarly digital edition of the manuscripts and, simultaneously, converting the content of the letters into two annotated corpora of a million words each, one containing the Portuguese letters, the other the Spanish.info:eu-repo/semantics/publishedVersio
Evaluating machine translation in a low-resource language combination : Spanish-Galician
This paper reports the results of a study designed to assess the perception of adequacy of three different types of machine translation systems within the context of a minoritized language combination (Spanish-Galician). To perform this evaluation, a mixed design with three different metrics (BLEU, survey and error analysis) is used to extract quantitative and qualitative data about two marketing letters from the energy industry translated with a rulebased system (RBMT), a phrase-based system (PBMT) and a neural system (NMT). Results show that in the case of low-resource languages rule-based and phrase-based machine translations systems still play an important role
Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA
A construción de recursos lingüísticos, entre os que se encontran os corpus ou
bases de datos textuais, é necesaria en toda lingua para continuar profundando no seu
coñecemento, mais tamén é fundamental para o procesamento da linguaxe natural. Nos
últimos anos, ademais, as novas tecnoloxías xorden como un parámetro máis de
clasificación das linguas en función da súa presenza ou ausencia nelas. Neste marco
sitúase o presente traballo, onde se recollen e describen polo miúdo os diferentes
recursos lingüísticos elaborados –etiquetario, lexicón e corpus de adestramento,
basicamente– para que poida executarse con garantías dunha alta taxa de acerto un
etiquetador de tipo estatístico-probabilístico como é o Etiquetador/Lematizador do
galego actual (XIADA), aplicado aos documentos que conforman o Corpus de
Referencia do Galego Actual (CORGA) –corpus considerado representativo da lingua
galega actual, cuxas características lingüísticas constatan as dificultades de traballar con
lingua real–. Coa etiquetaxe permítese dar un salto cualitativo no sistema de consultas,
de xeito que se facilita a recuperación de información a través dunha aplicación web
mediante a consulta por forma, lema, etiqueta morfosintáctica ou calquera combinación
destas; co engadido, naturalmente, das prestacións do CORGA. O resultado palpable da
aplicación do sistema XIADA á análise de corpus en galego pode consultarse en liña
accedendo ao Corpus de Referencia do Galego Actual etiquetado (CORGAetq)
Lingüística de corpus
Este artículo es una presentación general de la lingüística de corpus en el que se expone qué es un corpus lingüístico, qué relación tiene con otros tipos de datos, por qué es necesario anotarlo y cómo es el proceso de anotación. También se pasa revista a algunas de las tareas más comunes en la investigación lingüística basada en corpus, tales como la obtención de listados de frecuencias, la exploración de concordancias o la búsqueda de coapariciones (colocaciones) y otros tipos de información contextual. A lo largo del texto se intenta mostrar la relevancia de este tipo de datos para la teoría lingüística, en particular, para los modelos basados en el uso, como los cognitivos y funcionales.Este artículo es una presentación general de la lingüística de corpus en el que se exponequé es un corpus lingüístico, qué relación tiene con otros tipos de datos, por qué esnecesario anotarlo y cómo es el proceso de anotación. También se pasa revista a algunasde las tareas más comunes en la investigación lingüística basada en corpus, tales como laobtención de listados de frecuencias, la exploración de concordancias o la búsqueda decoapariciones (colocaciones) y otros tipos de información contextual. A lo largo del textose intenta mostrar la relevancia de este tipo de datos para la teoría lingüística, enparticular, para los modelos basados en el uso, como los cognitivos y funcionales.In this paper a general presentation of Corpus Linguistics is provided by explaining whata linguistic corpus is, how it is related to other types of data, why it is necessary toannotate it, and what the annotation process is like. Some of the more common tasks incorpus-based linguistic research are also reviewed, such as obtaining frequency lists,exploring concordances, or finding co-occurrences (collocations) and other types ofcontextual information. Throughout the text, an attempt is made to show the relevance ofthis type of data for linguistic theory, in particular for use-based models, such as thecognitive and functional ones
Lingüística de corpus: de los datos textuales a la teoría lingüística
In this paper a general presentation of Corpus Linguistics is provided by explaining what a linguistic corpus is, how it is related to other types of data, why it is necessary to annotate it, and what the annotation process is like. Some of the more common tasks in corpus-based linguistic research are also reviewed, such as obtaining frequency lists, exploring concordances, or finding co-occurrences (collocations) and other types of contextual information. Throughout the text, an attempt is made to show the relevance of this type of data for linguistic theory, in particular for use-based models, such as the cognitive and functional ones.Este artículo es una presentación general de la lingüística de corpus en el que se expone qué es un corpus lingüístico, qué relación tiene con otros tipos de datos, por qué es necesario anotarlo y cómo es el proceso de anotación. También se pasa revista a algunas de las tareas más comunes en la investigación lingüística basada en corpus, tales como la obtención de listados de frecuencias, la exploración de concordancias o la búsqueda de coapariciones (colocaciones) y otros tipos de información contextual. A lo largo del texto se intenta mostrar la relevancia de este tipo de datos para la teoría lingüística, en particular, para los modelos basados en el uso, como los cognitivos y funcionales
Aproximación a la lingüística computacional
520 p.Esta tesis surge con el objetivo de intentar dar respuesta, desde la perspectiva de la Lingüística, a una serie de preguntas básicas planteadas a raíz de una primera toma de contacto con el campo de la Lingüística Computacional. En primer lugar, buscando delimitar el objeto, finalidad, líneas de investigación e historia de la disciplina. En segundo lugar, analizando las implicaciones del tratamiento computacional del lenguaje a través de sus principales áreas de trabajo, así como algunas de las aplicaciones de la LC. Por último, incidiendo en uno de los aspectos que más interés han suscitado, el de la recopilación de grandes muestras textuales de uso de la lengua, o corpus. Todos estos puntos se han articulado en sendos materiales en línea que sirven desde hace algunos años como apoyo de la docencia de las asignaturas correspondientes de la licenciatura en Lingüística y que son de consulta libre para todos aquellos que quieran utilizarlo
- …