    La contribución de los métodos de aprendizaje automático no supervisado al diseño de métodos para la clasificación textual según el grado de especialización

    Les teories terminològiques modernes es basen en la hipòtesi que existeix un grau d’especialització textual, que depèn de factors diversos, tant lingüístics com extralingüístics. Aquest article té per objectiu mesurar la utilitat dels algoritmes d’aprenentatge automàtic no supervisat (en concret, l’algorisme simple k-mitjans) per classificar textos segons el grau d’especialització. Per això, s’usa com a font una base de dades amb informació intra i extratextual i es comparen els resultats amb les etiquetes de classe assignades prèviament mitjançant un mètode numèric de classificació. Els resultats obtinguts suggereixen l’existència del grau i demostren la presència de patrons particulars que se situen en els límits entre classes, la qual cosa revela l’existència de límits difusos i problemes en el mètode plantejat.Modern terminology theories are based on the hypothesis of the existence of a text specialization degree that depends on different elements, both linguistic and extralinguistic. This article aims to test how useful unsupervised machine learning algorithms (specifically simple k-means algorithm) are to classify texts according to itsspecialization degree. To that end, a database with intra and extra textual information is used as a source tool. Results are compared with the class tags previously assigned by means of a numerical classification method. The obtained results suggest the existence of the degree and prove the presence of particular texts that are placed in limits between classes. This fact reveals the existence of vague limits and problems in the proposed method

    Los peritextos narrativos del videojuego cyberpunk: diversidad tipológica textual a partir de un análisis microestrutural del caso Deus Ex. Human Revolution

    Los videojuegos son productos multimedia que incluyen multitud de tipos de texto y son clasificables en diversos géneros temáticos. En concreto, el cyberpunk es un subgénero de la ciencia ficción donde la diversidad textual está aparejada a la propia ambientación de la historia. En este trabajo analizamos un corpus que incluye los textos narrativos del menú del videojuego cyberpunk Deus Ex: Human RevolutionTM. Partimos de la hipótesis de que el objetivo de los peritextos que analizamos es simular las situaciones que viven los usuarios en la comunicación real con el objetivo de que el videojuego cumpla con las expectativas de interactividad. Asimismo, también creemos que los textos del corpus estudiado pueden ser clasificados atendiendo a diferentes perspectivas, lo que permite contar con elementos que hagan posible predecir problemas de traducción de dichos textos. Para ello, adoptamos cuatro criterios de clasificación (función lingüística, grado de especialidad, registro y temática) que, sobre la base del análisis de la microestructura textual (y en el marco de una perspectiva eminentemente funcional del texto) permiten defender la hipótesis de diversidad tipológica textual. En este trabajo se presentan los resultados más relevantes del estudio de todo el corpus.Videogames are multimedia products including any number of types of texts that can be classified in different thematic genres. Specifically, cyberpunk is a science-fiction subgenre in which textual diversity goes hand in hand with the own atmosphere of the story. This paper analyzes a corpus including narrative texts of the menu of the cyberpunk videogame Deus Ex: Human RevolutionTM. This study is based on the hypothesis that the objective of the analyzed peritexts is to simulate situations that users live in real communication aiming that the videogame accomplishes the interactivity expectations. Besides, we believe that the studied-corpus texts can be classified attending to different perspectives, which allows relying on elements that make possible predicting translation problems of those texts. In order to do that, and based on a microstructural analysis (with mainly a functional perspective of text), we adopt four classification criteria (linguistic function, specialization degree, register and theme) that allow defending the hypothesis of textual typology diversity. This paper presents the most relevant results of the studied corpus

    Descripción microestructural contrastiva inglés-español de un corpus de sitios web corporativos sobre automoción: análisis léxico cuantitativo-cualitativo y problemas en traducción

    El objetivo de este trabajo es analizar el nivel microestructural de un corpus pseudocomparable formado por sitios web corporativos sobre automoción, con especial atención a los elementos léxicos. Para ello, nos hemos servido de los fundamentos de la lingüística de corpus, de las teorías lingüísticas funcionalistas y de una metodología mixta cuantitativa-cualitativa, cuya justificación exponemos en trabajos anteriores. Más allá de algunos errores de traducción, los resultados indican que no existen diferencias sobresalientes entre las diferentes versiones originales (inglés de Estados Unidos e inglés de Reino Unido) y la meta (español de España), cuestión que puede deberse a los propios procesos de internacionalización y localización.This paper aims to analyse the microstructure of a pseudocomparable corpus on corporate websites in the automotive sector, focusing on the lexical items. In order to achieve these objectives, a corpus linguistic framework, some functionalist linguistic theories and a mixed (qualitative-quantitative) method, whose principles are described in existing literature, have been followed. With the exception of some translation mistakes, the results suggest that there is no remarkable difference between the original versions (United States English and United Kingdom English) and the target versions (Spain Spanish). This might be due to the internationalization and localization processes

    Terminology in Spanish as a Foreign Language teaching discourse. Contrasting denominations and contextual values for the explanation of verb forms in -ría in grammars versus SFL textbooks

    La enseñanza de las formas verbales canónicas cantaría y habría cantado cuenta con multitud de denominaciones y de valores o usos contextuales, que divergen entre gramáticas y manuales para la enseñanza del español como lengua extranjera (ELE). La elección de una denominación u otra por parte del diseñador del material didáctico refleja cierta conceptualización de la forma verbal, ya sea modal (condicional), formal (simple), temporal (antepospretérito), etc. Lo mismo sucede cuando se explican sus usos, que incluyen los valores de atenuación, de sugerencia, de hipótesis, etc. Dada la disparidad de denominaciones que rotulan los usos en los materiales didácticos, consideramos que existen implicaciones didácticas relevantes en el discurso especializado que puede emplearse en la práctica docente. Esta investigación aborda la explicación de las formas verbales cantaría y habría cantado en un corpus de 30 gramáticas y 25 manuales de ELE. Nuestro objetivo general es arrojar luz sobre la brecha entre conocimiento teórico y aplicación práctica en el diseño de materiales de ELE mediante la identificación de discrepancias en el uso del metalenguaje en la explicación de las mencionadas formas verbales. Los objetivos específicos son diseñar un instrumento de análisis de los valores o usos contextuales de las formas verbales organizado en categorías, y contrastar la frecuencia de aparición de la terminología empleada y los valores contextuales prototípicos y no prototípicos para explicar las formas cantaría y habría cantado en gramáticas y manuales de ELE. Los resultados permiten destacar similitudes y divergencias notables entre los dos tipos de materiales didácticos, puesto que los manuales resultan menos variados en etiquetas y explicaciones de los valores de las formas en -ría. Las explicaciones de los usos de estas formas verbales parten de usos no prototípicos principalmente, especialmente de valores semánticos modales y virtuales.The teaching of the canonical verb forms cantaría and habría cantado has a multitude of denominations and contextual values or uses, which diverge between grammars and manuals for teaching Spanish as a foreign language (SFL). The choice of one or another denomination by the designer of the teaching material reflects a certain conceptualisation of the verb form, whether modal (conditional), formal (simple), temporal (antepospreterite), etc. The same applies when explaining their uses, which include the values of attenuation, suggestion, hypothesis, etc. Given the disparity of denominations that label the uses in teaching materials, we consider that there are relevant didactic implications in the specialised discourse that can be used in teaching practice. This research addresses the explanation of the verb forms cantaría and habría cantado in a corpus of 30 SFL grammars and 25 SFL textbooks. Our general aim is to shed light on the gap between theoretical knowledge and practical application in the design of ELE materials by identifying discrepancies in the use of metalanguage in the explanation of the aforementioned verb forms. The specific objectives are to design an instrument for analysing the contextual values or uses of verb forms organised into categories, and to contrast the frequency of appearance of the terminology used and the prototypical and non-prototypical contextual values to explain the forms cantaría and habría cantado in SFL grammars and textbooks. The results suggest remarkable similarities and divergences between the two types of teaching materials, since the manuals are less varied in terms of labels and explanations of the values of the forms in -ría. The explanations of the uses of these verb forms are mainly based on non-prototypical uses, especially on modal and virtual semantic values

    Specialized, semi-specialized and non-specialized texts: a design for qualitative analysis and quantitative classification

    En este artículo se acomete el problema de clasificación de los textos según el grado de especialidad. Los estudios hasta ahora publicados han abordado la idea del continuum de especialidad en los textos, sin embargo, las propuestas de clasificación descriptivas no han profundizado en un sistema de clasificación concreto. Este trabajo tiene por objetivo ofrecer una posible herramienta que sirva para clasificar los textos dentro de la catalogación tripartita en textos especializados, semiespecializados y divulgativos.This article undertakes the problem to classificate texts taking into account the specialization degree. Studies until today have addressed the text specialization continuum. Nevertheless, the descriptive classification designs have not gone in depth in a concrete classification system. This work attempts to design a potential instrument for text classification depending on a three-part division in specialized, semi-specialized and non-specialized texts

    Fundamentos teórico-metodológicos para la descripción microestructural contrastiva inglés-español de un corpus de sitios web corporativos sobre automoción

    El objetivo de este trabajo es diseñar un instrumento de análisis que sirva para describir el nivel microestructural de un corpus inglés-español de sitios web corporativos sobre automoción. Para ello, nos hemos servido de los elementos que caracterizan nuestro objeto de estudio: el concepto de texto técnico, la relevancia de los sitios web en la actualidad y la relación del sector GILT con la función textual. El instrumento que pretendemos esbozar se basa, desde una perspectiva funcional, en la selección de dos grupos de parámetros de estudio: el primero se estudia con un método cuantitativo e incluye la descripción del léxico técnico, el léxico especializado y el léxico modalizado; el segundo se estudia con un método cualitativo e incluye la descripción de la neología, los recursos expresivos, las abreviaciones o el uso de nombres propios, entre otros.This article aims to design an instrument of analysis which can describe the microstructure of an English-Spanish corpus on corporate websites in the automotive sector. In order to do this, we have studied the aspects which characterize our object of study: the concept of the technical text, the relevance of websites and the relation between the GILT sector and textual function. This instrument is based, from a functional point of view, on the selection of two groups of parameters of study: the first one is studied with a quantitative method and includes the description of technical vocabulary, specialized vocabulary and modalized vocabulary; the second one is studied with a qualitative method and includes the description of the neology, rhetorical devices, abbreviations, or the use of proper names, among others

    The degree of text specialization of the medical discourse in Spanish: a corpus-based analysis using perception theory

    Este trabajo analiza el grado de especialización textual del discurso médico. Para ello, a partir de los fundamentos discursivistas de la teoría comunicativa de la terminología y de la teoría sociocognitiva de la percepción, se ha analizado una base de datos en Excel que contiene información sobre seis variables, tanto lingüísticas como extralingüísticas (el tipo de texto, la variedad léxica, la reformulación, la densidad terminológica, el papel de los interlocutores y la clase de texto), empleando un método correlacional con enfoque cuantitativo-cualitativo que ha sido complementado con aprendizaje automático. Entre las conclusiones, cabe destacar el papel que desempeña el receptor como condicionante del grado de especialización o la densidad terminológica como principal factor discriminante del grado de especialización.This paper analyzes the degree of text specialization in medical discourse. To this end, based on the discursive underpinnings of the Communicative Theory of Terminology and the socio-cognitive theory of perception, an Excel database with data on six variables, both linguistic and extra-linguistic (type of text, lexical variety, rewording, terminological density, role of the interlocutors, and text category), was analyzed using a correlational method with a quantitative-qualitative approach, complemented with machine learning. Among the conclusions, it is worth highlighting the role played by the recipient as a conditioning factor of the degree of text specialization, as well as the terminological density as the main discriminating factor of the degree of text specialization

    Spanish Equivalences of German Modal Verbs. Approac h to Translation

    Este trabajo pretende presentar una propuesta de equivalencias de los verbos modales en alemán y español desde el punto de vista semántico. Partimos de la idea de su funcionamiento y de su clasificación dependiendo de si estos verbos modales expresan modalidad objetiva o subjetiva en alemán. Una vez planteado el marco teórico en la lengua alemana se expone la existencia de los verbos modales en español y su posible clasificación en función de la modalidad objetiva y subjetiva. El problema se encuentra en la polémica del concepto de verbo modal en español y su clasificación. Por ello, se procede a exponer las perífrasis verbales del español y, posteriormente, a presentar un breve corpus en alemán extraído de diferentes textos periodísticos para analizar la modalidad subjetiva y objetiva en alemán y compararla con sus equivalentes perifrásticos en español.This work aims to present a proposal of equivalenc es of German and Spanish modal verbs from a semantic point of view. F irstly, we see how modal verbs work and are classified according to the fact that these verbs express objective or subjective modality in German. Once we have conside red the theoretical framework about German language, we expose the idea of the ex istence of modal verbs in Spanish and their possible classification according to objective and subjective modality. The problem arises when we see the contro versial debate about the concept of Spanish modal verbs and their classificat ion. Therefore, we expose verbal periphrasis in Spanish and, later, we show a small c orpus in German from different journalistic texts in order to analyse subjective a nd objective modality in German and compare it with their periphrastic equivalents in Sp anish

    The text specialization degree: features based on the sociocognitive perception of terminology and discourse relations

    Este trabajo es un estudio empírico descriptivo correlacional que tiene por objetivo principal caracterizar el grado de especialización textual, particularmente su léxico y relación emisor-destinatario, a partir de un corpus de textos analizados por cuatro grupos de informantes, usando como base la teoría sociocognitiva de la percepción y el aprendizaje automático. Esta tesis doctoral viene motivada por la escasez de estudios que pretenden estudiar el grado de especialización textual, en concreto, sus condicionantes y límites y, especialmente, el grado intermedio: el texto semiespecializado. Las hipótesis esbozadas están relacionadas con: (1) la posibilidad de encontrar pruebas lingüísticas que se ajusten a cada uno de los grados de especialización; (2) la relación de similitud entre texto semiespecializado y texto no especializado; (3) la relevancia del tema o el tipo textual en la discriminación del grado de especialización; (4) la similitud perceptiva de los usuarios a la hora de distinguir el grado; y (5) la relevancia de la relación emisor-destinatario y la terminología como factores de distinción del grado de especialización. En este trabajo tomamos como marco de estudio la teoría de la comunicación para estudiar elementos diversos como son el texto, la tipología textual, el campo de la terminología, el término como objeto de estudio, la noción de valor especializado, el conocimiento especializado, los procedimientos de reformulación y las características vinculadas hasta ahora al discurso especializado, así como las propuestas de clasificación binaria y continuum. Nuestro material de trabajo está compuesto por un corpus que cuenta con 315 textos y medio millón de palabras. Su representatividad cualitativa para estudiar el grado de especialización textual reside en que parte de tres temas diferentes (reconocidos socialmente, como son el derecho, la informática y la medicina). Posteriormente, hemos seleccionado siete tipos textuales posibles en los tres temas (el artículo en revista científica, la entrada de blog, la revista o web de divulgación especializada, la noticia, la entrevista, la participación en foro y la tesis doctoral). De esta combinación de tipo textual y tema se han recopilado 15 textos. En dicho corpus se estudian diversas variables, tanto cuantitativas como cualitativas. Entre las variables cualitativas encontramos las variables nominales (el tipo de texto y el tema del texto). Entre las variables cualitativas ordinales encontramos el emisor, el destinatario, y la clase de texto. Entre las variables cuantitativas, se analizan el número de formas léxicas, la ratio estandarizada entre tipos de formas léxicas y el total de formas léxicas, el índice de densidad terminológica, el número de procedimientos de reformulación y el índice de reformulación. Parte de estas variables son proporcionadas por el investigador, mientras que otra parte es proporcionada por cuatro grupos de informantes (estudiante, usuario medio, traductor e investigador), lo que arroja una base de datos con 1260 patrones que es analizada mediante la correlación manual de dos o más variables y mediante aprendizaje automático. El análisis mediante técnicas de aprendizaje automático emplea los algoritmos de red bayesiana, de regresión logística, el árbol de decisión J48 y el algoritmo de agrupamiento no supervisado k-means mediante el software WEKA. Las principales conclusiones sugieren la relevancia de las formas léxicas semicrípticas y crípticas en la discriminación de los polos opuestos del grado de especialización, así como el destinatario como factor regulador de la configuración discursiva de los textos cuando se atiende al grado. También se han identificado las similitudes del texto semiespecializado con los otros dos grados, principalmente con el texto divulgativo (desde un punto de vista formal) y con el texto especializado (desde un punto de vista semántico).This work is an empirical descriptive correlational study whose main objective is to depict the text specialization degree, especially its lexical forms and speaker-recipient relationship, based on a corpus of texts analyzed by four groups of informants, using as a basis the sociocognitive theory of perception and machine learning. This doctoral thesis is motivated by the scarcity of studies that intend to analyze the text specialization degree, in particular, its determining factors and limits and, especially, the intermediate degree: the semi-specialized text. The outlined hypotheses are related to: (1) the possibility of finding linguistic evidences that may correspond to each of the specialization degrees; (2) the relationship of similarity between semi-specialized text and non-specialized text; (3) the relevance of the topic or the type of text in the discrimination of specialization degree; (4) the perceptive similarity of the users when it comes to distinguishing the specialization degree; and (5) the relevance of the speaker-recipient relationship and the terminology as factors of distinction of the specialization degree. In this work, the theory of communication is taken as a frame of reference to study diverse elements such as text, textual typology, the field of terminology, the term as an object of study, the notion of specialized value, specialized knowledge, reformulation methods and the characteristics linked up to now for the specialized discourse, as well as binary and continuum classification proposals. Our material of study is composed of a corpus of 315 texts and half a million words. Its qualitative representativeness to study the text specialization degree lies in that it is based on three different subjects (socially recognized, such as law, computer science and medicine). Subsequently, seven possible types of texts in these three subjects have been selected (article in scientific journal, blog post, scientific-divulgation magazine or web, news, interview, participation in a forum and doctoral thesis). From this combination of type of text and subject, 15 texts have been collected. In this corpus several variables are studied, both quantitative and qualitative. Among the qualitative variables the nominal variables are found: the type of text and the subject of the text. Among ordinal qualitative variables the speaker, the recipient, and the text class are studied. Among the quantitative variables, the number of lexical forms, the standardized ratio between types of lexical forms and the total of lexical forms, the terminological density index, the number of reformulation means and the reformulation index are analyzed. Part of these variables are provided by the researcher, while another part is provided by four groups of informants (student, average user, translator and researcher), which yields a database with 1260 patterns that is analyzed through the manual correlation of two or more variables and through machine learning. The analysis using machine learning techniques employs Bayesian network, logistic regression algorithms, the J48 decision tree and the unsupervised k-means clustering algorithm using the WEKA software. The main conclusions suggest the relevance of semi-cryptic and cryptic lexical forms in the discrimination of the opposite poles of the specialization degree, as well as the recipient as a regulating factor of the discursive configuration of the texts when attending the degree. The similarities of the semi-specialized text with the other two degrees have also been identified, mainly with the non-specialized text (from a formal point of view) and with the specialized text (from a semantic point of view)