163 research outputs found

    Medidas de longitud en la investigación empírica de ASL ¿Medidas de complejidad sintáctica o de fluidez?

    Get PDF
    The purpose of this study was to examine the controversy surrounding three linguistic measures widely used in the empirical research of Second Language Acquisition, e.g., mean length of T-Unit, mean length of clause, and mean length of utterance. The corpus consisted of two compositions written by a group of 65 Greek learners of Spanish as a foreign language, which were analysed on the basis of 24 linguistic measures of accuracy, fluency, and syntactic and lexical complexity. The results obtained using Common Factor Analysis revealed that measures of mean length (mean length of T-Unit and mean length of clause) and subordination measures load on different factors, and these measures, more than fluency, gauge different aspects of syntactic complexity. On the other hand, mean length of utterance is likely to be influenced by factors related to the method of measurement, the leghth of the texts being analysed, as well as the linguistic conventions of both one’s native and foreign language

    Integración de minería de texto y técnicas multivariantes en el entorno digital, aplicado al análisis organizacional PESTEL

    Get PDF
    [ES]La presente tesis doctoral aborda, desde lo fundamental, el estudio y aplicabilidad del análisis estadístico de datos textuales (AEDT) a partir de la minería de datos de texto (MDT); atendiendo a las técnicas de investigación más activas a nivel mundial, así como a nuevas perspectivas en el área adelantadas en el Departamento de Estadística de la Universidad de Salamanca. Cada vez es más frecuente un notable aumento en publicaciones, a nivel mundial, que dan cabida al tratamiento de datos textuales en diferentes disciplinas. Al respecto, diversos estudios presentan a consideración de la comunidad científica, la aplicación de distintos enfoques metodológicos para la adquisición, estructuración y análisis de conocimiento a partir de información obtenida desde repositorios digitales en la web. Efectivamente, múltiples metodologías se han desarrollado entorno al AEDT. Se remontan desde las generadas por la escuela francesa, donde se postuló el análisis factorial de correspondencia (AFC) para estudiar las tesis de Chomsky sobre la lengua (Benzécri, 1964). Continuando con técnicas como las desarrolladas por la escuela anglosajona, como el análisis semántico latente (LSA) (Deerwester et al., 1990), el cual incorpora la semántica latente de los textos analizados. En la actualidad, con el incremento de aportes en relación con las técnicas en el campo del aprendizaje automático, la escuela americana ha desarrollado la técnica conocida como Asignación Latente de Dirichlet (LDA) (D. M. Blei et al., 2003). Se trata de un método de aprendizaje no supervisado utilizado para descubrir tópicos ocultos en grandes conjuntos de datos, usándose en el campo de la minería de datos textuales, análisis de sentimientos y recuperación de información. En correspondencia, la presente investigación asume como propósito fundamental el desarrollo de una estrategia metodológica basado en los métodos Biplot para dar un impulso analítico al modelo de Asignación Latente de Dirichlet, integrando la adquisición de información a partir del entorno digital Web, con aplicación al análisis organizacional PESTEL. De esta manera, nuestra investigación pretende contribuir con el desarrollo de una aplicación escrita en lenguaje R (Posit, 2023; R Development Core Team, 2000), denominada LDABiplots (Pilacuan-Bonete, Galindo-Villardón, Delgado-Álvarez, et al., 2022). Destacamos especialmente la utilización del HJ-BIPLOT, que permite generar representaciones Biplot de las matrices de probabilidad transformadas mediante el cálculo de una medida de centralidad del modelado de tópicos LDA, a partir del procesamiento de los datos no estructurados y extraídos desde la web de noticias de Google e integrando el análisis del entorno organizacional PESTEL al HJ-Biplot. Esto representa una ventaja significativa, porque se constituye en una representación conjunta de filas o sujetos objeto de estudio y columnas o variables de estudio. Por ende, proporciona una representación visual intuitiva de la estructura del modelo, permitiendo identificar patrones y tendencias ocultas y ayudando en la selección de términos o palabras, así como de documentos relevantes

    Modelo de análisis predictivo para abandono de clientes en una empresa administradora de fondos colectivos

    Get PDF
    En la actualidad, el rubro de los fondos colectivos está tomando cada vez más posicionamiento en Sudamérica como una alternativa al crédito vehicular de los bancos, una modalidad en la cual las personas a través de aportes mensuales y de modalidades de sorteo y remates mensuales, pueden lograr el sueño del auto o la casa propia. Sin embargo, este sector se está viendo afectado por el gran porcentaje de clientes que dejan de pagar sus cuotas durante 3 meses y la organización los considera como clientes que han abandonado al fondo colectivo. Esta situación va aumentando cada vez más y las entidades en este sector no se han arriesgado a optar por soluciones soportadas en tecnologías y técnicas de machine learning por lo que actualmente toman decisiones basadas en los datos que proporciona una entidad externa llamada Equifax, la cual brinda información acerca del segmento de cada cliente, sin embargo este proceso no está trayendo buenos resultados ya que cada vez más aumenta el porcentaje de clientes que ingresan a la empresa y luego abandonan, perjudicando así a los grupos en los que se encuentran y a los ingresos mensuales de la organización. Es por ello, que el presente proyecto busca desarrollar un modelo de análisis predictivo basado en machine learning, que permita identificar el comportamiento de los clientes desertores y así poder predecir el porcentaje de probabilidad que tiene cada cliente de abandonar a la organización, con el fin de que los autores involucrados en el proceso de negocio de retención de clientes puedan tomar decisiones y orientas sus campañas comerciales basándose en datos.Currently, the category of collective funds is gaining more and more position in South America as an alternative to vehicle credit from banks, a modality in which people, through monthly contributions and raffle and monthly auctions modalities, can achieve the dream of owning a car or home. However, this sector is being affected by the large percentage of clients who stop paying their installments for 3 months and the organization considers them as clients who have abandoned the collective fund. This situation is going to increase more and more and the entities in this sector have not risked opting for solutions supported by machine learning technologies and techniques, which is why they currently make decisions based on the data provided by an external entity called Equifax, which provides information about the segment of each client, however this process is not bringing good results since the percentage of clients that enter the company and then leave is increasing more and more, thus harming the groups in which they belong and the organization monthly income. For this reason, this project seeks to develop a predictive analysis model based on machine learning, which allows identifying the behavior of deserting customers and thus being able to predict the percentage probability that each customer has to abandon the organization, in order to that the authors involved in the customer retention business process can make decisions and guide their commercial campaigns expanded on data.Tesi

    Supporting the Review of Student Proposal Drafts in Information Technologies

    Get PDF
    ABSTRACT In many cases, academic programs or courses conclude with a thesis or research proposal text, elaborated by students. The review of such texts is a heavy load, especially at initial stages of drafting. This paper proposes a model that allows linguistic and structural review of some essential elements in proposal drafts of undergraduate students. The model aims to support the review from vocabulary to the argumentation in the draft, and is part of an intelligent tutor to monitor student progress. This work presents the initial results in terms of lexical and global coherence analysis of proposal drafts of students. Lexical analysis is done in terms of lexical density, lexical diversity, and sophistication. Global coherence is evaluated using the Latent Semantic Analysis technique. Our results show that the level reached so far by the analyzer is adequate to support the review, taking into account for one section the level of agreement with human reviewers

    The text specialization degree: features based on the sociocognitive perception of terminology and discourse relations

    Get PDF
    Este trabajo es un estudio empírico descriptivo correlacional que tiene por objetivo principal caracterizar el grado de especialización textual, particularmente su léxico y relación emisor-destinatario, a partir de un corpus de textos analizados por cuatro grupos de informantes, usando como base la teoría sociocognitiva de la percepción y el aprendizaje automático. Esta tesis doctoral viene motivada por la escasez de estudios que pretenden estudiar el grado de especialización textual, en concreto, sus condicionantes y límites y, especialmente, el grado intermedio: el texto semiespecializado. Las hipótesis esbozadas están relacionadas con: (1) la posibilidad de encontrar pruebas lingüísticas que se ajusten a cada uno de los grados de especialización; (2) la relación de similitud entre texto semiespecializado y texto no especializado; (3) la relevancia del tema o el tipo textual en la discriminación del grado de especialización; (4) la similitud perceptiva de los usuarios a la hora de distinguir el grado; y (5) la relevancia de la relación emisor-destinatario y la terminología como factores de distinción del grado de especialización. En este trabajo tomamos como marco de estudio la teoría de la comunicación para estudiar elementos diversos como son el texto, la tipología textual, el campo de la terminología, el término como objeto de estudio, la noción de valor especializado, el conocimiento especializado, los procedimientos de reformulación y las características vinculadas hasta ahora al discurso especializado, así como las propuestas de clasificación binaria y continuum. Nuestro material de trabajo está compuesto por un corpus que cuenta con 315 textos y medio millón de palabras. Su representatividad cualitativa para estudiar el grado de especialización textual reside en que parte de tres temas diferentes (reconocidos socialmente, como son el derecho, la informática y la medicina). Posteriormente, hemos seleccionado siete tipos textuales posibles en los tres temas (el artículo en revista científica, la entrada de blog, la revista o web de divulgación especializada, la noticia, la entrevista, la participación en foro y la tesis doctoral). De esta combinación de tipo textual y tema se han recopilado 15 textos. En dicho corpus se estudian diversas variables, tanto cuantitativas como cualitativas. Entre las variables cualitativas encontramos las variables nominales (el tipo de texto y el tema del texto). Entre las variables cualitativas ordinales encontramos el emisor, el destinatario, y la clase de texto. Entre las variables cuantitativas, se analizan el número de formas léxicas, la ratio estandarizada entre tipos de formas léxicas y el total de formas léxicas, el índice de densidad terminológica, el número de procedimientos de reformulación y el índice de reformulación. Parte de estas variables son proporcionadas por el investigador, mientras que otra parte es proporcionada por cuatro grupos de informantes (estudiante, usuario medio, traductor e investigador), lo que arroja una base de datos con 1260 patrones que es analizada mediante la correlación manual de dos o más variables y mediante aprendizaje automático. El análisis mediante técnicas de aprendizaje automático emplea los algoritmos de red bayesiana, de regresión logística, el árbol de decisión J48 y el algoritmo de agrupamiento no supervisado k-means mediante el software WEKA. Las principales conclusiones sugieren la relevancia de las formas léxicas semicrípticas y crípticas en la discriminación de los polos opuestos del grado de especialización, así como el destinatario como factor regulador de la configuración discursiva de los textos cuando se atiende al grado. También se han identificado las similitudes del texto semiespecializado con los otros dos grados, principalmente con el texto divulgativo (desde un punto de vista formal) y con el texto especializado (desde un punto de vista semántico).This work is an empirical descriptive correlational study whose main objective is to depict the text specialization degree, especially its lexical forms and speaker-recipient relationship, based on a corpus of texts analyzed by four groups of informants, using as a basis the sociocognitive theory of perception and machine learning. This doctoral thesis is motivated by the scarcity of studies that intend to analyze the text specialization degree, in particular, its determining factors and limits and, especially, the intermediate degree: the semi-specialized text. The outlined hypotheses are related to: (1) the possibility of finding linguistic evidences that may correspond to each of the specialization degrees; (2) the relationship of similarity between semi-specialized text and non-specialized text; (3) the relevance of the topic or the type of text in the discrimination of specialization degree; (4) the perceptive similarity of the users when it comes to distinguishing the specialization degree; and (5) the relevance of the speaker-recipient relationship and the terminology as factors of distinction of the specialization degree. In this work, the theory of communication is taken as a frame of reference to study diverse elements such as text, textual typology, the field of terminology, the term as an object of study, the notion of specialized value, specialized knowledge, reformulation methods and the characteristics linked up to now for the specialized discourse, as well as binary and continuum classification proposals. Our material of study is composed of a corpus of 315 texts and half a million words. Its qualitative representativeness to study the text specialization degree lies in that it is based on three different subjects (socially recognized, such as law, computer science and medicine). Subsequently, seven possible types of texts in these three subjects have been selected (article in scientific journal, blog post, scientific-divulgation magazine or web, news, interview, participation in a forum and doctoral thesis). From this combination of type of text and subject, 15 texts have been collected. In this corpus several variables are studied, both quantitative and qualitative. Among the qualitative variables the nominal variables are found: the type of text and the subject of the text. Among ordinal qualitative variables the speaker, the recipient, and the text class are studied. Among the quantitative variables, the number of lexical forms, the standardized ratio between types of lexical forms and the total of lexical forms, the terminological density index, the number of reformulation means and the reformulation index are analyzed. Part of these variables are provided by the researcher, while another part is provided by four groups of informants (student, average user, translator and researcher), which yields a database with 1260 patterns that is analyzed through the manual correlation of two or more variables and through machine learning. The analysis using machine learning techniques employs Bayesian network, logistic regression algorithms, the J48 decision tree and the unsupervised k-means clustering algorithm using the WEKA software. The main conclusions suggest the relevance of semi-cryptic and cryptic lexical forms in the discrimination of the opposite poles of the specialization degree, as well as the recipient as a regulating factor of the discursive configuration of the texts when attending the degree. The similarities of the semi-specialized text with the other two degrees have also been identified, mainly with the non-specialized text (from a formal point of view) and with the specialized text (from a semantic point of view)

    Investigaciones en ciencias humanas y sociales : del ABC disciplinar a la reflexión metodológica

    Get PDF
    Diversidad de objetos, variedad de enfoques, prácticas disciplinares y multidisciplinares, y ejemplos de ejecución de proyectos de investigación y desarrollo son los rasgos distintivos de los siete capítulos que integran esta obra. En ellos se recoge el material desplegado en los Seminarios-Talleres de Metodología de la Investigación en Humanidades que se realizaron en el marco de las V Jornadas de Investigación de la Facultad de Filosofía y Letras de la Universidad Nacional de Cuyo en setiembre de 2004: estudios sobre procesos sociales, cuestiones educativas, geográficas, históricas, lingüísticas y literarias. Algunos capítulos han mantenido el estilo y formato característicos del contexto de los seminarios-talleres, a veces con ligeras modificaciones; otros han sido enteramente reescritos para la convocatoria de esta publicación. Este libro refleja entonces abordajes disciplinares y pluridisciplinares diversos a problemáticas igualmente variadas. Por tratarse de propuestas orientadas a y/o basadas en seminarios-talleres, está claro que los autores involucrados no pueden abarcar todos los aspectos de los objetos de estudio respectivos. Sin embargo, la idea es al menos brindar algún punto de vista sobre el estadio de desarrollo de algunas de las investigaciones actualmente en ejecución en nuestra Facultad

    Análisis contrastivo de las variables genéricas en el discurso político de las campañas electorales británica (2001) y española (2000)

    Get PDF
    El discurso político tiene una indudable importancia en la sociedad democrática occidental. El poder de la palabra es incuestionable en un sistema parlamentario en el que, junto a los logros políticos, económicos y sociales, el mensaje lingüístico que se transmite, junto al correspondiente apoyo icónico, pueden ser decisivos a la hora de determinar el voto de los llamados "indecisos". En este sentido, el discurso político escrito en periodos de campaña electoral, es fruto de una minuciosa programación que cuida desde el vocabulario utilizado, las estructuras sintácticas, así como las inferencias pragmáticas y las variables genéricas e ideológicas. Todos estos aspectos se tratan en la tesis doctoral tras haber hecho un análisis exhaustivo de los conceptos teóricos. Junto a las cuestiones anteriormente mencionadas, los aspectos sociales y culturales son fundamentales, especialmente si tenemos en cuenta la tradición democrática en uno y otro país, que va a determinar de manera significativa los resultados obtenidos. El análisis empírico de los textos, que confirma parcialmente las hipótesis planteadas, está realizado de forma exhaustiva y las conclusiones finales están claramente establecidas

    La renovación de la palabra en el bicentenario de la Argentina : los colores de la mirada lingüística

    Get PDF
    El libro reúne trabajos en los que se exponen resultados de investigaciones presentadas por investigadores de Argentina, Chile, Brasil, España, Italia y Alemania en el XII Congreso de la Sociedad Argentina de Lingüística (SAL), Bicentenario: la renovación de la palabra, realizado en Mendoza, Argentina, entre el 6 y el 9 de abril de 2010. Las temáticas abordadas en los 167 capítulos muestran las grandes líneas de investigación que se desarrollan fundamentalmente en nuestro país, pero también en los otros países mencionados arriba, y señalan además las áreas que recién se inician, con poca tradición en nuestro país y que deberían fomentarse. Los trabajos aquí publicados se enmarcan dentro de las siguientes disciplinas y/o campos de investigación: Fonología, Sintaxis, Semántica y Pragmática, Lingüística Cognitiva, Análisis del Discurso, Psicolingüística, Adquisición de la Lengua, Sociolingüística y Dialectología, Didáctica de la lengua, Lingüística Aplicada, Lingüística Computacional, Historia de la Lengua y la Lingüística, Lenguas Aborígenes, Filosofía del Lenguaje, Lexicología y Terminología

    La terminología de la gastronomía puertorriqueña y su traducción al inglés

    Get PDF
    [ES] La cocina se presenta como un espacio en el que los alimentos se transforman en cultura. La receta, particularmente, aquella que se enmarca en el contexto de un libro vinculado a una cocina nacional, se configura como un acto de comunicación especializada en el que se integran el conocimiento técnico y la definición de la identidad. Estudiamos el entramado que subyace a la terminología utilizada en cinco libros de recetas de Puerto Rico, en su versión original y en su traducción al inglés. Los textos de los que extraemos los términos objeto de análisis se publicaron en momentos clave de la historia puertorriqueña: la década de los cincuenta del siglo XX, marcada por los cambios políticos en la isla con respecto a su relación con Estados Unidos, y la primera década del siglo XXI, momento en que el movimiento “foodie” se encuentra en auge. A fin de representar los términos en una base de datos terminológica que dé cuenta de las categorías y relaciones conceptuales del dominio, combinamos el estudio de corpus paralelos con fuentes de referencia, estudios semánticos y ontologías que describen el dominio culinario desde diferentes perspectivas. El estudio se inserta en los Estudios de Traducción y en la Terminología. [EN] In the kitchen, food transforms into culture. Recipes, particularly those framed in the context of recipe books linked to a national cuisine, stand as an act of specialized communication that combines technical knowledge with the definition of identity. We describe the framework that underlies the terminology used in a sample of recipes from five iconic Puerto Rican cookbooks, both in their original version in Spanish and in their English translation. The texts included in the corpus were published during key periods in Puerto Rican history, the fifties of the 20th century, an era marked by political changes on the island dealing with its relationship to the United States, and the first decade of the 21st century, a decade characterized by a “foodie boom”. In order to create a terminological database that gives an adequate account of the categories and conceptual relations of this domain, we combine the analysis of parallel corpora with lexicographic resources, semantic studies, and ontologies that describe the culinary domain from different points of view. The theoretical framework includes literature from both Translation Studies and Terminology
    corecore