74 research outputs found

    Relación entre el crowdsourcing y la inteligencia colectiva: el caso de los sistemas de etiquetado social

    Full text link
    El crowdsourcing es un término acuñado recientemente que hace referencia a un tipo de iniciativas que se dan en Internet. En estas iniciativas, alguien, ya sea una empresa, una persona o una institucion, propone a la multitud de Internet la realización de una tarea a cambio de una recompensa. Para que estas iniciativas se puedan llevar a cabo, Internet, y más concretamente, el desarrollo de la Web 2.0, ha sido fundamental. Internet, además de suponer la base tecnológica sobre la que se asienta el crowdsourcing, permite a este tipo de iniciativas tener acceso a cientos de miles de individuos de cualquier parte del mundo. Al haber sido un término acuñado recientemente, la literatura existente es escasa, realidad que va subsanándose paulatinamente. Además, las fronteras conceptuales del término son difusas. Por esta razón, muchas veces se confunde el crowdsourcing con procesos relacionados aunque no exactamente iguales, como la innovación abierta, la co-creación o la inteligencia colectiva. La presente tesis tiene como objetivo clarificar cual es exactamente la relación existente entre el crowdsourcing y uno de estos fenómenos: la inteligencia colectiva. Con este fin, se analizarán los sistemas de etiquetado social, una aplicación Web 2.0 claramente perteneciente al ámbito de la Inteligencia Colectiva, para observar las diferencias y semejanzas entre ésta y el crowdsourcing. En el camino que se recorre para identificar y analizar esta relación, se alcanzan otros hitos relevantes que ayudan a conseguir el objetivo de la tesis. En lo que al crowdsourcing respecta, se ha definido este término en base a ocho elementos, lo que facilita la identificación de qué es o no crowdsourcing. También se ha desarrollado una tipología de iniciativas de crowdsourcing en base a otras tipologías propuestas por diferentes autores. En cuanto a los sistemas de etiquetado social, se ha analizado y descrito el uso que hacen los usuarios de las etiquetas que describen los recursos de Internet, además de explicar como estos sistemas pueden favorecer los procesos de investigación colaborativos.Estellés Arolas, E. (2013). Relación entre el crowdsourcing y la inteligencia colectiva: el caso de los sistemas de etiquetado social [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/31661TESI

    An Approach for Automatic Generation of on-line Information Systems based on the Integration of Natural Language Processing and Adaptive Hypermedia Techniques

    Full text link
    Tesis doctoral inédita leída en la Universidad Autónoma de Madrid. Escuela Politécnica Superior, Departamento de ingeniería informática. Fecha de lectura: 29-05-200

    Visualización del lenguaje a través de corpus

    Get PDF
    Digital version of the print publication, published in A Coruña: Universidade da Coruña, Servizo de Publicacións, 2010 (ISBN 978-84-9749-401-4)This book contains the papers presented at the Second International Conference on Corpus Linguistics held at the University of A Coruña in 2010 and organised by the MuStE group. The essays deal with different aspects of corpus linguistics both as a methodology and as a branch of Linguistics.[Abstract] The collection of essays we are presenting here are just a mere sample of the interest the topics relating to Corpus Linguistics have arisen everywhere. Such different topics as those related to Computational Linguistics found in “Obtaining computational resources for languages with scarce resources from closely related computationally-developed languages. The Galician and Portuguese case“ or “Corpus-Based Modelling of Lexical Changes in Manic Depression Disorders: The Case of Edgar Allan Poe” belonging to the field of Corpus and Literary Studies can be found in the ensuing pages. Almost all research areas can nowadays be investigated using Corpus Linguistics as a valid methodology. This is reason why Language Windowing through Corpora gathers papers dealing with discourse, variation and change, grammatical studies, lexicology and lexicography, corpus design, contrastive analyses, language acquisition and learning or translation. This work’s title aims at reflecting not only the great variety of topics gathered in it but also the worldwide interest awaken by the computer processing of language. In fact, researchers from many different institutions all over the world have contributed to this book. Apart from the twenty-two Spanish Universities, people from other Higher Education Institutions have authored and co-authored the essays contained here, namely, Russia, Venezuela, Brazil, UK, Finland, Portugal, Poland, Austria, Mexico, Thailand, Iran, the Netherlands, Belgium, Japan, Turkey, China, Italy, Malaysia, Romania and Sweden. All these essays have been alphabetically arranged, by the names of their authors, in two parts. Part 1 contains the papers by authors from A to K and Part 2, those of authors from L to Z

    Evaluación apriorística de la reusabilidad de los objetos de aprendizaje

    Get PDF
    La aplicación de las nuevas tecnologías a la educación -e-learning- ha cambiado los procesos de aprendizaje proporcionando numerosas ventajas de carácter pedagógico. Sin embargo, desarrollar materiales educativos de calidad para utilizarlos en estos sistemas es un trabajo costoso en tiempo y en recursos. La solución a esta limitación consistiría en poder reutilizar los materiales educativos actualmente disponibles en diferentes repositorios. De esa forma se disminuirían los costes garantizando a su vez la calidad. Para intentar facilitar la reutilización, esta tesis tiene como objetivo principal definir un modelo que permita estimar de forma apriorística, y utilizando los metadatos como fuente de información, la capacidad de reutilización de los objetos de aprendizaje. Para alcanzar esta meta, se estudian las iniciativas existentes referentes a la evaluación de objetos de aprendizaje y las iniciativas de mejora de la reutilización que distintos estudios proponen. Basándose en estos estudios se identifican los diferentes factores que influyen en la capacidad de reutilización. Se determina cómo se pueden evaluar cuantitativamente utilizando la información contenida en los metadatos y se desarrolla un conjunto de métricas, inspiradas en las medidas de reusabilidad del software, que den soporte a esta tarea. Posteriormente se realiza una evaluación del modelo de predicción de la reusabilidad, estudiando los repositorios Merlot y eLera. Se analiza el grado de interrelación de los diferentes indicadores propuestos y se analizan comparativamente diferentes formas de agregación de los mismos para proporcionar un único valor de reusabilidad final. Para garantizar la efectividad de esta propuesta de estimación de la reusabilidad, se comparan los datos de reusabilidad calculados con las evaluaciones y datos de uso provenientes de los repositorios estudiados. La principal aportación de esta propuesta radica en que permite determinar la capacidad de reutilización de los objetos de aprendizaje de forma automática utilizando como fuente de información únicamente los metadatos. Esto ayudará a los usuarios en la tarea de buscar materiales educativos reutilizables. Adicionalmente se estudia cómo se relacionan entre sí la medida de reusabilidad propuesta, las valoraciones realizadas por usuarios y expertos, y los datos de uso. Basándose en este análisis se propone una medida de relevancia que integre todos los indicadores de calidad existentes. Una aportación de la medida de relevancia consistirá en que aumentaría la fiabilidad de las recomendaciones al integrar diferentes perspectivas de la calidad. Además al poderse calcular de forma automática garantizará su sostenibilidad, ya que no necesitará de la intervención humana para su cálculo, permitiendo que todos los materiales educativos ubicados en repositorios estén valorados

    Evaluación apriorística de la reusabilidad de los objetos de aprendizaje

    Get PDF
    La aplicación de las nuevas tecnologías a la educación -e-learning- ha cambiado los procesos de aprendizaje proporcionando numerosas ventajas de carácter pedagógico. Sin embargo, desarrollar materiales educativos de calidad para utilizarlos en estos sistemas es un trabajo costoso en tiempo y en recursos. La solución a esta limitación consistiría en poder reutilizar los materiales educativos actualmente disponibles en diferentes repositorios. De esa forma se disminuirían los costes garantizando a su vez la calidad. Para intentar facilitar la reutilización, esta tesis tiene como objetivo principal definir un modelo que permita estimar de forma apriorística, y utilizando los metadatos como fuente de información, la capacidad de reutilización de los objetos de aprendizaje. Para alcanzar esta meta, se estudian las iniciativas existentes referentes a la evaluación de objetos de aprendizaje y las iniciativas de mejora de la reutilización que distintos estudios proponen. Basándose en estos estudios se identifican los diferentes factores que influyen en la capacidad de reutilización. Se determina cómo se pueden evaluar cuantitativamente utilizando la información contenida en los metadatos y se desarrolla un conjunto de métricas, inspiradas en las medidas de reusabilidad del software, que den soporte a esta tarea. Posteriormente se realiza una evaluación del modelo de predicción de la reusabilidad, estudiando los repositorios Merlot y eLera. Se analiza el grado de interrelación de los diferentes indicadores propuestos y se analizan comparativamente diferentes formas de agregación de los mismos para proporcionar un único valor de reusabilidad final. Para garantizar la efectividad de esta propuesta de estimación de la reusabilidad, se comparan los datos de reusabilidad calculados con las evaluaciones y datos de uso provenientes de los repositorios estudiados. La principal aportación de esta propuesta radica en que permite determinar la capacidad de reutilización de los objetos de aprendizaje de forma automática utilizando como fuente de información únicamente los metadatos. Esto ayudará a los usuarios en la tarea de buscar materiales educativos reutilizables. Adicionalmente se estudia cómo se relacionan entre sí la medida de reusabilidad propuesta, las valoraciones realizadas por usuarios y expertos, y los datos de uso. Basándose en este análisis se propone una medida de relevancia que integre todos los indicadores de calidad existentes. Una aportación de la medida de relevancia consistirá en que aumentaría la fiabilidad de las recomendaciones al integrar diferentes perspectivas de la calidad. Además al poderse calcular de forma automática garantizará su sostenibilidad, ya que no necesitará de la intervención humana para su cálculo, permitiendo que todos los materiales educativos ubicados en repositorios estén valorados

    From social tagging to polyrepresentation: a study of expert annotating behavior of moving images

    Get PDF
    Mención Internacional en el título de doctorThis thesis investigates “nichesourcing” (De Boer, Hildebrand, et al., 2012), an emergent initiative of cultural heritage crowdsoucing in which niches of experts are involved in the annotating tasks. This initiative is studied in relation to moving image annotation, and in the context of audiovisual heritage, more specifically, within the sector of film archives. The work presents a case study of film and media scholars to investigate the types of annotations and attribute descriptions that they could eventually contribute, as well as the information needs, and seeking and searching behaviors of this group, in order to determine what the role of the different types of annotations in supporting their expert tasks would be. The study is composed of three independent but interconnected studies using a mixed methodology and an interpretive approach. It uses concepts from the information behavior discipline, and the "Integrated Information Seeking and Retrieval Framework" (IS&R) (Ingwersen and Järvelin, 2005) as guidance for the investigation. The findings show that there are several types of annotations that moving image experts could contribute to a nichesourcing initiative, of which time-based tags are only one of the possibilities. The findings also indicate that for the different foci in film and media research, in-depth indexing at the content level is only needed for supporting a specific research focus, for supporting research in other domains, or for engaging broader audiences. The main implications at the level of information infrastructure are the requirement for more varied annotating support, more interoperability among existing metadata standards and frameworks, and the need for guidelines about crowdsoucing and nichesourcing implementation in the audiovisual heritage sector. This research presents contributions to the studies of social tagging applied to moving images, to the discipline of information behavior, by proposing new concepts related to the area of use behavior, and to the concept of “polyrepresentation” (Ingwersen, 1992, 1996) applied to the humanities domain.Esta tesis investiga la iniciativa del nichesourcing (De Boer, Hildebrand, et al., 2012), como una forma de crowdsoucing en sector del patrimonio cultural, en la cuál grupos de expertos participan en las tareas de anotación de las colecciones. El ámbito de aplicación es la anotación de las imágenes en movimiento en el contexto del patrimonio audiovisual, más específicamente, en el caso de los archivos fílmicos. El trabajo presenta un estudio de caso aplicado a un dominio específico de expertos en el ámbito audiovisual: los académicos de cine y medios. El análisis se centra en dos aspectos específicos del problema: los tipos de anotaciones y atributos en las descripciones que podrían obtenerse de este nicho de expertos; y en las necesidades de información y el comportamiento informacional de dicho grupo, con el fin de determinar cuál es el rol de los diferentes tipos de anotaciones en sus tareas de investigación. La tesis se compone de tres estudios independientes e interconectados; se usa una metodología mixta e interpretativa. El marco teórico se compone de conceptos del área de estudios de comportamiento informacional (“information behavior”) y del “Marco integrado de búsqueda y recuperación de la información” ("Integrated Information Seeking and Retrieval Framework" (IS&R)) propuesto por Ingwersen y Järvelin (2005), que sirven de guía para la investigación. Los hallazgos indican que existen diversas formas de anotación de la imagen en movimiento que podrían generarse a partir de las contribuciones de expertos, de las cuáles las etiquetas a nivel de plano son sólo una de las posibilidades. Igualmente, se identificaron diversos focos de investigación en el área académica de cine y medios. La indexación detallada de contenidos sólo es requerida por uno de esos grupos y por investigadores de otras disciplinas, o como forma de involucrar audiencias más amplias. Las implicaciones más relevantes, a nivel de la infraestructura informacional, se refieren a los requisitos de soporte a formas más variadas de anotación, el requisito de mayor interoperabilidad de los estándares y marcos de metadatos, y la necesidad de publicación de guías de buenas prácticas sobre de cómo implementar iniciativas de crowdsoucing o nichesourcing en el sector del patrimonio audiovisual. Este trabajo presenta aportes a la investigación sobre el etiquetado social aplicado a las imágenes en movimiento, a la disciplina de estudios del comportamiento informacional, a la que se proponen nuevos conceptos relacionados con el área de uso de la información, y al concepto de “poli-representación” (Ingwersen, 1992, 1996) en las disciplinas humanísticas.Programa Oficial de Doctorado en Documentación: Archivos y Bibliotecas en el Entorno DigitalPresidente: Peter Emil Rerup Ingwersen.- Secretario: Antonio Hernández Pérez.- Vocal: Nils Phar

    Mejoras en la usabilidad de la web a través de una estructura complementaria

    Get PDF
    La Web ha motivado la generación de herramientas que permiten, con distintos grados de sofisticación y precisión, manipular sus contenidos. Para ello, tratan una serie de problemas, relacionados con la naturaleza imperfecta y cambiante de todas las actividades humanas. Ésta se refleja en fenómenos como las ambigüedades, contradicciones y errores de los textos almacenados. Esta tesis presenta una propuesta para complementar la administración de contenidos en la Web y de esta manera facilitar el proceso de recuperación de información. Se presenta un prototipo, denominado Web Intelligent Handler (WIH), que implementa una serie de algoritmos básicos para manipular algunas características morfosintácticas de textos en castellano y, en base a ellas, obtener una representación resumida y alternativa de su contenido. En este contexto, se define una nueva métrica de ponderación para reflejar parte de la esencia morfosintáctica de los sintagmas. Además se define un esquema de interacción entre los módulos para regular la explotación de los textos. También se explora la capacidad de los algoritmos propuestos en el tratamiento de los textos, considerándolos como una colección de sintagmas, sujeta a factores tales como contradicciones, ambigüedades y errores. Otro aporte de esta tesis es la posibilidad de evaluar matemáticamente y de manera automática tipos de estilos de texto y perfiles de escritura. Se proponen los estilos literario, técnico y mensajes. También se proponen los perfiles documento, foro de intercambio, índice Web y texto de sitio blog. Se evalúan los tres estilos y los cuatro perfiles mencionados, los que se comportan como distintos grados de una escala de estilos y perfiles, respectivamente, cuando se los evalúa con la métrica morfosintáctica aquí definida. Adicionalmente, utilizando la misma métrica, es posible realizar una valoración aproximada y automática de la calidad de cualquier tipo de texto. Esta calificación resulta ser invariante a la cantidad de palabras, temática y perfil, pero relacionada con el estilo del escrito en cuestión.The Web motivated a set of tools for content handling with several levels of sophistication and precision. To do so, they deal with many unsolved problems in saved texts. All of them are related to the mutable and imperfect essence of human beings such as ambiguities, contradictions and misspellings. This theses presents a proposal to complement the Web content management and therefore to provide support to the information retrieval activity. A prototype named Web Intelligent Handler (WIH) is introduced to implement a set of algorithms that manage some morpho-syntactical features in Spanish texts. These features are also used to get a brief and alternate representation of its content. Within this framework, a new weighting metric is designed to reflect part of the syntagm morpho-syntactical essence. A module interaction approach is also outlined to rule the text processing output. Besides, this thesis analyzes the algorithms ability to handle texts considering them as a collection of syntagms affected by certain factors such as contradictions, ambiguities and misspellings. Perhaps, the main contribution of this thesis is the possibility to automatically mathematical evaluation of text styles and profiles. Three initial three styles are proposed here: literary, technical and message. Furthermore, the following writer profiles are proposed also: document, foro, Web-index and blog. All the three styles and four profiles were evaluated. They behave respectively as a part of a graduated scale of styles and profiles when the morpho-syntactical metric defined here is used. It is also possible to perform a kind of automatic rough text quality valuation. This is invariant to the text word quantity, topic and profile, but it is related to its style.Facultad de Informátic

    Development and Pedagogical Applications of an Audio-Textual English-Spanish Parallel Literary Corpus for the Study of English Phonology

    Get PDF
    The field of Data-Driven Learning (DDL) an approach to second language learning in which the student interacts directly with corpus data has made much progress in only the matter of a few decades. However, there are still certain frontiers that have thus far remained underexplored, mostly the result of limited technological capabilities for a good portion of the fields existence. Until now, DDL has mainly centered on text corpora, leaving aside such aspects of language learning as oral comprehension and speech production. This doctoral dissertation presents the LITTERA corpus, and examines in depth how this English-Spanish parallel literary speech corpus can be applied to language learning within the framework of DDL. The dissertation begins with a general overview of the current state of DDL, followed by a detailed description of the creation and design of the LITTERA crorpus. Then a series of potential pedagogical exercises are presented, aimed at showing how LITTERA can be applied to the learning of English phonology by Spanish-speaking students. The exercises set out to examine how the different features of English prosodyco-articulatory phenomena such as linking, blending, assimilation, elision, resyllabfication, palatization, as well as vowel reductioncan be studied in the data to improve students oral comprehension and speech production. Furthermore, possible DDL question prompts are proposed to explore the different features in the classroom

    Humour production in face-to-face interaction: a multimodal and cognitive study

    Get PDF
    El humor es una de las formas de comunicación más complejas que existen (Veale, Brône & Feyaerts, 2015). Entre las teorías lingüísticas sobre el humor, algunas tienen un enfoque semántico-pragmático, tales como la Semantic Script Theory of Humour (Raskin, 1984) o la General Theory of Verbal Humour (Attardo, 2001). Otras se inscriben en la Teoría de la Relevancia (Yus, 2016) y las hay también con una perspectiva más cognitiva (Giora, 1991, 2015; Coulson & Okley, 2005; Veale, Feyaerts & Brône, 2006). Por otra parte, se han realizado varios estudios sobre los marcadores multimodales de la ironía o el sarcasmo, cuyos resultados son dispares (Attardo, Eisterhold, Hay, and Poggi, 2003; Attardo, Pickering, and Baker, 2011; Attardo, Wagner, and Urios-Aparisi, 2011). Sin embargo, el humor no irónico ha sido objeto de menor estudio. Además, la mayor parte de los análisis se circunscriben al humor ensayado, con pocos estudios sobre el humor producido de forma espontánea (Bryant, 2010, Feyaerts, 2013; Tabacaru, 2014, etc.) y menos aún que conjuguen la perspectiva multimodal con la cognitiva. En esta tesis se analizan 14 entrevistas extraídas de The Late Show with Stephen Colbert con vistas a explicar la comunicación espontánea del humor desde el punto de vista multimodal y cognitivo. Los enunciados se han identificado como humorísticos cuando el público reaccionaba riendo. El análisis multimodal se ha realizado en ELAN, con cinco niveles de anotaciones: transcripción, tipo de humor (Feyaerts et al., 2010), mecanismo conceptual subyacente (Croft & Cruse, 2004), gestos y prosodia. El estudio prosódico se ha llevado a cabo con Praat, a fin de determinar si había un mayor contraste prosódico en enunciados humorísticos. Los resultados muestran que los mecanismos multimodales y cognitivos no difieren entre enunciados humorísticos y no humorísticos.Departamento de Filología InglesaDoctorado en Estudios Ingleses Avanzados: Lenguas y Culturas en Contact

    El discurso académico en la universidad: enfoques de corpus a la escritura de estudiantes

    Get PDF
    Tesis inédita de la Universidad Complutense de Madrid, Facultad de Filología, leída el 26-06-2020Academic writing in English has often been described as a primarily reader-oriented discourse, in which the structure, objectives, and claims are made explicit and carefully framed. Second or foreign language (L2) learners often transfer part of their first language (L1) writing cultureH into their L2 texts. This is problematic becauseacademic texts call for a high degree of disciplinarity: learners not only have to be aware of the conventions of the L2 regarding language use in a particular genre, but also of the academic conventions of their own discipline. The present doctoral dissertation demonstrates how corpus approaches to L2 texts can help to identify learner writing features when compared to native or expert counterparts. The four studies presented in this thesis highlight some of the linguistic challenges students face when writing in English for different academic purposes and disciplines at university, and provide pedagogical suggestions for the teaching and learning of certain linguistic features that can be useful for L2 academic writers and instructors. Study one examined the effects of content-based language instruction (CBI) on the production of academic vocabulary in a classroom writing task. The texts were written by first-year university students enrolled in two different instruction settings, English as medium of instruction (EMI) and the same programme in their L1, over one semester. Both the materials used in class and the learner corpus were examined in order to identify the degree to which they incorporate items from three lists of interdisciplinary academic terminology, namely the Academic Vocabulary (AVL), Collocations (ACL) and Formulas List (AFL). The results indicated that the learner corpus, both L1 and EMI learners, produced more general academic and technical words after the course; EMI learners also increased their use of collocations and formulas. The benefits of CBI for acquiring academic terminology and for developing disciplinary literacy are discussed in the light of the instruction settings under study…La escritura académica en ingles se ha descrito como un discurso orientado principalmente al lector, en el que la estructura, los objetivos y las afirmaciones se hacen explicitas y se enmarcan cuidadosamente. Los estudiantes de inglés como segunda lengua o como lengua extranjera (L2) a menudo transfieren parte de las convenciones de su lengua madre (L1) a sus textos en L2. Esto es problemático porque los textos académicos requieren un alto grado de disciplinaridad: los estudiantes no solo deben conocer las convenciones de la L2 con respecto al uso del lenguaje (por ejemplo,la gramática) en un género en particular, sino también las convenciones de su propia disciplina. La presente tesis doctoral demuestra como diferentes enfoques de corpus aplicados a la escritura de estudiantes en L2 pueden ayudar a identificar las características de este tipo de escritura, cuando se compara con la redacción académica de nativos o expertos. Los cuatro estudios que construyen esta tesis resaltan algunos de los desafíos lingüísticos a los que se enfrentan los estudiantes al escribir en inglés para diferentes propósitos académicos y disciplinas en la universidad y proporciona sugerencias pedagógicas para la enseñanza y el aprendizaje de ciertas construcciones lingüísticas que pueden ser útiles para escritores e instructores del inglés académico como L2. El estudio uno examino los efectos de la instrucción de lengua basada en contenido (CBI por sus siglas en ingles) en la producción de vocabulario académico en una tarea escrita de clase. Los textos fueron redactados por estudiantes universitarios de primer año inscritos en dos modalidades diferentes, inglés como medio de instrucción (EMI por sus siglas en ingles) y el mismo programa en la L1, durante un semestre. Tanto los materiales utilizados en la clase como el corpus de estudiantes se examinaron para identificar el grado en el que incorporan elementos de tres listas de terminología académica interdisciplinaria, específicamente las listas de vocabulario (AVL), de colocaciones (ACL) y de fórmulas (AFL) académicas. Los resultados indicaron que los estudiantes, tanto de L1 como de EMI, produjeron un mayor número de palabras académicas y técnicas después del curso; Los estudiantes de EMI también aumentaron el uso de colocaciones y formulas. Los beneficios de CBI para adquirir terminología académica y desarrollar la alfabetización disciplinaria se discuten a la luz de las dos modalidades estudiadas...Fac. de FilologíaTRUEunpu
    corecore