Search CORE

387 research outputs found

Inducción de medidas de similitud utilizadas en tareas de procesamiento de lenguaje natural, mediante regresión simbólica

Author: VAZQUEZ VAZQUEZ EDER
VAZQUEZ VAZQUEZ EDER
Publication venue: 'Universidad Autonoma del Estado de Mexico'
Publication date: 11/12/2017
Field of study

El procesamiento de lenguaje natural es un conjunto de tareas capaces de procesar el lenguaje oral y escrito mediante técnicas y métodos computacionales que permitan la manipulación de lenguajes naturales. Algunas de las tareas creadas para el procesamiento de lenguaje natural son: Recuperación de información, Detección de plagio, Desambiguación del sentido de las palabras, Generación automática de resúmenes, Detección de nombres de medicamentos confusos, Detección de palabras clave, Clasificación de tópicos, Clasificación de documentos, entre otras. A pesar de que el objetivo de las tareas del procesamiento de lenguaje natural es especifico para cada una de ellas, estas tareas comparten algunas características en común. Las características que comparten la mayoría de las tareas de procesamiento de lenguaje natural son: 1) Precisan una forma de representación de la información, 2) Requieren una función de similitud, 3) Necesitan un paradigma de evaluación. Estos tres elementos son de gran importancia al momento de desarrollar una aplicación de procesamiento de lenguaje natural, pero el elemento que más impacto tienen en su desarrollo es la función de similitud que se utiliza. Existe una gran cantidad de funciones de similitud que pueden ser aplicadas al procesamiento de lenguaje natural, y aunque estas funciones han demostrado generar buenos resultados, aún no existe una “mejor” función de similitud que genere resultados competitivos para todas las tareas de procesamiento de lenguaje. Existen investigaciones que tratan de resolver el problema de la “mejor” función de similitud, pero centrándose en generar una función de similitud especifica a cada aplicación de procesamiento de lenguaje natural. Una de las maneras de crear funciones de similitud especificas es a través de la inducción de los valores generados por funciones de similitud conocidas. A este proceso se le conoce como inducción de funciones de similitud. Existen diversos métodos de inducción, entre ellos análisis de regresión (técnica estadística), algoritmos genéticos, redes neuronales, regresión simbólica (técnicas computacionales), entre otras. Es esta tesis se propuso la aplicación de un método de inducción de funciones de similitud a través de regresión simbólica. El método propuesto genera funciones de similitud a través de la combinación inducida de valores de similitud generados por funciones conocidas. El método propuesto fue probado en dos tareas del procesamiento de lenguaje natural: detección de nombres de medicamentos confusos y desambiguación del sentido de las palabras. Los resultados del método propuesto aplicado a ambas tareas del procesamiento de lenguaje natural mencionadas generan buenas funciones de similitud, y los resultados al 7 evaluar las tareas con sus respectivos paradigmas de evaluación, muestran resultados superiores a otros métodos del estado del arte de dichas tareas. Los resultados finales de la evaluación de las tareas de procesamiento de lenguaje natural utilizando la función de similitud inducida por el método propuesto general resultados superiores a otros trabajos, por lo cual se comprueba la eficacia del método propuesto. El método propuesto está diseñado de tal forma que puede ser utilizado por diversas tareas del procesamiento de lenguaje natural, siempre y cuando estas cumplan con los tres componentes antes mencionados (una forma de representación de la información, función de similitud y paradigma de evaluación). En esta tesis se demuestra la aplicación del método a la detección de nombres de medicamentos confusos y desambiguación del sentido de las palabras, y se deja abierta la futura aplicación del método a otras tareas del procesamiento de lenguaje natural

Repositorio Institucional de la Universidad Autónoma del Estado de México

Eventos y entidades que se pueden echar: Combinatoria léxica y representación del significado de un verbo polisémico

Author: Montagna Dora
Publication venue
Publication date: 01/01/2015
Field of study

Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Filosofía y Letras, Departamento de Filología Española. Fecha de lectura: 25-06-201

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Biblos-e Archivo

Redefining dot objects through their corpus behavior

Author: Berri Marina
Publication venue: 'SciELO Agencia Nacional de Investigacion y Desarrollo (ANID)'
Publication date: 01/08/2019
Field of study

El trabajo revisa la noción de tipo complejo del Lexicón Generativo (Pustejovsky, 1995) a partir del análisis contextual contrastivo de nombres tradicionalmente considerados tipos complejos (‘libro’, ‘cena’, ‘escuela’) y de nombres considerados tipos unificados (‘botella’) y pseudo-tipos complejos (‘cerdo’). Se concluye que tienen un comportamiento dispar respecto de dos variables, la copredicación y la ambigüedad, pero que también hay diferencias entre los mismos nombres clasificados como tipos complejos. Se discute la importancia de estas variables en base a la redefinición de los mecanismos generativos (Pustejovsky, 2008, 2011). Finalmente, se propone una articulación de la noción de tipo complejo con la Teoría de las Normas y Explotaciones (Hanks, 2013), que tome en cuenta las características del perfil combinatorio de estas palabras.We aim to revise dot objects (Pustejovsky, 1995) through a contrastive contextual analysis of nouns traditionally classified as dot objects ('libro', 'book'; 'cena', 'dinner'; 'escuela', 'school') and nouns classified as unified types ('botella', 'bottle') and as pseudo-dot objects ('cerdo', 'pig/pork'). We show that these classes have a different behavior regarding copredication and ambiguity, but that there are also differences between the nouns traditionally classified as dot objects. The importance of these variables is discussed taking into account the changes introduced in the generative mechanisms (Pustejovsky, 2008, 2011). Finally, an articulation between the notion of dot objects and the Theory of Norms and Exploitations (Hanks, 2013) is proposed; this articulation takes into account the combinatory profile of these words.Fil: Berri, Marina. Universidad de Buenos Aires; Argentina. Universidad Nacional de General Sarmiento; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentin

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

CONICET Digital

Un modelo de resolución de ambigüedad de sentidos de palabras para mejorar la calidad de resultados en una arquitectura de educción de requisitos de software.

Author: Gómez Arias Sebastián Alonso
Publication venue
Publication date: 30/04/2015
Field of study

Resumen: El problema de ambigüedad de los sentidos de las palabras (polisémica) es un problema que es transversal a diversas áreas del conocimiento entre ellas a la ingeniería de software y sus sub-ramas como la educción de requisitos. En la fase de educción de requisitos se presentan problemas en la comunicación entre el analista y el interesado debido a factores como poca claridad del interesado, interpretación subjetiva del analista, dominios del discurso diferentes y ambigüedad semántica (polisémica, léxica y lingüística, etc.), estos factores dificultan la comprensión correcta y no ambigua de los requisitos. Las arquitecturas de educción de requisitos de software son el lugar donde se plasman los requisitos obtenidos desde el discurso y eso donde finalmente se evidencian los problemas de ambigüedad de esta fase (inconsistencia, duplicidad y no unificidad). En este trabajo se busca enfrentar la ambigüedad del sentido de las palabras presente en las arquitecturas de educción de requisitos de software y los errores asociados que genera la ambigüedad polisémica en requisitos de software. Para ello se propone un modelo de resolución de ambigüedad de sentidos de palabras para mejorar la calidad de resultados en una arquitectura de educción de requisitos de software.Abstract: The problem of ambiguity of word meanings (polysemy) is a problem that cuts across different knowledge areas including software engineering and its sub-branches such as requirements elicitation. In the phase of requirements elicitation problems arise in communication between the analyst and the person due to factors such as lack of clarity interested, subjective interpretation of the analyst different domains of discourse and semantic ambiguity (polysemy, lexical and linguistic, etc.) these factors make the correct and unambiguous understanding of the requirements. The architectures of software requirements elicitation are where the requirements obtained from the speech are reflected and that where finally the problems of ambiguity of this phase (inconsistency, duplicity and no unificidad) are evident. This paper seeks to address the ambiguity of the meaning of words present in the architectures of software requirements elicitation and associated errors generated by the polysemous ambiguity in software requirements. For these model ambiguity resolution senses of words is proposed to improve the quality of results architecture software requirements elicitation.Maestrí

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Universidad Nacional De Colombia - Repositorio Institucional UN

La naturaleza de la ambigüedad léxica: un estudio sobre los sustantivos en español

Author: Horno Chéliz Carmen
López Cortés Natalia
Publication venue: Universidad de Zaragoza, Prensas de la Universidad
Publication date: 01/01/2021
Field of study

La mayor parte de las palabras de una lengua son ambiguas, en el sentido de que se pueden usar para expresar diferentes significados. Ahora bien, hay una diferencia importante en virtud de si el hablante considera que estos significados mantienen relación entre sí (palabras polisémicas) o no (palabras homónimas). Esta distinción tiene consecuencias tanto en el procesamiento de las unidades como en su almacenamiento en el lexicón mental. El objetivo de esta tesis es estudiar en profundidad estos fenómenos lingüísticos, desde un punto de vista tanto teórico como experimental. Se parte de una interpretación subjetiva de las palabras ambiguas, en oposición a otras aproximaciones posibles, como la diacrónica (basada en la historia etimológica de las unidades léxicas). Es por ello que este trabajo se enmarca en la lingüística teórica pero también en la Psicolingüística. Así, por un lado, en esta tesis se profundiza, desde un punto de vista teórico, en la naturaleza de la ambigüedad léxica. Para ello, se abordan cuestiones como qué criterios seguir para distinguir la polisemia de la homonimia, qué se han dicho sobre ellas desde las diferentes corrientes lingüísticas y qué ventajas pueden tener este tipo de unidades a nivel cognitivo. En este sentido, se propone una visión de las palabras ambiguas como un elemento cohesionador del lexicón, pues favorece conexiones entre elementos y ayuda a la creación de “mundos pequeños”. La ambigüedad presenta, además, una clara función económica, dado que reduce el número de elementos léxicos, al unir bajo una única forma diferentes significados. Se trata, por último, de un elemento altamente adaptativo, que podría ponerse en relación con el nacimiento del lenguaje humano articulado. Por otra parte, el caso de las palabras ambiguas es especialmente interesante para entender cómo se almacena la información semántica en la memoria a largo plazo. Es por ello que se han utilizado como base para la elaboración de modelos de representación, que han de ser respaldados por evidencias empíricas, como las recogidas en este trabajo. Así, en esta tesis se presentan dos diseños experimentales: una serie de tareas de decisión léxica, donde las palabras aparecen en aislado, y una tarea de lectura monitorizada con eye-tracker, donde las palabras aparecen insertadas en un contexto. Estas tareas experimentales se basan en un corpus de sustantivos diseñado como parte del presente trabajo. En él se recoge (por medio de cuestionarios) la interpretación subjetiva que hablantes nativos de español hacen del número de significados de las palabras y del grado de relación entre sus significados. El objetivo de estos trabajos experimentales es estudiar dos fases distintas en el acceso a la información semántica: el acceso léxico (en el que se reconoce la forma fonológica de la palabra) y el acceso semántico (en el que se selecciona el significado más adecuado al contexto). En todos los casos se compararon datos relativos a palabras homónimas, polisémicas y monosémicas, con el objetivo de determinar si existía algún tipo de efecto según el número de significados y su relación. El estudio de todos estos datos empíricos aporta varias evidencias sobre cómo lidiamos los hablantes con las palabras con varios significados: en primer lugar, las palabras ambiguas (ya sean polisémicas u homónimas) generan una ventaja de procesamiento cuando se presentan en aislado, puesto que son reconocidas significativamente más rápido y de manera más precisa que las monosémicas. En segundo lugar, cuando la palabra ambigua se presenta insertada en un contexto, se produce un comportamiento diferencial según el tipo de ambigüedad: en concreto, el contexto facilitador parece afectar positivamente tan solo a las palabras homónimas. La representación mental de estas unidades ha de ser compatible con los resultados encontrados en tareas experimentales, de manera que, en este caso, nuestros datos son un indicio a favor de un modelo de almacenamiento sensible a distinción entre homonimia y polisemia. Un resultado obtenido inesperadamente en esta investigación es una tendencia de nuestros informantes a interpretar palabras históricamente polisémicas (aquellas cuyo origen etimológico es único) como homónimas, es decir, como con significados no relacionados. En el último capítulo de esta tesis se ha realizado un estudio lingüístico de este fenómeno: los datos muestran que las palabras históricamente polisémicas tienden a interpretarse como homónimas cuando uno de los sentidos se diferencia del resto por un rasgo semántica o pragmáticamente importante (este efecto no se encuentra, por el contrario, si los rasgos que diferencian a los distintos significados son gramaticales). Todo parece apuntar, por tanto, a que este proceso de homonimización de la polisemia puede ser un medio de dar relevancia cognitiva a significados importantes. <br /

Repositorio Universidad de Zaragoza

Sistema de recuperación conceptual mediante niveles semánticos en la representación de esquemas de metadatos

Author: Palacios Madrid Vicente
Publication venue
Publication date: 20/09/2010
Field of study

Los metadatos son descripciones que facilitan la recuperación, utilización y gestión de recursos de información. Así, pueden ser utilizados para organizar recursos electrónicos heterogéneos o facilitar la interoperatividad. Normalmente, la semántica de los elementos de vocabularios se define localmente, con escasa formalización y sin contemplar definiciones consensuadas con otros vocabularios, con el consiguiente perjuicio para la interoperatividad. En esta tesis se propone generar una representación semántica de los vocabularios de metadatos, que permita eliminar la ambigüedad sintáctica y semántica, facilitando así la interoperatividad. La representación propuesta posee dos vertientes: la primera, denominada esquema cualificado, tiene como objetivo la sustitución del esquema original y proporciona una estructura homogénea para todos los esquemas, al tiempo que permite incluir la semántica de cada uno de sus elementos; la segunda, denominada ontología específica, permite establecer definiciones formales de los elementos incluidos en el esquema original, al tiempo que proporciona soporte a aspectos como la sinonimia y el plurilingüismo. La representación semántica de los esquemas se completa con el uso de un recurso semántico, contra el cual se interrelacionarán los conceptos de las ontologías específicas mediante un proceso de alineamiento, articulado a través de una ontología independiente. De este modo se facilitará la interoperatividad entre esquemas, la recuperación conceptual de documentos y esquemas, así como el uso más amigable de los vocabularios. El desarrollo de la propuesta incluye la definición del modo de generar las representaciones semánticas de los esquemas, la definición de los recursos necesarios y la metodología generada a partir de la aplicación del método sobre un conjunto de esquemas y recursos semánticos seleccionados como ejemplo. Además, se propone una metodología de documentación y cualificación de esquemas, desarrollada a partir de la experiencia con los esquemas seleccionados. La metodología incluye el procedimiento y plantillas documentales, para la creación de un documento de descripción del esquema, completado con dos vistas: una dirigida a usuarios y otra en RDF, procesable automáticamente. Seguidamente, se establecen los requisitos para la selección de la ontología de referencia y, tras un proceso de evaluación de recursos existentes, se selecciona uno a modo de ejemplo. A continuación se establece el modo de interrelacionar los conceptos de los distintos componentes, ontología específica y ontología de referencia, a partir de la evaluación de los métodos existentes. Establecido el método, y mediante un método inductivo, se genera una metodología de interrelación de conceptos, a partir del proceso de alineamiento entre el conjunto de esquemas seleccionados y la ontología de referencia. Para finalizar el planteamiento, éste será validado y verificado con el objetivo de comprobar que responde cubre los objetivos establecidos de forma correcta. La solución complementa y es compatible con propuestas anteriores de definición y gestión de metadatos como los registros de metadatos o las propuestas del DCMI. Además, contempla criterios de modularidad, extensibilidad, refinamiento y plurilingüísmo. Una vez establecida y probada la propuesta, se incluye la especificación del Proceso de Desarrollo de un sistema informático que la soporte. Con el fin de evaluar el planteamiento, se realiza una valoración y comparación del método propuesto, con otros métodos de recuperación alternativos, siguiendo la metodología DESMET. Además, se realiza un análisis y valoración de los resultados generados. Finalmente, se incluyen las conclusiones obtenidas durante la elaboración de la propuesta y las posibles líneas de investigación que quedan abiertas para futuros trabajos

Universidad Carlos III de Madrid e-Archivo

Procedimento para a construção de índices semânticos baseados em ontologias de domínio específico

Author: Cobos Lozada Carlos Alberto
Niño Zamabrano Miguel Ángel
Pezo Diana Maribel
Pérez Dignory Jimena
Ramírez González Gustavo Adolfo
Publication venue: 'Universidad Libre'
Publication date: 30/06/2017
Field of study

The current on-line search systems are still far from providing users with contextualized and accurate answers because users have to make additional efforts to filter and evaluate information supplied to them. One of the ways to improve the results is to create semantic indexes that incorporate knowledge and intelligent processing of resources. When it comes to the implementation of semantic indexes, however, there is a wide range of research studies with their own procedures and lengthy conceptualization, implementation, and refinement processes. Thus, it becomes of the utmost importance to define an instrument that allows creating these kinds of structures in a more structured and efficient manner. This work proposes a procedure that makes it possible to create semantic indexes based on domain-specific ontologies. The methodology entailed creating a state of the art of the various existing proposals and drawing a general procedure that incorporates the best practice for creating semantic indexes. Then, a semantic index was created of the domain of plants and their components. The results demonstrate that the defined process is a good instrument that guides implementation of these kinds of structures with a high degree of customization. Nevertheless, it also shows that the process depends on other variables in building and processing the index, so the design needs to be re-examined until the desirable results are obtained.Los sistemas de búsqueda web actual, aún están lejos de ofrecer respuestas completamente contextualizadas y precisas a los usuarios, ya que éstos deben hacer esfuerzos adicionales de filtrado y evaluación de la información proporcionada. Una forma de mejorar los resultados, es mediante la creación de índices semánticos, los cuales incorporan conocimiento y procesamiento inteligente de los recursos. Sin embargo, al momento de implementar los índices semánticos, existen variadas investigaciones con procedimientos propios y con procesos largos de conceptualización, implementación y afinación. Es así, como se vuelve importante definir una herramienta que permita crear este tipo de estructuras de una manera más estructurada y eficiente. El presente trabajo propone un procedimiento que permite crear índices semánticos a partir de ontologías de dominio específico. La metodología utilizada fue la creación de un estado del arte de las diferentes propuestas existentes y posteriormente la abstracción de un procedimiento general que incorpore las mejores prácticas de creación de índices semánticos. Posteriormente, se creó un índice semántico el dominio de las plantas y sus componentes. Los resultados permiten establecer que el proceso definido es una buena herramienta para guiar la implementación de este tipo de estructuras con un alto grado de personalización. Sin embargo, también evidenció que el proceso depende otras variables al momento de construir y trabajar con el índice y por lo tanto se debe reevaluar el diseño hasta obtener los resultados deseados.Os atuais sistemas de busca na web, estão ainda longe de fornecer respostas plenamente contextualizadas e precisas aos usuários, uma vez que eles devem fazer esforços extras de filtragem e avaliação das informações fornecidas. Uma forma de melhorar os resultados é através da criação de índices semânticos, que incorporam conhecimento e processamento inteligente dos recursos. No entanto, no momento de implementar os índices semânticos, existem variadas investigações com procedimentos próprios e com longos processos de conceituação, implementação e ajuste. É assim que se torna importante definir uma ferramenta que permita criar este tipo de estruturas de uma maneira mais estruturada e eficiente. Este artigo propõe um procedimento que permite criar índices semânticos a partir de ontologias de domínio específico. A metodologia usada foi a criação de um estado de arte das diferentes propostas existentes e posteriormente a abstração de um procedimento geral que incorpore as melhores práticas de criação de índices semânticos. Posteriormente, foi criado um índice semântico de masterização das plantas e seus componentes. Os resultados permitem estabelecer que o processo definido é uma boa ferramenta para orientar a implementação deste tipo de estruturas com um alto grau de personalização. No entanto, também revelou que o processo depende de outras variáveis no momento de construir e trabalhar com o índice e, portanto, o projeto deve ser reavaliado até obter os resultados desejado

Portal de Revistas de la Universidad Libre Colombia

Comprensión y generación de lenguaje natural en un sistema de diálogo usando inteligencia artificial para servicios telefónicos de información de cines

Author: Mesones Barrón Carlos Enrique
Publication venue: 'Baishideng Publishing Group Inc.'
Publication date: 09/05/2011
Field of study

El presente documento es resultado de la investigación sobre automatización inteligente - comprensión y generación de lenguaje natural- en un Sistema de Diálogo, para optimar el servicio de atención al cliente actualmente brindado por un operador vía telefónica.Tesi

Registro Nacional de Trabajos de Investigación y Proyectos

Repositorio Digital de Tesis PUCP

Semántica para lenguajes sublunares. El ocasionalismo de Charles Travis en el debate sobre las relaciones entre la semántica y la pragmática

Author: Giraldo Giraldo Ana María
Publication venue: 'Editorial de la Facultad de Filosofia y Letras - Universidad de Buenos Aires'
Publication date: 07/02/2019
Field of study

El tema general de esta tesis doctoral es la filosofía del lenguaje. Esta área de la filosofía me ha apasionado desde mis años de estudio de pregrado, cuando incursioné por primera vez en los textos de Frege, Russell y Wittgenstein. Las ideas de este último autor me han atrapado con tal fascinación que, al día de hoy, diez años después, siguen siendo uno de los insumos principales de mis construcciones teóricas. Me he propuesto entender a la perfección el debate que se suscita en esta filosofía regional. Siendo más específica, mi mayor interés ha sido desentrañar el problema del significado. Esto es, el problema de la naturaleza de las propiedades semánticas de una expresión lingüística y de la relación que éstas tienen con las propiedades pragmáticas de la misma. Siendo la filosofía del lenguaje el ámbito en el que se inscribe esta tesis, su tema específico es el problema de la interfaz entre semántica y pragmática. Mi propósito es mostrar que hay un camino hasta ahora inexplorado. Se puede proponer una forma teórica de dar cuenta de los fenómenos de la identidad y la modulación sin la necesidad de plantear una distinción entre semántica y pragmática y, mucho menos, una reducción de una dimensión a la otra. Es posible lograr una sistematización, que no sea ni exclusivamente semántica, ni exclusivamente pragmática, que dé cuenta de estos casos particulares de uso de una expresión sin devenir lingüística. La crisis de la filosofía del lenguaje puede resumirse de la siguiente manera: o bien la filosofía del lenguaje sigue sus lineamientos tradicionales y no logra su objetivo o deja de ser filosofía en aras de cumplirlo. Mi propuesta es que hay una manera diferente a estas dos de hacer algo frente a esta crisis, de no permanecer ciego frente a ella, pero tampoco de rendirse ante el escepticismo de quienes dan por terminada su labor en el esclarecimiento de la naturaleza y funcionamiento de nuestras prácticas lingüísticas. Mi tesis es que la teoría de la sensibilidad a la ocasión de Travis cumple con este propósito.Pontificia Universidad JaverianaThe general theme of this doctoral thesis is the philosophy of language. This area of philosophy has fascinated me since my undergraduate years, when I first entered the texts of Frege, Russell and Wittgenstein. The ideas of this last author have caught me with such fascination that, today, ten years later, they are still one of the main inputs of my theoretical constructions. I have proposed to understand perfectly the debate that arises in this regional philosophy. Being more specific, my main interest has been to unravel the problem of meaning. That is, the problem of the nature of the semantic properties of a linguistic expression and the relationship they have with the pragmatic properties of a linguistic expression. As the philosophy of language is the field in which this thesis is inscribed, its specific theme is the problem of the interface between semantics and pragmatics. My purpose is to show that there is a path so far unexplored. A theoretical way of accounting for the phenomena of identity and modulation can be proposed without the need to make a distinction between semantics and pragmatics and, much less, a reduction from one dimension to the other. It is possible to achieve a systematization, which is neither exclusively semantic nor exclusively pragmatic, which accounts for these particular cases of the use of an expression without linguistic evolution. The crisis of the philosophy of language can be summarized as follows: either the philosophy of language follows its traditional guidelines and does not achieve its objective or ceases to be philosophy in order to fulfill it. My proposal is that there is a different way to these two to do something in the face of this crisis, not to remain blind to it, but not to surrender to the skepticism of those who have finished their work in clarifying the nature and functioning of our linguistic practices. My thesis is that the theory of sensitivity to the occasion of Travis fulfills this purpose.Doctor en FilosofíaDoctorad

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Repositorio Institucional - Pontificia Universidad Javeriana

Biblioteca Digital Icaro

Hábitos de recuperación de información en motores de búsqueda sobre lectura, libro y bibliotecas en España (2004-2016)

Author: Serrano Cobos Jorge
Tramullas Saz Jesús
Publication venue: Universidad de Zaragoza, Prensas de la Universidad
Publication date: 01/01/2019
Field of study

Este estudio ha tenido como objetivo principal, determinar si los procesos y expresiones de búsqueda de información usados por los usuarios en motores de búsqueda, pueden considerarse como indicadores válidos para el análisis y estudio de los hábitos de lectura y posible interés en otros contenidos ofrecidos por las bibliotecas en España (como videojuegos o películas).Para ello se propone un modelo de análisis con el que caracterizar el lenguaje de búsqueda de información de los usuarios de internet que utilizan Google desde España como motor de búsqueda, durante el período 2004 - 2016, al recuperar información sobre la temática de el libro, la lectura y las bibliotecas, desde una perspectiva histórica. De esta forma, se pretende aportar otra dimensión de análisis a los estudios que hay sobre los hábitos lectores en general, y en España en particular.La investigación tiene distintas áreas de aplicación del análisis del lector online, como son el apoyo a la indización y la clasificación bibliotecaria, la evaluación de colecciones y evaluación de la biblioteca, los estudios de necesidades de usuarios, la evaluación de OPACs, la analítica digital de sedes web bibliotecarias o de entidades de la industria del libro como editoriales, librerías online, metabuscadores o páginas web de autores y aficionados a la literatura en general, márketing bibliotecario y promoción de la lectura, márketing editorial, altmetría y Cibermetría, y SEO (posicionamiento en buscadores).El análisis de los hábitos lectores tiene una larga tradición en el mundo offline, especialmente en España, donde el estudio de hábitos lectores es parte importante de la investigación estratégica en la industria del libro. Se han observado distintas metodologías, desde las encuestas y entrevistas a lectores y no lectores, el análisis de las ventas de los libros y la prensa, a los análisis de logs de préstamos en las bibliotecas. Al entrar la lectura en e-book, y en plena era de internet, la lectura en papel ha sufrido una transformación, donde los usuarios leen por internet, y buscan su lectura (ya sea online, en e-book y/o en papel) a través de internet, especialmente utilizando motores de búsqueda, de los que en España el más utilizado desde principios de siglo hasta al menos su segunda década, es el buscador Google. Es este cambio en las formas de localizar la lectura la que impulsa a investigar cómo se busca información sobre lectura en un buscador. Anteriormente se han investigado distintos aspectos de esas conductas con distintas técnicas, dentro del paradigma cognitivo, y especialmente dentro de la disciplina de Information Seeking, de difícil traducción al castellano. Tras consignar modelos de búsqueda por parte de los usuarios, como el modelo Berrypicking de Marcia Bates, el modelo de Ellis, el modelo de Marchionini, o el modelo de Information Search Process de Kulthau, entre otros, se han estudiado otros modificadores de las conductas de búsqueda, llegando a los estudios sobre User Search Behaviour (conductas de búsqueda de los usuarios en motores de búsqueda) especialmente en lo concerniente a desambiguación y expansión de búsquedas, análisis longitudinal de la búsqueda y de Query Intent, el Análisis de la Intención de Búsqueda. Es precísamente en la combinación de las últimas subdisciplinas hacia donde se ha orientado este estudio. Para la investigación, en 2010 se obtuvieron de Google Keywords Planner, el log de búsquedas del motor de búsqueda, más de 30.000 expresiones de búsqueda (denominadas también como frases de búsqueda, queries, keywords o palabras clave), relacionadas con el libro, la lectura y las bibliotecas, segmentando la búsqueda de palabras clave en lenguaje español y de búsquedas realizadas desde España. Posteriormente se extrajo de Google Trends la serie de datos histórica de 2004 a 2016, para conformar un dataset con el que realizar un análisis longitudinal. Las palabras clave fueron clasificadas en 27 facetas distintas de intención de búsqueda, contando también con aspectos modificadores y aspectos lingüísticos. Por tanto, no se clasificó en categorías mutuamente excluyentes, sino de forma que una expresión de búsqueda pudiera pertenecer a varias clases simultáneamente, por lo que se realizó un estudio del grado de co-ocurrencia entre las distintas facetas y los aspectos identificados. Posteriormente se dividió las palabras clave, previamente clasificadas, en una nueva dimensión de análisis, según si era atemporales (tenían una larga vida en la serie histórica) o temporales, aquellas que nacían en algún momento de la serie, y tenían una vida más o menos corta. Como resultado del análisis, se han estudiado las posibilidades de la facetación como mejora o complemento de otras técnicas de análisis de las intenciones de búsqueda (query intent analysis); se ha validado el modelo de estudio, de forma que sirva como corpus inicial de futuros análisis de los hábitos de lectura en España, a través del estudio de la demanda de información en motores de búsqueda; se han descubierto subtipos de intenciones de búsqueda propias del sector de la lectura, dentro de las clasificaciones clásicas de intención de búsqueda (navegacional, informacional, transaccional); se han identificado facetas adicionales, distintas a las meramente temáticas, como modificadores y características del lenguaje, que sirvan para completar las facetas halladas desde una dimensión de análisis complementaria; se ha descubierto distintos patrones de uso, nuevas abreviaturas y formas de expresión de las necesidades de búsqueda de los usuarios mediante lenguaje natural, se han relacionado distintos media y/o formatos, así como, tras una selección mediante una muestra intencionada, de distintos ejemplos paradigmáticos de estas tendencias de búsqueda y sus posibles relaciones causales, observando los efectos producidos en la evolución de la demanda de información en torno a la lectura a través de la búsqueda de la misma en Google en España, durante el período 2004-2016.Finalmente, y además de constatar su utilidad para completar otras técnicas de análisis de los hábitos lectores mediante una técnica inédita hasta la fecha en el sector del libro y bibliotecas, se ha observado cómo la demanda de información sobre lectura en España realizada a través de motores de búsqueda, ha decaído de forma paulatina en la segunda década del siglo XXI, coincidiendo con otras investigaciones y datos de estudios de hábitos lectores realizadas a través de otras técnicas. <br /

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Repositorio Universidad de Zaragoza