3 research outputs found

    ACOTA: Tecnologías de etiquetado semiatomático y colabotarivo

    Get PDF
    A pesar de que ha existido un gran número de trabajos enfocados en el desarrollo de técnicas de recomendado automático y/o social, dichos componentes suelen estar enfocados en idiomas en concreto (generalmente en inglés), existiendo poca investigación centrada en técnicas de este tipo que permitan procesar contenidos multilingües. Este trabajo presenta una metodología multilingüe híbrida semiautomática y colaborativa que combina técnicas de etiquetado automático con técnicas de recomendación de etiquetas basadas en el comportamiento previo de los usuarios con el sistema. Además se presenta una implementación de referencia llamada ACOTA (Automatic Collaborative Tagging) con el fin de demostrar las funcionalidades de recomendación aportadas que permiten asistir a usuarios, tanto nóveles como expertos, a la hora de etiquetar recursos multilingües. Por último, se ha desarrollado un estudio en el contexto de gestión del conocimiento empresarial, con el fin de evaluar la precisión y calidad del funcionamiento de la metodología propuesta

    Integración de minería de texto y técnicas multivariantes en el entorno digital, aplicado al análisis organizacional PESTEL

    Get PDF
    [ES]La presente tesis doctoral aborda, desde lo fundamental, el estudio y aplicabilidad del análisis estadístico de datos textuales (AEDT) a partir de la minería de datos de texto (MDT); atendiendo a las técnicas de investigación más activas a nivel mundial, así como a nuevas perspectivas en el área adelantadas en el Departamento de Estadística de la Universidad de Salamanca. Cada vez es más frecuente un notable aumento en publicaciones, a nivel mundial, que dan cabida al tratamiento de datos textuales en diferentes disciplinas. Al respecto, diversos estudios presentan a consideración de la comunidad científica, la aplicación de distintos enfoques metodológicos para la adquisición, estructuración y análisis de conocimiento a partir de información obtenida desde repositorios digitales en la web. Efectivamente, múltiples metodologías se han desarrollado entorno al AEDT. Se remontan desde las generadas por la escuela francesa, donde se postuló el análisis factorial de correspondencia (AFC) para estudiar las tesis de Chomsky sobre la lengua (Benzécri, 1964). Continuando con técnicas como las desarrolladas por la escuela anglosajona, como el análisis semántico latente (LSA) (Deerwester et al., 1990), el cual incorpora la semántica latente de los textos analizados. En la actualidad, con el incremento de aportes en relación con las técnicas en el campo del aprendizaje automático, la escuela americana ha desarrollado la técnica conocida como Asignación Latente de Dirichlet (LDA) (D. M. Blei et al., 2003). Se trata de un método de aprendizaje no supervisado utilizado para descubrir tópicos ocultos en grandes conjuntos de datos, usándose en el campo de la minería de datos textuales, análisis de sentimientos y recuperación de información. En correspondencia, la presente investigación asume como propósito fundamental el desarrollo de una estrategia metodológica basado en los métodos Biplot para dar un impulso analítico al modelo de Asignación Latente de Dirichlet, integrando la adquisición de información a partir del entorno digital Web, con aplicación al análisis organizacional PESTEL. De esta manera, nuestra investigación pretende contribuir con el desarrollo de una aplicación escrita en lenguaje R (Posit, 2023; R Development Core Team, 2000), denominada LDABiplots (Pilacuan-Bonete, Galindo-Villardón, Delgado-Álvarez, et al., 2022). Destacamos especialmente la utilización del HJ-BIPLOT, que permite generar representaciones Biplot de las matrices de probabilidad transformadas mediante el cálculo de una medida de centralidad del modelado de tópicos LDA, a partir del procesamiento de los datos no estructurados y extraídos desde la web de noticias de Google e integrando el análisis del entorno organizacional PESTEL al HJ-Biplot. Esto representa una ventaja significativa, porque se constituye en una representación conjunta de filas o sujetos objeto de estudio y columnas o variables de estudio. Por ende, proporciona una representación visual intuitiva de la estructura del modelo, permitiendo identificar patrones y tendencias ocultas y ayudando en la selección de términos o palabras, así como de documentos relevantes
    corecore