932 research outputs found

    Clasificación de textos basada en redes neuronales

    Full text link
    [CA] Cada vegada són més les empreses que opten per utilitzar la intel·ligència artificial per a automatitzar tasques dins de les organitzacions, permetent així reassignar al personal dedicat a aquestes i aconseguint una major productivitat. És el cas de la Corporació Valenciana de Mitjans de Comunicació, la qual ha plantejat la necessitat d’aconseguir un sistema d’ajuda a l’equip de documentació i catalogació. La finalitat d’aquest projecte és determinar si és possible el desenvolupament d’un sistema d’aprenentatge automàtic el qual siga capaç de fer aquesta tasca de manera automàtica o bé proporcionar ajuda a l’equip de documentació i catalogació en la seua tasca, suggerint-li un llistat de categories ordenat segons la seua probabilitat. Per abordar el problema d’automatitzar el més possible la tasca de classificació en el context d’Apunt, s’ha triat treballar en l’àrea dels noticiaris. La corporació ens ha proporcionat les dades d’aquest sistema, el qual han estat elaborant des de fa quasi dues dècades. L’objectiu principal d’aquest treball fi de grau és abordar un problema de classificació multiclasse, emmarcat dins del camp de la intel·ligència artificial del processament de llenguatge natural, aplicat a la tasca de la catalogació de noticiaris en català. En el projecte es realitza i analitza un corpus únic, utilitzat per a entrenar diferents classificadors basats en aprenentatge automàtic, entre ells un basat en xarxes neuronals, per a realitzar una solució software d’ajuda a la classificació per a la Corporació[ES] Cada vez son más las empresas que optan para utilizar la inteligencia artificial para automatizar tareas dentro de las organizaciones, permitiendo así reasignar al personal dedicado a estas y consiguiendo una mayor productividad. Es el caso de la Corporació Valenciana de Mitjans de Comunicació, la cual ha planteado la necesidad de conseguir un sistema de ayuda al equipo de documentación y catalogación. La finalidad de este proyecto es determinar si es posible el desarrollo de un sistema de aprendizaje automático el cual sea capaz de hacer esta tarea de manera automática o bien proporcionar ayuda al equipo de documentación y catalogación en su tarea, sugiriéndole un listado de categorías ordenado según su probabilidad. Para abordar el problema de automatizar el más posible la tarea de clasificación en el contexto de Apunte, se ha elegido trabajar en el área de los noticieros. La corporación nos ha proporcionado los datos de este sistema, el cual han estado elaborando desde hace casi dos décadas. El objetivo principal de este trabajo final de grado es abordar un problema de clasificación multiclase, enmarcado dentro del campo de la inteligencia artificial del procesamiento de lenguaje natural, aplicado a la tarea de la catalogación de noticieros en catalán. En el proyecto se realiza y analiza un corpus único, utilizado para entrenar diferentes clasificadores basados en aprendizaje automático, entre ellos un basado en redes neuronales, para realizar una solución software de ayuda a la clasificación para la Corporación.[EN] More and more companies are choosing to use artificial intelligence to automate tasks within organizations, allowing the reassignment of dedicated staff and achieving greater productivity. This is the case of the Corporació Valenciana de Mitjans de Comunicació, which has raised the need to get a system of help to the documentation and cataloguing team. The purpose of this project is to determine whether it is possible to develop a machine learning system which is capable of doing this task automatically or to provide assistance to the documentation and cataloguing team in their task, suggesting a list of categories ordered according to their probability. To address the problem of automating the classification task in the context of Àpunt, we have chosen to work in the news area. The corporation has provided us with the data from this system, which they have been developing for almost two decades. The main objective of this final degree work is to address a problem of multiclass classification, framed within the field of artificial intelligence of natural language processing, applied to the task of cataloguing news in Catalan. The project performs and analyses a unique corpus used to train different classifiers based on machine learning, including a neural network-based, to perform a software solution to help the classification for the Corporation.Campos Mocholí, M. (2021). Clasificación de textos basada en redes neuronales. Universitat Politècnica de València. http://hdl.handle.net/10251/172276TFG

    Clasificación de textos informáticos mediante indexación semántica latente

    Get PDF
    Debido a la ingente cantidad de información en la web, se requiere de un mecanismo para recuperar contenidos relacionados entre sí en función de su significado semántico. La clasificación de textos tiene como objetivo asociar textos considerando no solo palabras o términos, sino también conceptos. En esta investigación, se presenta una aplicación que crea una matriz de aproximación que contiene información latente relacionada al concepto. De allí el nombre de indexación semántica latente (ISL). Asimismo, dispone de un árbol morfológico que contiene, en cada nodo, una raíz morfológica y un apuntador que se dirige a un conjunto de textos o términos asociados a la misma raíz. Cuando se ingresa un texto, se le clasifica considerando la técnica de análisis léxico e ISL

    Aplicación de Algoritmos de Votación en la Clasificación de Textos

    Get PDF
    Artículo en revista indizada publiaco en Revista electrónica de Computación, Informática, Biomédica y Electrónica (ReCIBE)Los algoritmos de clasificación basada en la similitud entre textos, es un tópico de gran interés lo que es motivado por la relevancia y complejidad que presenta esta problemática y la gran cantidad de ámbitos que requieren de sistemas automatizados para resolverla. Por mencionar algunos ejemplos, se requiere de aplicaciones capaces de determinar de manera automática la sensibilidad de la información textual almacenada en archivos para decidir el grado de protección o diferenciar datos sensibles de aquellos que no lo son para prevenir o detectar su fuga o accesos no autorizados. Esto puede ser establecido con base en la importancia de su contenido. Así, una forma de abordar el problema es desde la perspectiva de la clasificación de textos con base en contexto. Para ello, es necesario desarrollar algoritmos que consideren la semántica de los documentos desde el momento que se generan y obtener su clasificación mediante un conjunto de características que incluyan rasgos textuales. En este trabajo, se definen los rasgos textuales y la relación semántica entre rasgos textuales. Considerando que un texto es la concatenación de rasgos textuales, la relación semántica de los rasgos textuales permite determinar su grado de pertenencia a un tema. Para la clasificación de textos, se aplican las etapas del modelo de algoritmos de votación desarrollados bajo el Reconocimiento Lógico Combinatorio de Patrones

    Clasificación de textos basado en los modelos pre-entrenados BERT

    Full text link
    [ES] El objetivo principal de este proyecto de fin de grado, consiste en el estudio de las técnicas de procesamiento del lenguaje natural. En concreto, se revisa una red neuronal, entrenada por Google y denominada Bert. Bert, ha sido entrenado con un conjunto de datos enorme, y con ello, es capaz de procesar textos y obtener información sobre cada una de las palabaras que lo forman y el contexto en el que se encuentran. Partiendo de Bert, se diseñan e implementan varios modelos con aplicaciones en el mundo real, que permiten automatizar tareas relacionadas con el procesamiento de textos. Para la realización de los modelos, se emplean técnicas de inteligencia artificial y machine learning.[CA] L’objectiu principal d’aquest projecte de fi de grau, consisteix en l’estudi de les tècniques de processament de el llenguatge natural. En concret, es revisa una xarxa neuronal, entrenada per Google, anomenada Bert. Bert, ha estat entrenat amb un conjunt de dades enorme, i amb això, és capaç de processar textos i obtenir informació sobre cadascuna de les paraules que el formen i el context en què es troben. Partint de Bert, es dissenyen i implementen diversos models amb aplicacions en el món real, que permeten automatitzar tasques relacionades amb el processament de textos. Per a la realització dels models, s’empren tècniques d’intel·ligència artificial i machine learning.[EN] The main objective of this end grade project consists in the study of the techniques of natural languaje processing. Mainly, it is reviewed a neural network, trained by Google named Bert. Bert, has been trained with a big ammount of data, with this, is able to process a text and obtain information about each of the words that make it up and the context they are. Starting from Bert, some models with actual world aplication, are designed, those allows automate tasks related with text processing. For make the models, techniques of inteligence artificial and machine learning are used.Sánchez Mascarell, M. (2021). Clasificación de textos basado en los modelos pre-entrenados BERT. Universitat Politècnica de València. http://hdl.handle.net/10251/173625TFG

    Aplicación del aprendizaje automático en la clasificación de textos cortos: un caso de estudio en el conflicto armado colombiano

    Get PDF
    Trabajo de investigaciónColombia lleva alrededor de 50 años en guerra y aunque se realizo un proceso de paz, las disputas continúan entre los diferentes actores, un medio en donde se desarrollan las disputas son las redes sociales, los diferentes actores expresan sus opiniones, existen diferentes técnicas y algoritmos que permiten procesar estos textos con la finalidad de que el gobierno Colombiano tenga claridad de como se encuentra el conflicto en la actualidad y como debe proceder de una manera eficiente.RESUMEN INTRODUCCIÓN 1. GENERALIDADES 2. ANTECEDENTES 3. PLANTEAMIENTO DEL PROBLEMA 4. OBJETIVOS 5. JUSTIFICACIÓN 6. DELIMIETACIÓN 7. MARCO REFERENCIAL 8. ESTADO DEL ARTE 9. METODOLOGIA 10. PLATAFORMAS 11. ENTORNOS 12. ALGORITMOS 13. HISTORIAS DE USUARIO 14. DESARROLLO DEL COMPONENTE 15. RESULTADOS 16. CONCLUSIONES 17. TRABAJO FUTURO BIBLIOGRAFÍA ANEXOSPregradoIngeniero de Sistema

    Transferencia de Tareas basada en Implicación Textual para la Clasificación de Textos en Catalán en Escenarios de Pocos Datos

    Get PDF
    This study investigates the application of a state-of-the-art zero-shot and few-shot natural language processing (NLP) technique for text classification tasks in Catalan, a moderately under-resourced language. The approach involves reformulating the downstream task as textual entailment, which is then solved by an entailment model. However, unlike English, where entailment models can be trained on huge Natural Language Inference (NLI) datasets, the lack of such large resources in Catalan poses a challenge. In this context, we comparatively explore training on monolingual and (larger) multilingual resources, and identify the strengths and weaknesses of monolingual and multilingual individual components of entailment models: pre-trained language model and NLI training dataset. Furthermore, we propose and implement a simple task transfer strategy using open Wikipedia resources that demonstrates significant performance improvements, providing a practical and effective alternative for languages with limited or no NLI datasets.El presente trabajo investiga una reciente técnica de aprendizaje zero-shot y few-shot, en que la tarea objetivo se reformula como un problema de implicación textual y se resuelve mediante un modelo de implicación (un modelo de lenguaje entrenado con un corpus de implicación o NLI (Natural Language Inference)), para abordar tareas de clasificación textual en catalán, una lengua con recursos limitados que dispone de un corpus de NLI de tamaño moderado. Comparamos su aplicación con los recursos en esta lengua frente a los multilingües, de tamaño muy superior. Así mismo, identificamos las ventajas y limitaciones de ambas aproximaciones y el impacto del tamaño y la lengua del modelo de lenguaje y corpus de NLI. Finalmente, implementamos una estrategia de transferencia de aprendizaje, empleando datos extraídos de Wikipedia, que consigue mejoras significativas y demuestra ser una opción interesante para lenguas que disponen de un corpus de NLI reducido o carecen de él.This work was funded by the Generalitat de Catalunya (Projecte AINA), the Basque Government (excellence research group IT1570-22) and by the DeepKnowledge (PID2021-127777OB-C21) project funded by MCIN/AEI/10.13039/501100011033

    Clasificación de textos cortos para un sistema monitor de los Social Media

    Get PDF
    We present the system for the classification of sentences and short texts into Marketing Mix classes developed within the LPS-BIGGER project. The system classifies short texts from Social Media into categories that are considered business indicators to monitor consumer's opinion.Presentamos el sistema de clasificación de oraciones y textos cortos en categorías del Marketing Mix desarrollado en el marco del proyecto LPS-BIGGER. El sistema clasifica textos cortos de los Social Media en categorías consideradas como indicadores de negocio para poder monitorizar la opinión de los consumidores.This work was supported by the Spanish CIEN project LPS-BIGGER cofunded by the MINECO and CDTI (IDI-20141260) and TUNER project TIN2015-65308-C5-5-R (MINECO/FEDER, UE)

    Clasificación de prescripciones médicas en español

    Get PDF
    El siguiente trabajo describe la problemática de la clasificación de textos médicos libres en español. Y propone una solución basada en los algoritmos de clasificación de texto: Naïve Bayes Multinomial (NBM) y Support Vector Machines (SVMs) justificando dichas decisiones y mostrando los resultados obtenidos con ambos métodos.Eje: XV Workshop de Agentes y Sistemas InteligentesRed de Universidades con Carreras de Informática (RedUNCI

    Luis de Góngora y la fábula mitológica del Siglo de Oro: clasificación de textos y análisis léxico con métodos informáticos

    Get PDF
    After the dissemination of Luis de Góngora’s Fábula de Polifemo y Galatea in 1613, a number of Spanish poets expanded the treatment of myths and established a dialogue with Ovid’s Metamorphoses. As a result of this process, a great amount of short epic poems was composed in the following years. This article aims to achieve three objectives: firstly, to describe in quantitative terms a corpus of 25 epyllia written by poets such as Luis de Góngora, Lope de Vega, Francisco de Quevedo, Juan de Jáuregui and Villamediana, among others. Secondly, the texts are classified using the Stylo package, which takes into account the most frequent words in an attempt to verify the traditional division between “dark” poets and “light” poets. Finally, the lexicon of these works is analyzed taking into consideration the keywords generated with AntConc, and the relative frequency of learned borrowings obtained using R

    Análisis comparativo de algoritmos de Deep Learning para la clasificación de textos

    Get PDF
    Dado el extenso crecimiento que ha experimentado la información en la actualidad, su gestión y análisis se ha convertido en algo esencial para su aplicación en cualquier ámbito de la sociedad, aportando un valor incremental a los datos. Este cambio de mentalidad plantea numerosas cuestiones que requieren técnicas de aprendizaje automático para su resolución. La clasificación automática de textos favorece el desarrollo de un gran número de ellas, atractivo por el que se ha desarrollado todo un sistema que simule el tratamiento de datos textuales, desde la extracción hasta la etapa final, la categorización. Para llevar a cabo dicho proceso, este proyecto incorpora numerosas técnicas y tecnologías, tanto de procesamiento de lenguaje natural como de construcción de redes neuronales, que han hecho posible su implementación. La creación de una araña web será el punto de partida de este proceso, que continuará con el desarrollo de la fase de preprocesamiento, técnicas de data cleansing para seleccionar la información relevante, que favorecerán el funcionamiento del objetivo final, el clasificador. En esta última etapa se aplicarán técnicas de Deep Learning para implementar las soluciones, a la vez que se establecerá una comparativa entre las prestaciones obtenidas. Implementar el circuito expuesto necesitará una previa investigación sobre la situación actual de la materia en cuestión, incluyendo los métodos existentes y sus respectivas ventajas y limitaciones, así como los principios teóricos que dan sustento a su desarrollo y las aplicaciones afines a este problema. En conclusión, se analizará la influencia de las redes neuronales en los problemas de clasificación de textos mediante la alteración de los parámetros que las componen, y su utilidad frente a los algoritmos clásicos de aprendizaje automático.Ingeniería Telemátic
    corecore