550 research outputs found

    Análisis de los comentarios en español de usuarios de Facebook para la clasificación de publicaciones utilizando técnicas inteligentes 

    Get PDF
    Actualmente, la interacción de las personas mediante redes sociales está crecimiento exponencialmente. Motivo por el cual se optó elegir una de ellas, como nuestra fuente de información, y a partir de la misma poder captar las espontáneas manifestaciones de sentimientos por parte de los usuarios. Los datos en cuestión fueron transformados, utilizando diversas técnicas de Procesamiento del Lenguaje Natural. Posteriormente se realizó el entrenamiento de algoritmos de Machine Learning, con el fin de ser utilizado para el Análisis de Sentimiento, llevando a cabo un estudio comparativo respecto de la performance de los mismos.Facultad de Informátic

    Análisis de los comentarios en español de usuarios de Facebook para la clasificación de publicaciones utilizando técnicas inteligentes 

    Get PDF
    Actualmente, la interacción de las personas mediante redes sociales está crecimiento exponencialmente. Motivo por el cual se optó elegir una de ellas, como nuestra fuente de información, y a partir de la misma poder captar las espontáneas manifestaciones de sentimientos por parte de los usuarios. Los datos en cuestión fueron transformados, utilizando diversas técnicas de Procesamiento del Lenguaje Natural. Posteriormente se realizó el entrenamiento de algoritmos de Machine Learning, con el fin de ser utilizado para el Análisis de Sentimiento, llevando a cabo un estudio comparativo respecto de la performance de los mismos.Facultad de Informátic

    Estudio de un sistema de clasificación automática de textos según las emociones del texto y el perfil de los autores

    Get PDF
    Debido al gran volumen de información que hay disponible en Internet se hace necesario el desarrollo de técnicas para la clasificación de esta información de manera automática. Además de las clasificaciones típicas que consisten en dividir los documentos a clasificar según su temática o su autor, por el gran uso que se hace hoy en día de herramientas como las redes sociales o los blogs y la cantidad de opiniones o críticas que los usuarios publican en ellos resulta interesante el estudio de sistemas que permitan clasificar todos estos textos publicados en Internet según el perfil de los autores o según las emociones que los textos expresan, ya que ello permitiría a los usuarios, por ejemplo, detectar los comentarios malos sobre un determinado producto que están interesados en adquirir. Este Proyecto Fin de Carrera estudiará los diferentes algoritmos de clasificación y las características del lenguaje que es necesario tener en cuenta para el desarrollo de un sistema de clasificación automática de textos según el sentimiento que expresan o según el perfil de los autores, así como las fases de las que consta el diseño de estos sistemas. Por último, se presentarán los resultados de algunos trabajos llevados a cabo en este campo por diferentes grupos de investigación.Due to the large amount of information available on the Internet nowadays it is necessary to develop new methods that allow to classify this documents automatically. In addition to the classical classifications that consist on classifying the documents according to its theme or author it is interesting to study new systems that allow to classify the texts that the users publish on social networks or blogs according to their age or genre or according to the sentiments that express their opinions on this texts. These systems would help the users for detecting bad reviews about a product they are interested in. The aim of this project is the study of the different classification algorithms and the language characteristics that are necessary for the development of an automatic texts classification system according to the sentiments of the texts and according to the author’s profile, as well as the different steps for the design of these systems. Finally, the results of some studies carried out in this field by different research groups will be presented.Ingeniería de Telecomunicació

    Reconocimiento de voz a través de técnicas híbridas utilizando modelos Markovianos y nuevos tipos de redes neuronales

    Get PDF
    The speech recognition module within a spoken dialogue system has become a key factor over time. The improvements that can be made with the new approaches and techniques have shown the evolutionary path that can be carried out in many processes of training and architecture definition in order to obtain superior recognition rates. In this sense, the present research has as objective to investigate new schemes to improve the word error rates (WER). The present work is based on the idea of using the deep neural networks and hidden Markov models (DNNHMM) architecture, which relies heavily on the behavior of the Gaussian mixture models and hidden Markov models (GMM-HMM) approach. First, experimental comparisons are made taking into consideration both approaches. The research process has been performed by using a corpus of personalized voices in Spanish from the northern central part of Mexico, based on a connected-words phone dialing task through the recognition of digit strings and personal name lists. The specified recognition task is defined as speaker-independent, text-dependent and mid-vocabulary. In the first experimental case study, a relative improvement of 30% was obtained using the acoustic model based on neural networks (WER of 1:49%), compared to the classic acoustic model based on Gaussian mixtures (2:12%). In the second case study, a relative improvement of 20:71% was achieved with the connectionist approach (neural networks, WER of 3:33%) with regard to the Gaussian mixture model (4:20%). The presented recognition task shows that the current approaches based on connectionist models, originated in artificial intelligence, surpass the traditional approaches of Gaussian mixtures in most of the speech recognition tasks. With the purpose of obtaining improvements in the recent speech recognition models, the second part of the thesis proposes new cost functions to train a neural network, calling these functions as non-uniform mapped criteria. These functions allow superior recognition rates in comparison with the conventional cross-entropy function within the training of a deep neural network, by using the back-propagation algorithm and an optimization with the gradient descent procedure. The obtained results (a relative improvement of 12:3% and 10:7% was achieved with the two proposed approaches, with respect to the conventional model of cross-entropy) have shown improvements in the word error rates, suggesting that the proposed cost functions have arguments to be considered as interesting alternatives in this type of tasks. Nevertheless, we must continue with the work of testing this and new cost function mechanisms with different voice corpus in several conditions with and without environmental noise, in addition to considering radical variations in the speakers’ speech sources.El módulo de reconocimiento de voz dentro de un sistema de dialogo hablado se ha convertido en un punto clave con el paso del tiempo. Las mejoras que se le pueden hacer con los nuevos enfoques y técnicas han mostrado el camino evolutivo que se puede dar en muchos procesos de entrenamiento y definición de arquitecturas con el fin de obtener mejores tasas de reconocimiento. En este sentido, el presente trabajo tiene como objetivo investigar esquemas que permitan mejorar las tasas de error por palabra (WER). El trabajo se fundamenta en la idea del uso de la arquitectura de red neuronal profunda y modelos ocultos de Markov (RNP-MOM), la cual se basa en gran medida en el comportamiento del enfoque de modelo de mezclas Gaussianas y modelos ocultos de Markov (MMG-MOM). En primera instancia se hacen comparaciones experimentales en el funcionamiento de ambos enfoques tomando como punto de partida un corpus de voces personalizado en Español de la parte norte central de México, basado en una tarea de marcado telefónico a través de reconocimiento de dígitos numéricos y nombres completos de personas, con independencia de locutor, con dependencia de texto, de tamaño mediano y con palabras conectadas. En el primer caso de estudio experimental se obtuvo una mejora relativa del 30% usando el modelo acústico de redes neuronales (WER de 1:49%), en comparación con el modelo clásico de mezclas Gaussianas (2:12%). En el segundo caso de estudio se consiguió una mejora relativa de 20:71% en la tasa de error por palabras del enfoque conexionista (redes neuronales, WER de 3:33%) con respecto al modelo de mezclas Gaussianas (4:20%). En las tareas de reconocimiento presentadas se muestra que los enfoques actuales cimentados en modelos conexionistas, con origen en la inteligencia artificial, superan en la mayoría de los procesos de reconocimiento a los enfoques tradicionales de mezclas Gaussianas. Con el fin de conseguir mejoras en los modelos recientes de reconocimiento de voz, en la segunda parte del trabajo se proponen nuevas funciones de costo para entrenar una red neuronal, denominando a estas funciones como mapeadas no uniformes. Estas funciones permiten obtener mejores tasas de reconocimiento en comparación con la función convencional de entropía cruzada dentro del entrenamiento de una red neuronal profunda, utilizando para ello el algoritmo de retro-propagación y una optimización con el gradiente descendente. Los resultados obtenidos (se consiguió una mejora relativa de 12:3% y 10:7% con los dos enfoques planteados, con respecto al modelo base de entropía cruzada) han mostrado mejoras en las tasas de error por palabra, sugiriendo que las funciones de costo propuestas tienen argumentos para ser consideradas como alternativas interesantes en este tipo de tareas. No obstante, se debe seguir en la labor de probar este y nuevos mecanismos de función de costo con diferentes corpus de voces y en diversos entornos con y sin ruido ambiental, además de considerar variaciones radicales en los origenes de voz de los locutores

    Aplicación del análisis de sentimientos a la evaluación de datos generados en medios sociales

    Get PDF
    El presente documento describe el proceso de investigación y desarrollo llevado a cabo en la disciplina del análisis de sentimientos. El objetivo principal de esta investigación fue evaluar la aplicación de las tecnologías del análisis de sentimientos al contenido generado por los usuarios de distintos medios sociales y presentar propuestas de aprovechamiento de los resultados de estas tecnologías a las organizaciones y usuarios. Se estudió el grado de confiabilidad de las herramientas en línea de análisis de sentimientos que trabajan con Twitter como fuente de corpus; se presentó una propuesta heurística que simplifica el análisis de sentimientos de los mensajes de Twitter centrándose en las opiniones directamente relacionadas con los objetos de opinión en lugar de determinar el sentimiento de forma global y que genera información adicional que pudiese resultar útil para el boca a boca electrónico; Finalmente se desarrolló y evaluó una propuesta de predicción de calificaciones cuantitativas de hoteles a partir de las críticas emitidas por los usuarios de sus servicios. Los resultados de esta investigación demuestran que el análisis de sentimientos es una disciplina que en su estado actual puede ser útil para la toma de decisiones para compañías e individuos y que sin embargo es susceptible de ser mejorada para el aprovechamiento de la cantidad masiva de opiniones en texto emitidas por los usuarios de los medios sociales

    El darwinismo cuántico: el concepto de información y la metafísica darwinista

    Get PDF
    La evolución mediante selección natural tiene como objetivo principal explicar el cambio y la adaptación al entorno de los organismos. Desde que Darwin publicara el El origen delas especies, este proceso ha adquirido un alto grado de abstracción gracias a la formulación matemática derivada de su incorporación a la genética de poblaciones. Esta formalización de la teoría no ha sido inocua. Ha venido acompañada de implicaciones metodológicas, epistemológicas y ontológicas importantes. En efecto, al desplazar el foco de atención desde el individuo a la población, la explicación descriptiva de la estructura causal propuesta por Darwin ha sido reemplazada por una explicación en términos estadísticos. Esto ha significado la separación entre la agencia y la contabilidad. Ésta es la clave para entender el denominado “darwinismo del gen”. Este subparadigma darwinista defiende una estrategia reductora que diferencia entre el replicador - el gen“inmortal”, que sería la causa relevante de la evolución- y el vehículo o interactor - el organismo-..

    Un modelo de resolución de ambigüedad de sentidos de palabras para mejorar la calidad de resultados en una arquitectura de educción de requisitos de software.

    Get PDF
    Resumen: El problema de ambigüedad de los sentidos de las palabras (polisémica) es un problema que es transversal a diversas áreas del conocimiento entre ellas a la ingeniería de software y sus sub-ramas como la educción de requisitos. En la fase de educción de requisitos se presentan problemas en la comunicación entre el analista y el interesado debido a factores como poca claridad del interesado, interpretación subjetiva del analista, dominios del discurso diferentes y ambigüedad semántica (polisémica, léxica y lingüística, etc.), estos factores dificultan la comprensión correcta y no ambigua de los requisitos. Las arquitecturas de educción de requisitos de software son el lugar donde se plasman los requisitos obtenidos desde el discurso y eso donde finalmente se evidencian los problemas de ambigüedad de esta fase (inconsistencia, duplicidad y no unificidad). En este trabajo se busca enfrentar la ambigüedad del sentido de las palabras presente en las arquitecturas de educción de requisitos de software y los errores asociados que genera la ambigüedad polisémica en requisitos de software. Para ello se propone un modelo de resolución de ambigüedad de sentidos de palabras para mejorar la calidad de resultados en una arquitectura de educción de requisitos de software.Abstract: The problem of ambiguity of word meanings (polysemy) is a problem that cuts across different knowledge areas including software engineering and its sub-branches such as requirements elicitation. In the phase of requirements elicitation problems arise in communication between the analyst and the person due to factors such as lack of clarity interested, subjective interpretation of the analyst different domains of discourse and semantic ambiguity (polysemy, lexical and linguistic, etc.) these factors make the correct and unambiguous understanding of the requirements. The architectures of software requirements elicitation are where the requirements obtained from the speech are reflected and that where finally the problems of ambiguity of this phase (inconsistency, duplicity and no unificidad) are evident. This paper seeks to address the ambiguity of the meaning of words present in the architectures of software requirements elicitation and associated errors generated by the polysemous ambiguity in software requirements. For these model ambiguity resolution senses of words is proposed to improve the quality of results architecture software requirements elicitation.Maestrí

    Descubrimiento automático de conocimiento

    Full text link
    [ES] En el presente proyecto se proponen, evalúan y estudian soluciones basadas en representaciones vectoriales continuas y discretas de palabras y frases a algunos de los problemas más significativos del descubrimiento automático de conocimiento aplicado al lenguaje natural y en general a lenguajes formales. Entre estos problemas destacan la detección de temática, identificación de idioma, análisis de sentimiento y detección de malware. Además, debido a la complejidad que supone el aprendizaje y la utilización de dichas representaciones vectoriales, se ha desarrollado un sistema que facilita las tareas de evaluación, preprocesamiento, extracción de características y visualización de resultados; generalizando los aspectos comunes a todos los problemas abordados. Destacamos, también, los buenos resultados obtenidos mediante el empleo de las representaciones mencionadas sobre el problema de detección de temática, que constituye el principal problema del proyecto, superando los mejores resultados conocidos, haciendo uso del mismo corpus, que han sido cosechados por investigadores de la Universidad Politécnica de Madrid.[EN] In this project, solutions based on continuous and discrete vector representations of word and sentences are proposed, evaluated and studied by using them in some of the most significant problems in automatic knowledge discovery applied to natural language and generally to formal languages. Among these problems, we highlight topic detection, language identification, sentiment analysis and malware detection. Furthermore, due to the complexity of learning and use of vector representations, a system that facilitates evaluation tasks, preprocessing, feature extraction and results display has been developed; generalizing this way the common aspects to all the addressed problems. We highlight too the good results obtained by means of using these representations on topic detection, which is the main problem of the project, surpassing the best known results that have been reached by Polytechnic University of Madrid researchers which uses the same corpus.[CA] En el present projecte es proposen, avaluen i estudien solucions basades en representacions vectorials contínues i discretes de paraules i frases a alguns dels problemes més significatius del descobriment automàtic de coneixement aplicat al llenguatge natural i en general a llenguatges formals. Entre aquests problemes destaquem la detecció de temàtica, identificació d’idiomes, anàlisi de sentiment i detecció de malware. A més, a causa de la complexitat que suposa l’aprenentatge i la utilització d’aquestes representacions vectorials, s’ha implementat un sistema que facilita les tasques d’avaluació, preprocessament, extracció de característiques i visualització de resultats; generalitzant els aspectes en comú a tots els problemes abordats. Destaquem, també, els bons resultats obtinguts mitjançant l’ús d’aquestes representacions en el problema de detecció de temàtica, que constitueix el principal problema del projecte i se superen els millors resultats coneguts, fent ús del mateix corpus, que han sigut aconseguits per investigadors de la Universitat Politècnica de Madrid.González Barba, JÁ. (2016). Descubrimiento automático de conocimiento. http://hdl.handle.net/10251/69227.TFG

    Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas

    Get PDF
    Una de las tareas más comunes para el ser humano, pero de con una alta complejidad es la agrupación y clasificación. Por otro lado, la debilidad del ser humano es la capacidad de procesar altas cantidades de datos y de forma rápida, característica propia de los computadores. Hoy en día se generan grandes cantidades de datos en el Internet, datos de distintos tipos y con diferentes objetivos. Para esto se necesitan de algoritmos de agrupación que nos permitan identificar los distintos grupos y características de estos grupos, de forma automática sin conocimiento previo. Por otro lado, es importante definir con claridad qué medida de similitud se utilizará en el proceso de agrupación, la gran mayoría de las medidas de agrupación se enfocan en un aspecto simétrico. En la presente tesis se propone una novedosa medida de similitud asimétrica, Coeficiente d Similitud Unilateral Jaccard (uJaccard), similitud no es igual entre dos objetos uJaccard(a,b) ≠ uJaccard(b,a). Así también se presenta una similitud asimétrica con pesos Coeficiente Ponderado de Similitud Unilateral Jaccard, la cual mide el nivel de incertidumbre entre dos objetos. Así también en esta tesis se propone una nueva propiedad de grafos, la propiedad paradigmática la cual considera la equivalencia regular como característica fundamental y por último se propone un algoritmo de agrupación PaC, por sus siglas en inglés Paradigmatic Clustering, el cual incorpora la uJaccard y la propiedad paradigmática. Se ha realizado evaluaciones extensivas con datos pequeños, reales, sintéticos y se ha procesado 3 grandes corpus. Se ha demostrado que PaC es un algoritmo que sobre pasa los resultados de algoritmos de agrupación del estado del arte. Más aun PaC es un algoritmo capas de ser ejecutado de forma paralela, distribuida, incremental y en flujo, características que se necesitan para el procedimiento de grandes cantidades de datos y de constante generación de dato

    El error de concordancia plural en español L2 desde una perspectiva emergente

    Get PDF
    Doctorado en Ciencias del Lenguaje. Mención en Lingüística Aplicada.En esta tesis se analizan, desde una perspectiva emergente, los errores de concordancia plural en cuatro aprendientes italianos de español L2: SONIA (nivel A), NATI (nivel B1), JAKO (nivel B2), MIRKA (nivel C1). Los objetivos principales son: (i) examinar los factores relacionados con la chance / riesgo de error; (ii) analizar la dinámica del error a nivel microscópico y macroscópico desde el enfoque de los sistemas complejos; (iii) predecir el error local de las últimas sesiones de los aprendientes. La orientación de esta tesis es fuertemente cuantitativa. Se han utilizado técnicas del ámbito de la estadística, la minería de da- tos y la física de los sistemas complejos. En cuanto al primer objetivo, se crearon las siguientes variables predictoras: (i) tipo de modificador (artículo definido, artículo indefinido, determinantes, adjetivos atributi- vos); (ii) si es a larga distancia; (iii) de más de dos términos; (iv) presencia de -e- epentética (controladores terminados en consonante); (v) propiedades del controlador (animicidad, concretud, familiaridad, imagi- nabilidad, frecuencia), (vi) similitud entre las terminaciones del español y el italiano; (vii) similitud entre las raíces léxicas de ambas lenguas; (viii) errores acumulados hasta la instancia en cuestión; (ix) posibles estrategias de aprendizaje (de 1 a 7), (x) frecuencia de TYPES de instancias de concordancia en corpus EsTenTen y en el propio. Las variables respuesta fueron: (i) binaria [error / no error]; (ii) categórica [error de: género, -e- epentética, plural, mixto]; (iii) tiempo hasta que se produce un error; (iv) serie simbólica. En general se hallaron efectos de: (a) tipo de modificador: los errores suben con determinantes / adjetivos res- pecto del artículo definido; (b) género: plurales masculinos más fáciles que los femeninos; (c) familiaridad / frecuencia del controlador [errores bajan]; (d) animicidad [errores suben para animados]; (e) frecuencia de TYPES [error baja a más frecuencia]. El efecto de -e- epentética fue facilitador, contra las expectativas. Se interpretó que la estrategia 5, que hacía bajar el error, tuvo efecto benéfico para los plurales en -es. La distancia de terminaciones evidenció el efecto inverso al esperado, se lo explicó analizando las instancias del nivel de referencia. El efecto de errores acumulados resultó débil. Respecto del segundo objetivo, la hipótesis principal fue tratar al error como atractor. A nivel microscópico, se utilizaron los resultados de los análisis estadísticos para sesgar el flujo a atractores en tres simulaciones basadas en sistemas dinámicos. En general, se logró emular el patrón global de error pero se aproximó menos el patrón de error por sesiones. En cuanto al nivel macroscópico, se usaron medidas de detección de cambio de régimen y redes comple- jas. Se logró identificar grupos de sesiones con dinámica similar y regiones aproximadas de transiciones, usando la variable respuesta de serie simbólica. Las redes complejas arrojaron efectos a nivel de las pala- bras respecto de: modificador, familiaridad / frecuencia y de imaginabilidad / concretud del controlador, -e- epentética y similitud entre raíz y desinencia. También hubo efectos para las palabras terminadas en -e. Para el tercer objetivo se emplearon, entre otras predictoras, información proveniente de las redes complejas. En general no se logró superar el 80% de precisión. Los atributos derivados del grafo fueron seleccionados como influyentes para todos los alumnos.Fil: Marafioti, Pablo Ezequiel. Universidad Nacional de Córdoba. Facultad de Lenguas; Argentina
    corecore