550 research outputs found
Análisis de los comentarios en español de usuarios de Facebook para la clasificación de publicaciones utilizando técnicas inteligentes
Actualmente, la interacción de las personas mediante redes sociales está crecimiento exponencialmente. Motivo por el cual se optó elegir una de ellas, como nuestra fuente de información, y a partir de la misma poder captar las espontáneas manifestaciones de sentimientos por parte de los usuarios. Los datos en cuestión fueron transformados, utilizando diversas técnicas de Procesamiento del Lenguaje Natural. Posteriormente se realizó el entrenamiento de algoritmos de Machine Learning, con el fin de ser utilizado para el Análisis de Sentimiento, llevando a cabo un estudio comparativo respecto de la performance de los mismos.Facultad de Informátic
Análisis de los comentarios en español de usuarios de Facebook para la clasificación de publicaciones utilizando técnicas inteligentes
Actualmente, la interacción de las personas mediante redes sociales está crecimiento exponencialmente. Motivo por el cual se optó elegir una de ellas, como nuestra fuente de información, y a partir de la misma poder captar las espontáneas manifestaciones de sentimientos por parte de los usuarios. Los datos en cuestión fueron transformados, utilizando diversas técnicas de Procesamiento del Lenguaje Natural. Posteriormente se realizó el entrenamiento de algoritmos de Machine Learning, con el fin de ser utilizado para el Análisis de Sentimiento, llevando a cabo un estudio comparativo respecto de la performance de los mismos.Facultad de Informátic
Estudio de un sistema de clasificación automática de textos según las emociones del texto y el perfil de los autores
Debido al gran volumen de información que hay disponible en Internet se hace necesario el desarrollo de técnicas para la clasificación de esta información de manera automática. Además de las clasificaciones típicas que consisten en dividir los documentos a clasificar según su temática o su autor, por el gran uso que se hace hoy en día de herramientas como las redes sociales o los blogs y la cantidad de opiniones o críticas que los usuarios publican en ellos resulta interesante el estudio de sistemas que permitan clasificar todos estos textos publicados en Internet según el perfil de los autores o según las emociones que los textos expresan, ya que ello permitiría a los usuarios, por ejemplo, detectar los comentarios malos sobre un determinado producto que están interesados en adquirir.
Este Proyecto Fin de Carrera estudiará los diferentes algoritmos de clasificación y las características del lenguaje que es necesario tener en cuenta para el desarrollo de un sistema de clasificación automática de textos según el sentimiento que expresan o según el perfil de los autores, así como las fases de las que consta el diseño de estos sistemas.
Por último, se presentarán los resultados de algunos trabajos llevados a cabo en este campo por diferentes grupos de investigación.Due to the large amount of information available on the Internet nowadays it is necessary to develop new methods that allow to classify this documents automatically.
In addition to the classical classifications that consist on classifying the documents according to its theme or author it is interesting to study new systems that allow to classify the texts that the users publish on social networks or blogs according to their age or genre or according to the sentiments that express their opinions on this texts. These systems would help the users for detecting bad reviews about a product they are interested in.
The aim of this project is the study of the different classification algorithms and the language characteristics that are necessary for the development of an automatic texts classification system according to the sentiments of the texts and according to the author’s profile, as well as the different steps for the design of these systems. Finally, the results of some studies carried out in this field by different research groups will be presented.Ingeniería de Telecomunicació
Reconocimiento de voz a través de técnicas híbridas utilizando modelos Markovianos y nuevos tipos de redes neuronales
The speech recognition module within a spoken dialogue system has become
a key factor over time. The improvements that can be made with the new approaches
and techniques have shown the evolutionary path that can be carried out in
many processes of training and architecture definition in order to obtain superior
recognition rates. In this sense, the present research has as objective to investigate
new schemes to improve the word error rates (WER). The present work is based
on the idea of using the deep neural networks and hidden Markov models (DNNHMM)
architecture, which relies heavily on the behavior of the Gaussian mixture
models and hidden Markov models (GMM-HMM) approach. First, experimental
comparisons are made taking into consideration both approaches. The research
process has been performed by using a corpus of personalized voices in Spanish
from the northern central part of Mexico, based on a connected-words phone
dialing task through the recognition of digit strings and personal name lists. The
specified recognition task is defined as speaker-independent, text-dependent and
mid-vocabulary. In the first experimental case study, a relative improvement of
30% was obtained using the acoustic model based on neural networks (WER
of 1:49%), compared to the classic acoustic model based on Gaussian mixtures
(2:12%). In the second case study, a relative improvement of 20:71% was achieved
with the connectionist approach (neural networks, WER of 3:33%) with regard to
the Gaussian mixture model (4:20%). The presented recognition task shows that
the current approaches based on connectionist models, originated in artificial
intelligence, surpass the traditional approaches of Gaussian mixtures in most
of the speech recognition tasks. With the purpose of obtaining improvements in the recent speech recognition models, the second part of the thesis proposes new
cost functions to train a neural network, calling these functions as non-uniform
mapped criteria. These functions allow superior recognition rates in comparison
with the conventional cross-entropy function within the training of a deep neural
network, by using the back-propagation algorithm and an optimization with
the gradient descent procedure. The obtained results (a relative improvement of
12:3% and 10:7% was achieved with the two proposed approaches, with respect
to the conventional model of cross-entropy) have shown improvements in the
word error rates, suggesting that the proposed cost functions have arguments to
be considered as interesting alternatives in this type of tasks. Nevertheless, we
must continue with the work of testing this and new cost function mechanisms
with different voice corpus in several conditions with and without environmental
noise, in addition to considering radical variations in the speakers’ speech
sources.El módulo de reconocimiento de voz dentro de un sistema de dialogo hablado
se ha convertido en un punto clave con el paso del tiempo. Las mejoras que
se le pueden hacer con los nuevos enfoques y técnicas han mostrado el camino
evolutivo que se puede dar en muchos procesos de entrenamiento y definición
de arquitecturas con el fin de obtener mejores tasas de reconocimiento. En este
sentido, el presente trabajo tiene como objetivo investigar esquemas que permitan
mejorar las tasas de error por palabra (WER). El trabajo se fundamenta en
la idea del uso de la arquitectura de red neuronal profunda y modelos ocultos
de Markov (RNP-MOM), la cual se basa en gran medida en el comportamiento
del enfoque de modelo de mezclas Gaussianas y modelos ocultos de Markov
(MMG-MOM). En primera instancia se hacen comparaciones experimentales en
el funcionamiento de ambos enfoques tomando como punto de partida un corpus
de voces personalizado en Español de la parte norte central de México, basado en
una tarea de marcado telefónico a través de reconocimiento de dígitos numéricos
y nombres completos de personas, con independencia de locutor, con dependencia
de texto, de tamaño mediano y con palabras conectadas. En el primer caso
de estudio experimental se obtuvo una mejora relativa del 30% usando el modelo
acústico de redes neuronales (WER de 1:49%), en comparación con el modelo clásico
de mezclas Gaussianas (2:12%). En el segundo caso de estudio se consiguió
una mejora relativa de 20:71% en la tasa de error por palabras del enfoque conexionista
(redes neuronales, WER de 3:33%) con respecto al modelo de mezclas
Gaussianas (4:20%). En las tareas de reconocimiento presentadas se muestra que
los enfoques actuales cimentados en modelos conexionistas, con origen en la inteligencia artificial, superan en la mayoría de los procesos de reconocimiento a
los enfoques tradicionales de mezclas Gaussianas. Con el fin de conseguir mejoras
en los modelos recientes de reconocimiento de voz, en la segunda parte del
trabajo se proponen nuevas funciones de costo para entrenar una red neuronal,
denominando a estas funciones como mapeadas no uniformes. Estas funciones
permiten obtener mejores tasas de reconocimiento en comparación con la función
convencional de entropía cruzada dentro del entrenamiento de una red neuronal
profunda, utilizando para ello el algoritmo de retro-propagación y una optimización
con el gradiente descendente. Los resultados obtenidos (se consiguió una
mejora relativa de 12:3% y 10:7% con los dos enfoques planteados, con respecto
al modelo base de entropía cruzada) han mostrado mejoras en las tasas de error
por palabra, sugiriendo que las funciones de costo propuestas tienen argumentos
para ser consideradas como alternativas interesantes en este tipo de tareas.
No obstante, se debe seguir en la labor de probar este y nuevos mecanismos de
función de costo con diferentes corpus de voces y en diversos entornos con y sin
ruido ambiental, además de considerar variaciones radicales en los origenes de
voz de los locutores
Aplicación del análisis de sentimientos a la evaluación de datos generados en medios sociales
El presente documento describe el proceso de investigación y desarrollo llevado a cabo en la disciplina del análisis de sentimientos. El objetivo principal de esta investigación fue evaluar la aplicación de las tecnologías del análisis de sentimientos al contenido generado por los usuarios de distintos medios sociales y presentar propuestas de aprovechamiento de los resultados de estas tecnologías a las organizaciones y usuarios. Se estudió el grado de confiabilidad de las herramientas en línea de análisis de sentimientos que trabajan con Twitter como fuente de corpus; se presentó una propuesta heurística que simplifica el análisis de sentimientos de los mensajes de Twitter centrándose en las opiniones directamente relacionadas con los objetos de opinión en lugar de determinar el sentimiento de forma global y que genera información adicional que pudiese resultar útil para el boca a boca electrónico; Finalmente se desarrolló y evaluó una propuesta de predicción de calificaciones cuantitativas de hoteles a partir de las críticas emitidas por los usuarios de sus servicios. Los resultados de esta investigación demuestran que el análisis de sentimientos es una disciplina que en su estado actual puede ser útil para la toma de decisiones para compañías e individuos y que sin embargo es susceptible de ser mejorada para el aprovechamiento de la cantidad masiva de opiniones en texto emitidas por los usuarios de los medios sociales
El darwinismo cuántico: el concepto de información y la metafísica darwinista
La evolución mediante selección natural tiene como objetivo principal explicar el cambio y la adaptación al entorno de los organismos. Desde que Darwin publicara el El origen delas especies, este proceso ha adquirido un alto grado de abstracción gracias a la formulación matemática derivada de su incorporación a la genética de poblaciones. Esta formalización de la teoría no ha sido inocua. Ha venido acompañada de implicaciones metodológicas, epistemológicas y ontológicas importantes. En efecto, al desplazar el foco de atención desde el individuo a la población, la explicación descriptiva de la estructura causal propuesta por Darwin ha sido reemplazada por una explicación en términos estadísticos. Esto ha significado la separación entre la agencia y la contabilidad. Ésta es la clave para entender el denominado “darwinismo del gen”. Este subparadigma darwinista defiende una estrategia reductora que diferencia entre el replicador - el gen“inmortal”, que sería la causa relevante de la evolución- y el vehículo o interactor - el organismo-..
Un modelo de resolución de ambigüedad de sentidos de palabras para mejorar la calidad de resultados en una arquitectura de educción de requisitos de software.
Resumen: El problema de ambigüedad de los sentidos de las palabras (polisémica) es un problema que es transversal a diversas áreas del conocimiento entre ellas a la ingeniería de software y sus sub-ramas como la educción de requisitos. En la fase de educción de requisitos se presentan problemas en la comunicación entre el analista y el interesado debido a factores como poca claridad del interesado, interpretación subjetiva del analista, dominios del discurso diferentes y ambigüedad semántica (polisémica, léxica y lingüística, etc.), estos factores dificultan la comprensión correcta y no ambigua de los requisitos. Las arquitecturas de educción de requisitos de software son el lugar donde se plasman los requisitos obtenidos desde el discurso y eso donde finalmente se evidencian los problemas de ambigüedad de esta fase (inconsistencia, duplicidad y no unificidad). En este trabajo se busca enfrentar la ambigüedad del sentido de las palabras presente en las arquitecturas de educción de requisitos de software y los errores asociados que genera la ambigüedad polisémica en requisitos de software. Para ello se propone un modelo de resolución de ambigüedad de sentidos de palabras para mejorar la calidad de resultados en una arquitectura de educción de requisitos de software.Abstract: The problem of ambiguity of word meanings (polysemy) is a problem that cuts across different knowledge areas including software engineering and its sub-branches such as requirements elicitation. In the phase of requirements elicitation problems arise in communication between the analyst and the person due to factors such as lack of clarity interested, subjective interpretation of the analyst different domains of discourse and semantic ambiguity (polysemy, lexical and linguistic, etc.) these factors make the correct and unambiguous understanding of the requirements. The architectures of software requirements elicitation are where the requirements obtained from the speech are reflected and that where finally the problems of ambiguity of this phase (inconsistency, duplicity and no unificidad) are evident. This paper seeks to address the ambiguity of the meaning of words present in the architectures of software requirements elicitation and associated errors generated by the polysemous ambiguity in software requirements. For these model ambiguity resolution senses of words is proposed to improve the quality of results architecture software requirements elicitation.Maestrí
Descubrimiento automático de conocimiento
[ES] En el presente proyecto se proponen, evalúan y estudian soluciones basadas en
representaciones vectoriales continuas y discretas de palabras y frases a algunos de los problemas
más significativos del descubrimiento automático de conocimiento aplicado al lenguaje natural y
en general a lenguajes formales. Entre estos problemas destacan la detección de temática,
identificación de idioma, análisis de sentimiento y detección de malware.
Además, debido a la complejidad que supone el aprendizaje y la utilización de dichas
representaciones vectoriales, se ha desarrollado un sistema que facilita las tareas de evaluación,
preprocesamiento, extracción de características y visualización de resultados; generalizando los
aspectos comunes a todos los problemas abordados.
Destacamos, también, los buenos resultados obtenidos mediante el empleo de las
representaciones mencionadas sobre el problema de detección de temática, que constituye el
principal problema del proyecto, superando los mejores resultados conocidos, haciendo uso del
mismo corpus, que han sido cosechados por investigadores de la Universidad Politécnica de
Madrid.[EN] In this project, solutions based on continuous and discrete vector representations of word and
sentences are proposed, evaluated and studied by using them in some of the most significant
problems in automatic knowledge discovery applied to natural language and generally to formal
languages. Among these problems, we highlight topic detection, language identification,
sentiment analysis and malware detection.
Furthermore, due to the complexity of learning and use of vector representations, a system
that facilitates evaluation tasks, preprocessing, feature extraction and results display has been
developed; generalizing this way the common aspects to all the addressed problems.
We highlight too the good results obtained by means of using these representations on topic
detection, which is the main problem of the project, surpassing the best known results that have
been reached by Polytechnic University of Madrid researchers which uses the same corpus.[CA] En el present projecte es proposen, avaluen i estudien solucions basades en representacions
vectorials contínues i discretes de paraules i frases a alguns dels problemes més significatius del
descobriment automàtic de coneixement aplicat al llenguatge natural i en general a llenguatges
formals. Entre aquests problemes destaquem la detecció de temàtica, identificació d’idiomes,
anàlisi de sentiment i detecció de malware.
A més, a causa de la complexitat que suposa l’aprenentatge i la utilització d’aquestes
representacions vectorials, s’ha implementat un sistema que facilita les tasques d’avaluació,
preprocessament, extracció de característiques i visualització de resultats; generalitzant els
aspectes en comú a tots els problemes abordats.
Destaquem, també, els bons resultats obtinguts mitjançant l’ús d’aquestes representacions en
el problema de detecció de temàtica, que constitueix el principal problema del projecte i se
superen els millors resultats coneguts, fent ús del mateix corpus, que han sigut aconseguits per
investigadors de la Universitat Politècnica de Madrid.González Barba, JÁ. (2016). Descubrimiento automático de conocimiento. http://hdl.handle.net/10251/69227.TFG
Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas
Una de las tareas más comunes para el ser humano, pero de con una alta complejidad es la agrupación y clasificación. Por otro lado, la debilidad del ser humano es la capacidad de procesar altas cantidades de datos y de forma rápida, característica propia de los computadores. Hoy en día se generan grandes cantidades de datos en el Internet, datos de distintos tipos y con diferentes objetivos. Para esto se necesitan de algoritmos de agrupación que nos permitan identificar los distintos grupos y características de estos grupos, de forma automática sin conocimiento previo. Por otro lado, es importante definir con claridad qué medida de similitud se utilizará en el proceso de agrupación, la gran mayoría de las medidas de agrupación se enfocan en un aspecto simétrico. En la presente tesis se propone una novedosa medida de similitud asimétrica, Coeficiente d Similitud Unilateral Jaccard (uJaccard), similitud no es igual entre dos objetos uJaccard(a,b) ≠ uJaccard(b,a). Así también se presenta una similitud asimétrica con pesos Coeficiente Ponderado de Similitud Unilateral Jaccard, la cual mide el nivel de incertidumbre entre dos objetos. Así también en esta tesis se propone una nueva propiedad de grafos, la propiedad paradigmática la cual considera la equivalencia regular como característica fundamental y por último se propone un algoritmo de agrupación PaC, por sus siglas en inglés Paradigmatic Clustering, el cual incorpora la uJaccard y la propiedad paradigmática. Se ha realizado evaluaciones extensivas con datos pequeños, reales, sintéticos y se ha procesado 3 grandes corpus. Se ha demostrado que PaC es un algoritmo que sobre pasa los resultados de algoritmos de agrupación del estado del arte. Más aun PaC es un algoritmo capas de ser ejecutado de forma paralela, distribuida, incremental y en flujo, características que se necesitan para el procedimiento de grandes cantidades de datos y de constante generación de dato
El error de concordancia plural en español L2 desde una perspectiva emergente
Doctorado en Ciencias del Lenguaje. Mención en Lingüística Aplicada.En esta tesis se analizan, desde una perspectiva emergente, los errores de concordancia plural en cuatro
aprendientes italianos de español L2: SONIA (nivel A), NATI (nivel B1), JAKO (nivel B2), MIRKA (nivel
C1). Los objetivos principales son: (i) examinar los factores relacionados con la chance / riesgo de error;
(ii) analizar la dinámica del error a nivel microscópico y macroscópico desde el enfoque de los sistemas
complejos; (iii) predecir el error local de las últimas sesiones de los aprendientes. La orientación de esta
tesis es fuertemente cuantitativa. Se han utilizado técnicas del ámbito de la estadística, la minería de da-
tos y la física de los sistemas complejos. En cuanto al primer objetivo, se crearon las siguientes variables
predictoras: (i) tipo de modificador (artículo definido, artículo indefinido, determinantes, adjetivos atributi-
vos); (ii) si es a larga distancia; (iii) de más de dos términos; (iv) presencia de -e- epentética (controladores
terminados en consonante); (v) propiedades del controlador (animicidad, concretud, familiaridad, imagi-
nabilidad, frecuencia), (vi) similitud entre las terminaciones del español y el italiano; (vii) similitud entre
las raíces léxicas de ambas lenguas; (viii) errores acumulados hasta la instancia en cuestión; (ix) posibles
estrategias de aprendizaje (de 1 a 7), (x) frecuencia de TYPES de instancias de concordancia en corpus
EsTenTen y en el propio. Las variables respuesta fueron: (i) binaria [error / no error]; (ii) categórica [error
de: género, -e- epentética, plural, mixto]; (iii) tiempo hasta que se produce un error; (iv) serie simbólica. En
general se hallaron efectos de: (a) tipo de modificador: los errores suben con determinantes / adjetivos res-
pecto del artículo definido; (b) género: plurales masculinos más fáciles que los femeninos; (c) familiaridad
/ frecuencia del controlador [errores bajan]; (d) animicidad [errores suben para animados]; (e) frecuencia
de TYPES [error baja a más frecuencia]. El efecto de -e- epentética fue facilitador, contra las expectativas.
Se interpretó que la estrategia 5, que hacía bajar el error, tuvo efecto benéfico para los plurales en -es. La
distancia de terminaciones evidenció el efecto inverso al esperado, se lo explicó analizando las instancias
del nivel de referencia. El efecto de errores acumulados resultó débil. Respecto del segundo objetivo, la
hipótesis principal fue tratar al error como atractor. A nivel microscópico, se utilizaron los resultados de los
análisis estadísticos para sesgar el flujo a atractores en tres simulaciones basadas en sistemas dinámicos. En
general, se logró emular el patrón global de error pero se aproximó menos el patrón de error por sesiones.
En cuanto al nivel macroscópico, se usaron medidas de detección de cambio de régimen y redes comple-
jas. Se logró identificar grupos de sesiones con dinámica similar y regiones aproximadas de transiciones,
usando la variable respuesta de serie simbólica. Las redes complejas arrojaron efectos a nivel de las pala-
bras respecto de: modificador, familiaridad / frecuencia y de imaginabilidad / concretud del controlador, -e-
epentética y similitud entre raíz y desinencia. También hubo efectos para las palabras terminadas en -e. Para
el tercer objetivo se emplearon, entre otras predictoras, información proveniente de las redes complejas. En
general no se logró superar el 80% de precisión. Los atributos derivados del grafo fueron seleccionados
como influyentes para todos los alumnos.Fil: Marafioti, Pablo Ezequiel. Universidad Nacional de Córdoba. Facultad de Lenguas; Argentina
- …