Desarrollo de un componente de analítica para la clasificación de textos cortos dirigido a un proyecto institucional e integrable en una plataforma Web

A B Hill; A Etz; A Gelman; A I Goldman; A LaCaze; A Papa; A Pessina; B Clarke; B Clarke; B Fitelson; B Holman; B Osimani; B Osimani; B Osimani; B Osimani; B Osimani; C G Begley; C G Hempel; C Mayo-Wilson; D B Rubin; D G Mayo; D Krauth; D Papineau; D Teira; D Teira; E Sgreccia; F Dietrich; F Prinz; F Russo; G Scheu; G Wheeler; H E Longino; I Hacking; J Bogen; J Howick; J Howick; J Landes; J Lenhard; J P A Ioannidis; J P Vandenbroucke; J Pearl; J R Platt; J Stegenga; J Stegenga; J Worrall; J Worrall; J Worrall; K Rising; L BonJour; L Bovens; L Hanin; L Moretti; L Wood; M Joffe; M Marsman; M P Cohen; M Solomon; N Cartwright; N Cartwright; N Cartwright; N Cartwright; N Cartwright; N Cartwright; P A Lamal; P E Meehl; P Hoyningen-Huene; P Lipton; P Spirtes; R Audi; R Carnap; R Dawid; R Fisher; R Kerry; R L Anjum; R Poellinger; R R Faden; R Swinburne; S H Podolsky; S Haack; S Mumford; S Senn; S Senn; T L Beauchamp; T McGrew; V Crupi

thesis

Desarrollo de un componente de analítica para la clasificación de textos cortos dirigido a un proyecto institucional e integrable en una plataforma Web

Authors: A B Hill
A Etz
A Gelman
A I Goldman
A LaCaze
A Papa
A Pessina
B Clarke
B Clarke
B Fitelson
B Holman
B Osimani
B Osimani
B Osimani
B Osimani
B Osimani
C G Begley
C G Hempel
C Mayo-Wilson
D B Rubin
D G Mayo
D Krauth
D Papineau
D Teira
D Teira
E Sgreccia
F Dietrich
F Prinz
F Russo
G Scheu
G Wheeler
H E Longino
I Hacking
J Bogen
J Howick
J Howick
J Landes
J Lenhard
J P A Ioannidis
J P Vandenbroucke
J Pearl
J R Platt
J Stegenga
J Stegenga
J Worrall
J Worrall
J Worrall
K Rising
L BonJour
L Bovens
L Hanin
L Moretti
L Wood
M Joffe
M Marsman
M P Cohen
M Solomon
N Cartwright
N Cartwright
N Cartwright
N Cartwright
N Cartwright
N Cartwright
P A Lamal
P E Meehl
P Hoyningen-Huene
P Lipton
P Spirtes
R Audi
R Carnap
R Dawid
R Fisher
R Kerry
R L Anjum
R Poellinger
R R Faden
R Swinburne
S H Podolsky
S Haack
S Mumford
S Senn
S Senn
T L Beauchamp
T McGrew
V Crupi
Publication date: 1 January 2014
Publisher: 'Springer Science and Business Media LLC'
Doi

Abstract

Auxiliar de InvestigaciónLa clasificación de texto es una de las áreas de estudio de la disciplina del aprendizaje de máquina (en inglés Machine Learning) en donde se busca, posterior a una etapa de entrenamiento, predecir una categoría para datos de entrada que no hayan sido clasificados previamente. La longitud de los textos cortos, puede conllevar a una pérdida en la precisión de los resultados entregados por el proceso de clasificación de texto, ya que la cantidad de características aprovechables disminuye. Por lo tanto, se busca explorar una solución que permita realizar tareas de clasificación de textos cortos, con un nivel de precisión cercano al 80 %. Se desarrolló un componente de clasificación de textos cortos en el lenguaje de programación Python, haciendo uso del framework Flask el cual permite peticiones a través de un API y realiza la clasificación datasets que cumplan con el formato de entrada. Se probaron los resultados de este trabajo mediante el uso de publicaciones extraídas desde cuentas de Twitter, debido a la restricción sobre la longitud de sus publicaciones. La clasificación se realizó mediante el uso de algoritmos de aprendizaje supervisado, y en el mejor de los casos, la precisión obtenida fue cercana al 85 %.1. INTRODUCCIÓN 2. MARCO DE REFERENCIA 3. METODOLOGÍA 4. ESTADO DEL ARTE 5. DESARROLLO 6. RESULTADOS 7. CONCLUSIONES 8. TRABAJO FUTURO BIBLIOGRAFÍA ANEXOSPregradoIngeniero de Sistema