Aplicación del procesamiento de lenguaje natural para verificación de identidad

Abstract

RESUMEN : Las empresas utilizan la verificación de identidad para garantizar que los usuarios y los clientes proporcionen información asociada con la identidad de una persona real. En un ámbito académico, de igual forma, es relevante controlar que la información que los estudiantes dan es verídica y que los procesos que se realizan en las instituciones (tales como trabajos, exámenes, exposiciones, entre otras) sean realizados por aquellas personas que realmente están matriculadas, esto con el fin de controlar el fraude. La verificación de identidad mitiga el riesgo de fraude mediante diferentes estrategias, entre las cuales, las más exitosas son las basadas en biometría. En Colombia, según datos recientes publicados por el ministerio de Educación Nacional, la educación virtual muestra una tasa de crecimiento de 98,9% en el número de matrículas de educación superior, lo cual indica que, en varias instituciones, como por ejemplo, en la Universidad de Antioquia, hay gran cantidad de estudiantes en la modalidad virtual. A pesar de todos los grandes beneficios de la modalidad virtual de educación, esta trae consigo diversos problemas, entre ellos, suplantación de identidad y fraude en actividades evaluativas. Para resolver estos problemas, en este trabajo se propone desarrollar, mediante el procesamiento de lenguaje natural y algoritmos de aprendizaje automático, una metodología que permita verificar a que grupo de estilo lingüístico de escritura (existirán 3 grupos) pertenecen más de 100 usuarios pertenecientes a la comunidad universitaria, los cuales se registraron en una plataforma virtual y realizaron dos tareas que consisten en argumentar una solución a problemas que está sufriendo el país actualmente y dar una opinión sobre un tema social. Los resultados muestran, a pesar de la poca cantidad de datos y la calidad de los textos, que es posible encontrar diferencias entre estilos de escritura de los usuarios de acuerdo con su nivel escolar, obteniendo resultados de eficiencia en clasificación biclase (niveles inferiores vs niveles superiores) de hasta 75% y ciencia en la clasificación triclase (niveles inferiores vs niveles intermedios vs niveles superiores) de hasta 53.3 %. Otro resultado obtenido muestra que, mediante modelos de mezclas Gaussianas, se logra identificar, de una manera muy certera, los usuarios pertenecientes al grupo de usuarios de niveles de escolaridad intermedios y superiores, y diferenciarlos de usuarios con niveles bajos de escolaridad

    Similar works