6 research outputs found
Rentas no declaradas y el incremento patrimonial no justificado en las personas naturales del distrito de Tambopata, Perú
The objective of the research is to "Determine the relationship between unreported income and the IPNJ in natural persons in the district of Tambopata, Peru. It was carried out with the collaboration of a population of 26,425 taxpayers, a probabilistic sampling was used, which determined 138 taxpayers, to determine said sample, the methods were applied in order to know the sample under study. The study was cross-sectional with a correlational design, where it focuses on the hypotheses for which questions were formulated that were analyzed, thus obtaining the results where a score of "0.929" has been reached, with a confidence level of 95%. which indicates that 92.9% of the changes observed in the undeclared income variable are explained by the variation of the IPNJ, in the same way it was demonstrated that there is a significant relationship between the dimensions of deposits in bank accounts and omission of income, obtaining correlation levels of 0.965 and 0.976 respectively. Concluding that there is a significant relationship between the variables studied, as well as their dimensions.En la investigación tiene como objetivo “Determinar la relación entre las rentas no declaradas y el IPNJ en las personas naturales del distrito de Tambopata, Perú. se realizó con la colaboración de una población de 26,425 contribuyentes, se utilizó un muestreo probabilístico el mismo que se determinó 138 contribuyentes, para determinar dicha muestra se aplicó los con el fin de conocer a la muestra en estudio. El estudio fue de corte transversal con diseño correlacional, en donde se centra en las hipótesis para lo cual se formularon preguntas que fueron analizadas obteniendo así los resultados donde se ha alcanzo una puntuación de “0.929”, con un nivel de confianza del 95%, lo cual indica que el 92.9% de los cambios observados en la variable rentas no declaradas son explicados por la variación del IPNJ, de igual forma se demostró que existe relación significativa entre las dimensiones depósitos en cuenta bancarias y omisión de ingresos obteniéndose niveles de correlación de 0.965 y 0.976 respectivamente. Concluyendo que existe relación significativa entre las variables estudiadas, así como sus dimensiones
Midiendo la carga emocional: Análisis de las emociones presentes en contenido de tweets sobre COVID-19 en Lima
During the state of emergency and quarantines implemented by world leaders, there has been a significant increase in people's activity on social networks, such as Twitter, where they share opinions and emotionally charged news. In this study, we present a visualization tool for sentiment analysis in tweets related to COVID-19 in the city of Lima, Peru, during the year 2020. For this purpose, we train a BERT model called BETO, specifically designed for natural language processing in Spanish. We used the SenWave dataset, comprising 11 emotions, to train the model. Subsequently, we validate the model using a dataset composed of 33,770 tweets collected in the city of Lima, Peru. The result of our study is an interactive dashboard showing the flow of sentiments expressed in the analyzed tweets. Our findings reveal that the three most frequent emotions during 2020 were: humor, boredom and optimism. In addition, we identified the five most popular words used in the tweets: contagion, health, distancing, isolation and Martín Vizcarra, referring to the former president of Peru.Durante el estado de emergencia y las cuarentenas implementadas por los líderes mundiales, se ha observado un aumento significativo en la actividad de las personas en las redes sociales, como Twitter, donde comparten opiniones y noticias cargadas de emociones. En este estudio, presentamos una herramienta de visualización para el análisis de sentimientos en tweets relacionados con COVID-19 en la ciudad de Lima, Perú, durante el año 2020. Para ello, entrenamos un modelo BERT llamado BETO, diseñado específicamente para el procesamiento de lenguaje natural en español. Utilizamos el conjunto de datos SenWave, que comprende 11 emociones, para entrenar el modelo. Posteriormente, validamos el modelo utilizando un conjunto de datos compuesto por 33,770 tweets recolectados en la ciudad de Lima, Perú. El resultado de nuestro estudio es un panel de control interactivo que muestra el flujo de sentimientos expresados en los tweets analizados. Nuestros hallazgos revelan que las tres emociones más frecuentes durante el año 2020 fueron: humor, aburrimiento y optimismo. Además, identificamos las cinco palabras más populares utilizadas en los tweets: contagio, salud, distanciamiento, aislamiento y Martín Vizcarra, en referencia al expresidente del Perú
Modelamiento de la satisfacción laboral de docentes de educación básica mediante técnicas Machine Learning
La satisfacción laboral del docente, es un aspecto importante en el desempeño académico, retención de los estudiantes y retención de los maestros. En el presente estudio se determinó el modelo predictivo de la satisfacción laboral de docentes de educación básica mediante técnicas de aprendizaje automático. El conjunto de datos original estuvo conformado por 15087 instancias y 942 atributos procedentes de la encuesta nacional a docentes de instituciones educativas públicas y privadas de educación básica regular (ENDO-2018) desarrollado por Ministerio de Educación del Perú. Las técnicas de selección de características empleadas fueron el filtro ANOVA F-test y el filtro Chi-Cuadrado. En la fase modelado se emplearon los algoritmos de Regresión logística, Gradient Boosting, Random Forest, XGBoost, Decision Trees-CART. El algoritmo de Random Forest obtiene una exactitud del 73 %, sensibilidad del 74.8 %, AUC del 0.82, menor valor de falsos negativos 163 y mayor valor de verdaderos positivos 484 en la matriz de confusión. Los ingresos económicos, la satisfacción con la vida, con la autoestima, con la actividad pedagógica, con la relación con el director (a), percepción de las condiciones de vida, satisfacción con sus relaciones familiares, problema de salud relacionado con la depresión y la satisfacción de la relación con sus colegas resultaron ser los predictores más importantes
Detección de patrones de bajo rendimiento académico mediante técnicas de minería de datos de los estudiantes de la Universidad Nacional Amazónica de Madre de Dios 2018
TesisEl presente estudio se llevó a cabo en la Universidad Nacional Amazónica de Madre de Dios (UNAMAD), ubicado en el departamento de Madre de Dios, durante el año 2018, tuvo como objetivo general detectar los patrones de bajo rendimiento académico de los estudiantes de la Universidad Nacional Amazónica de Madre de Dios, para su desarrollo se empleó la metodología de minería de datos denominado: CRISP-DM; el algoritmo Random Forest permitió identificar que las variables: cantidad de asignaturas cursadas, el servicio de comedor universitario, la carrera profesional, deuda con la universidad, son las variables que más influyen en la prediccion del rendimiento académico, en relación a los tres algoritmos empleados: Random Forest, C5.0 y CART, el algoritmo que obtuvo mejor desempeño para el modelo de clasificación para el bajo rendimiento académico de los estudiantes de la Universidad Nacional Amazónica de Madre de Dios, fue C5.0, con una medida de exactitud de clasificación (Accuracy) del 77.8% y el coeficiente de kappa del 0.56, por otra parte la aplicación de los algoritmos CART y C5.0 permitió identificar que el perfil que poseen los estudiantes con de bajo rendimiento académico en la Universidad Nacional Amazónica de Madre de Dios es el siguiente: “estudiantes que aprobaron más de 6 cursos, pero menos de 62 cursos, que no poseen servicio de comedor universitario y que poseen alguna deuda con la universidad
Modelado de la Satisfacción Laboral de Docentes Peruanos de Educación Básica utilizando técnicas de aprendizaje automático
Teacher job satisfaction is an important aspect of academic performance, student retention, and teacher retention. We propose to determine the predictive model of job satisfaction of basic education teachers using machine learning techniques. The original data set consisted of 15,087 instances and 942 attributes from the national survey of teachers from public and private educational institutions of regular basic education (ENDO-2018) carried out by the Ministry of Education of Peru. We used the ANOVA F-test filter and the Chi-Square filter as feature selection techniques. In the modeling phase, the logistic regression algorithms, Gradient Boosting, Random Forest, XGBoost and Decision Trees-CART were used. Among the algorithms evaluated, XGBoost and Random Forest stand out, obtaining similar results in 4 of the 8 metrics evaluated, these are: balanced accuracy of 74%, sensitivity of 74%, F1-Score of 0.48 and negative predictive value of 0.94. However, in terms of the area under the ROC curve, XGBoost scores 0.83, while Random Forest scores 0.82. These algorithms also obtain the highest true-positive values (479 instances) and lowest false-negative values (168 instances) in the confusion matrix. Economic income, satisfaction with life, self-esteem, teaching activity, relationship with the director, perception of living conditions, family relationships; health problems related to depression and satisfaction with the relationship with colleagues turned out to be the most important predictors of job satisfaction in basic education teachers.La satisfacción laboral de los maestros es un aspecto importante del rendimiento académico, la retención de estudiantes y la retención de maestros. Proponemos determinar el modelo predictivo de satisfacción laboral de docentes de educación básica utilizando técnicas de aprendizaje automático. El conjunto de datos original constaba de 15.087 instancias y 942 atributos de la encuesta nacional a docentes de instituciones educativas públicas y privadas de educación básica regular (ENDO-2018) realizada por el Ministerio de Educación de Perú. Utilizamos el filtro ANOVA F-test y el filtro Chi-Square como técnicas de selección de características. En la fase de modelado se utilizaron los algoritmos de regresión logística, Gradient Boosting, Random Forest, XGBoost y Decision Trees-CART. Entre los algoritmos evaluados se destacan XGBoost y Random Forest, obteniendo resultados similares en 4 de las 8 métricas evaluadas, estas son: precisión equilibrada del 74 %, sensibilidad del 74 %, F1-Score de 0,48 y valor predictivo negativo de 0,94. Sin embargo, en términos del área bajo la curva ROC, XGBoost obtiene una puntuación de 0,83, mientras que Random Forest obtiene una puntuación de 0,82. Estos algoritmos también obtienen los valores positivos verdaderos más altos (479 instancias) y los valores negativos falsos más bajos (168 instancias) en la matriz de confusión. Ingresos económicos, satisfacción con la vida, autoestima, actividad docente, relación con el director, percepción de las condiciones de vida, relaciones familiares; los problemas de salud relacionados con la depresión y la satisfacción con la relación con los compañeros resultaron ser los predictores más importantes de la satisfacción laboral en los docentes de educación básica