57 research outputs found

    Redes neuronales artificiales. Una aplicación a la clasificación de textos según el género: científicos – no científicos

    Get PDF
    En este trabajo se propone el modelo de Redes Neuronales Artificiales con aprendizaje supervisado: Perceptrón Multicapa, utilizando como criterio de clasificación el género al que pertenece el texto (Científico / No Científico) y la caracterización de los textos basada en distribución de frecuencias de las categorías morfo-sintácticas. Se comprobó la efectividad de esta red para la predicción del género, determinando los valores del conjunto de parámetros correspondientes a la misma. El porcentaje de clasificación correcta en cada género fue 99%, 95%, para Científicos y No Científicos respectivamente; mientras que el error global fue del 2.7%.Fil: Beltrán, Celina. Universidad Nacional de Rosario. Facultad de Ciencia

    Comparación de dos técnicas multivariadas en la categorización de textos: Sistema de clasificación Bagging y Método del vecino más cercano

    Get PDF
    En este trabajo se comparan dos técnicas multivariadas cuyo objetivo es la clasificación de unidades en categorías definidas previamente. En este caso se evalúan los desempeños del Sistema de Clasificación Bagging (SCB) y el Método del Vecino más Cercano (MVC) para clasificar textos. El criterio de clasificación es el género al que pertenece el texto (Científico / No Científico) y la caracterización de los textos está basada en la distribución de frecuencias de las categorías morfo-sintácticas. En el SCB se halló una tasa de error global de 26%, siendo 21% para los textos científicos y 33% para los no científicos. Respecto a la precisión y cobertura fueron de 78% y 79% para el género CIENTÍFICO y de 68% y 67% para los textos NO CIENTÍFICOS, respectivamente. Para el MVC el error global en la predicción resultó ser del 13%, correspondiendo un 9% para el género Científico y un 20% para el No Científico y respecto a la precisión y cobertura fueron de 87% y 91% para el género CIENTÍFICO y de 86% y 80% para los textos NO CIENTÍFICOS, respectivamente.Fil: Beltrán, Celina. Universidad Nacional de Rosario. Facultad de Ciencias Agrarias; Argentin

    Comparación de sistemas para la detección de límites de oraciones

    Get PDF
    Se plantea la obtención de límites de oraciones (LO) mediante tres sistemas: -Mx terminator: modela las decisiones que se toman al recorrer un texto y clasificar los elementos de S{., ?, !} en LO o no (sistema estadístico). -SMORPH/MPS: distingue la separación de párrafos y de oraciones y la separación entre párrafos de la separación dada por nueva línea cuando no hay LO. -XFST/Tokenize: agrega la detección de títulos a las funcionalidades del anterior. Para evaluar los tres sistemas se utilizó un corpus de 277 oraciones. Con el primero se obtiene 100% de cobertura y 96.9% de precisión en límite de oración (no discrimina final de párrafo y final de oración no final de párrafo). Con el segundo se obtiene 100% y 98,8% para precisión y cobertura de límites de párrafo, y 100% para precisión y cobertura de límites de oración que no finalizan párrafo. Con el tercero se detecta final de párrafo, final de oración no final de párrafo y títulos. Los valores de cobertura y precisión son 100% y 100% respectivamente para títulos, 100% y 100% para finales de párrafos y 100% y 99.5% para finales de oración no finales de párrafos.Fil: Beltrán, Celina. Universidad Nacional de Rosario. Facultad de Ciencias Agrarias; Argentin

    Conocimiento de la lengua y técnicas estadísticas en el análisis lingüístico

    Get PDF
    International audienceSon comparados los resultados obtenidos sobre un mismo corpus en la tarea del POS tagging por dos sistemas orientados por enfoques diferentes en lingüística computacional, el uno orientado por el Conocimiento de la lengua (sistema CL) y el otro por Técnicas estadísticas (sistema EST). Se trata de no limitarse a consideraciones globales sobre el « costo » de obtención de los dos tipos de resultados, noción mal definida, ni a cotejar resultados globales, sino de poner en relación los resultados obtenidos con las características lingüísticas involucradas. La problemática de la comparación es clarificada, los sistemas CL y EST presentados, la metodología de la comparación definida y los resultados obtenidos presentados. En el caso comparado, el sistema CL ofrece mejores resultados, pero la conclusión más interesante es la posibilidad de establecer correlaciones entre aspectos de la estructura lingüística y resultados obtenidos por técnicas estadísticas

    Automatic Morphological Analysis using SMORPH and NOOJ Tools

    Get PDF
    Morphology has had a great development within the scope of Computational Linguistics since it is the starting point to accomplish researches in other levels of representation. This time our focus of attention is on N (nouns) and A (adjectives) and the working logic of each tool while its common characteristics and peculiarities are indicated. The operations that can be performed using SMORPH are subtraction and concatenation at the end of a string, so, to formalize names we deal with lemmas and terminations. NooJ shares with Smorph the use of subtraction and concatenation at the end of a string, but besides that Nooj acts on different places within words –at the beginning or at the end- to be determined by the user who has the possibility to point out the direction, leftward or rightward. Nooj also can change o duplicate characters. To construct morphological grammars and NooJ dictionaries we resort to the already organized INFOSUR Dictionary (entries).La morfología ha tenido un gran desarrollo dentro de la Lingüística Computacional porque es la base para poder realizar investigaciones en los otros niveles de representación. En esta ocasión trabajaremos con N(nombres) y A (adjetivos), presentaremos la lógica operativa de cada herramienta marcando lo que tienen en común y sus particularidades. Las operaciones que efectúa SMORPH son la sustracción y la concatenación al final de una cadena, por lo tanto, para la formalización de la morfología de los nombres se trabajará con el lema y terminaciones. NooJ comparte con Smorph el uso de las operaciones de sustracción y concatenación al final de una cadena, pero además actúa sobre lugares a determinar por el usuario se trate del comienzo o fin de palabra y tiene la posibilidad de indicar la dirección (izquierda o derecha). No solamente sustrae o concatena sino además puede cambiar o duplicar caracteres.Para la construcción de las gramáticas morfológicas y los diccionarios de NOOJ recurriremos al diccionario (entradas) que ya ha trabajado el equipo INFOSUR.Fil: Beltrán, Celina. Universidad Nacional de Rosario. Facultad de Humanidades y Artes; ArgentinaFil: Solana, Zulema Gilda. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario; Argentina. Universidad Nacional de Rosario. Facultad de Humanidades y Artes; ArgentinaFil: Tramallino, Carolina Paola. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario; Argentina. Universidad Nacional de Rosario. Facultad de Humanidades y Artes; Argentin

    Una evaluación del desempeño en la clasificación binaria mediante simulación: Árboles de clasificación y Bosques aleatorios

    Get PDF
    En este trabajo se propone el estudio de estas las técnicas estadísticas multivariadas Árboles de clasificación y Bosques aleatorios siendo de interés evaluar el desempeño de las mismas cuando son utilizadas en datos que difieren en la estructura de correlaciones entre las variables intervinientes y los tamaños de muestras. Una herramienta para evaluar estos desempeños es mediante simulación. Se definieron 4 escenarios para la simulación de datos con las siguientes características: Escenario 1: Variable respuesta altamente correlacionada con las predictoras y las variables predictoras poco correlacionadas entre sí. Escenario 2: Variable respuesta poco correlacionada con las predictoras y las variables predictoras muy correlacionadas entre sí. Escenario 3: Variable respuesta muy correlacionada con las predictoras y las variables predictoras también muy correlacionadas entre sí. Escenario 4: Variable respuesta poco correlacionada con las predictoras y asimismo las variables predictoras poco correlacionadas entre sí. REV En los escenarios 1 y 3, la situación planteada se corresponde con grupos “separables” en función de los valores de los predictores; mientras que en los escenarios 2 y 4 los grupos están solapados respecto a las variables predictoras, dificultando la tarea de discriminarlos en función de las mismas. Se generaron mediante simulación 500 archivos de datos para cada uno de los siguientes tamaños de muestra: 30, 75, 200, 400, 600, 1000. Se “marcó” el 20% de las observaciones para ser utilizadas como grupo de test y el restante 80% para la estimación de los modelos evaluados en cada caso. Como resultado principal se evidencia que, en aquellos escenarios donde es favorable la clasificación por la estructura de correlaciones de las variables que suponen una separación de los grupos (Escenarios 1 y 3), la evidencia en favor de la técnica de Bosques Aleatorios es significativa, independientemente del tamaño de muestra. Sin embargo, en los casos en que la variable respuesta no fue generada correlacionada con las explicativas, y por lo tanto los grupos no son capaces de ser discriminados por los valores de dichas variables (Escenarios 2 y 4), no hay evidencia de superioridad de la técnica de Bosques excepto en aislados casos. Este comportamiento de los Bosques Aleatorio concuerda con lo que se observa al evaluar el error medio porcentual del bosque según el número de árboles estimados. Es posible distinguir comportamientos diferentes según escenario. En los escenarios más favorables para la clasificación (Escenarios 1 y 3) el error medio porcentual disminuye claramente al incrementar el tamaño del bosque y el tamaño de muestra; mientras que en casos donde la separación de grupos no es lograda por las variables explicativas, el error porcentual medio parece mantenerse constante sin mostrar una ventaja independientemente del tamaño del bosque y del conjunto de datos. Estos resultados ponen cierta luz al momento de elegir la técnica estadística conveniente para clasificar unidades cuando las variables en consideración están o no correlacionadas y los grupos respuesta se encuentran solapados o no respecto a los valores de las mismas.Beltrán, Celina. Universidad Nacional de Rosario. Facultad de Ciencias Agrarias; ArgentinaBarbona, Ivana. Universidad Nacional de Rosario. Facultad de Ciencias Agrarias; Argentin

    Método de clasificación supervisada support vector machine: una aplicación a la clasificación automática de textos

    Get PDF
    Support Vector Machine (SVM) es un método de clasificación supervisada que permite determinar la frontera óptima entre dos grupos que pueden ser linealmente separables o no. Mediante la utilización de vectores soporte se encuentra un hiperplano o conjunto de hiperplanos en un espacio de dimensionalidad que puede llegar a ser infinita. Luego, mediante una trasformación inversa se obtiene la frontera que separa a esos dos grupos en el espacio original. En el caso de clasificar en 2 categorías, se busca el hiperplano que tenga la máxima distancia o margen con los puntos más cercanos a él. Los puntos pertenecientes a una categoría estarán a un lado del hiperplano mientras que los casos que pertenezcan a la otra categoría estarán al otro lado. En este trabajo se realiza una aplicación del método SVM para clasificar un conjunto de textos. El criterio de clasificación utilizado fue el género al que pertenece el texto (Científico / No Científico). La caracterización de los textos está basada en la distribución de frecuencias de las categorías morfo-sintácticas. Los resultados finales representan porcentajes de mala clasificación en una grilla para el método SVM variando la constante de penalización C y otros parámetros dentro de varios kernel considerados. El mejor desempeño se obtuvo para SVM con kernel lineal y C= 0.1 y 0.2 (19.33%)Fil: Beltrán, Celina. Universidad Nacional de Rosario. Facultad de Ciencias Agrarias; Argentin

    Evaluación de la clasificación mediante de la técnica estadística Regresión Logística en datos simulados bajo distintos escenarios, para distintos tamaños de muestra

    Get PDF
    En esta investigación se propone el estudio de la técnica estadística multivariada de clasificación, Regresión Logística, donde se quiere evaluar el desempeño de la misma cuando es utilizada en datos simulados bajo distintos escenarios y bajo distintos tamaños de muestra. Se generaron mediante simulación 500 archivos de datos para cada uno de los siguientes tamaños de muestra: 30, 75, 200, 400, 600, 1000. Cada conjunto contiene 6 columnas (variables) bajo distintas condiciones o escenarios. En cada muestra se “marcó” el 20% de las observaciones para ser utilizadas como grupo de test y el restante 80% para la estimación de los modelos evaluados en cada caso. Quedaron definidos un total de 12000 conjuntos de datos simulados, con 6 tamaños de muestra diferentes y 4 escenarios con las siguientes características definidos por la estructura de la matriz de correlaciones. El escenario 1 corresponde a datos provenientes de una población en la que los predictores están fuertemente correlacionados con la respuesta pero no entre ellos. El escenario 2 plantea una simulación a partir de una población con poca correlación de la respuesta con las variables predictoras pero éstas correlacionadas entre sí. En el escenario 3, la correlación presente en la población origen de la simulación es importante tanto entre las predictoras como entre éstas y la respuesta. Por último, el escenario 4 corresponde a una población original en la que no existe ningún tipo de correlación de magnitud importante entre las variables, ni de los predictores con la respuesta ni entre ellos. De este análisis se concluye que, en condiciones donde las variables predictoras están altamente correlacionadas con la respuesta (escenarios 1 y 3), sin importar la correlación entre las predictoras, la técnica de Regresión Logística funciona satisfactoriamente. Sin embargo, como se puede observar en el gráfico 1, cuando las predictoras están poco correlacionadas con la respuesta (escenarios 2 y 4) el porcentaje de clasificación correcta es bastante más bajo. Esta diferencia entre los dos grupos de escenarios en cuanto a la correlación de la respuesta con las predictoras se va acentuando a medida que el tamaño de muestra se hace más grande. Como conclusión final se puede decir que, sin importar el tamaño de muestra, cuando la variable respuesta está poco correlacionada con las variables predictoras la técnica de Regresión Logística no tiene una buena clasificación de las observaciones.Beltrán, Celina. Universidad Nacional de Rosario. Facultad de Ciencias Agrarias; ArgentinaBarbona, Ivana. Universidad Nacional de Rosario. Facultad de Ciencias Agrarias; ArgentinaCiminari, Jesica. Universidad Nacional de Rosario. Facultad de Ciencias Agrarias; Argentin

    Variables que condicionan la deserción y retención durante el trayecto universitario de alumnos de la carrera de Ingeniería Agronómica de la Universidad Nacional de Rosario

    Get PDF
    El objetivo de este trabajo fue determinar las variables de los alumnos al momento del ingreso a la carrera de Ing. Agronómica de la Facultad de Ciencias Agrarias de la Universidad Nacional de Rosario, que condicionan la deserción y retención durante su trayecto universitario. La población en estudio la conformaron los 1276 ingresantes a la Facultad de Ciencias Agrarias de la Universidad Nacional de Rosario correspondientes a las cohortes 1994 a 2000 para las cuales se tenía información. Se utilizó el análisis multivariado de regresión logística, previo a este análisis se estudió la relación de cada una de las variables explicativas con la variable abandono de los estudios, mediante la aplicaciòn del Test Chi cuadrado o del Test exacto de Fisher según correspondiera. Durante el análisis bivariado se encontraron las siguientes variables asociadas significativamente con el abandono de la carrera (P< 0.01): Tipo de Colegio, Edad al Ingreso, Escolaridad de Padre, Escolaridad de Madre y Tipo de Residencia. El modelo de regresión logística resultante es el que contiene los efectos principales de las variables Edad al ingreso, Escolaridad de los padres y Tipo de Residencia. De la interpretación de los parámetros se deduce que las características de los alumnos que están asociadas a la deserción en la universidad son: • Comienzo de la carrera a una edad mayor: a medida que la edad al ingreso aumenta, la probabilidad de abandonar se incrementa. • Padres con bajo nivel educativo: a medida que el nivel educativo de los padres es mayor, la probabilidad de abandonar los estudios disminuye. • Tipo de residencia con padres y hermanos: cuando viven con su familia es mayor la probabilidad de abandonar, que si viven solos.Fil: Trevizan, Alberto. Universidad Nacional de Rosario. Facultad de Ciencias Agrarias; Argentin

    Implementación de juegos, rondas y canciones tradicionales como estrategias lúdicas para mejorar la convivencia escolar en los niños y niñas del grado 4° de la institución educativa de Zipacoa

    Get PDF
    Como maestros nos corresponde difundir prácticas fructíferas que orienten hacia aprendizajes significativos que conlleven no solo a la asimilación y aplicación de conceptos sino también a generar cambios de conducta que favorezcan unas relaciones interpersonales optimas entre aprendices. Lo anterior ha sido nuestra motivación para llevar a cabo este trabajo de investigación, a través del rescate y la aplicación de actividades divertidas y agradables un poco olvidadas para mejorar los momentos de recreación de un grupo seleccionad
    corecore