25 research outputs found

    Data Analysis with Intersection Graphs

    Get PDF
    AbstractThis paper presents a new framework for multivariate data analysis, based on graph theory, using intersection graphs [1]. We have named this approach DAIG – Data Analysis with Intersection Graphs. This new framework represents data vectors as paths on a graph, which has a number of advantages over the classical table representation of data. To do so, each node represents an atom of information, i.e. a pair of a variable and a value, associated with the set of observations for which that pair occurs. An edge exists between a pair of nodes whenever the intersection of their respective sets is not empty. We show that this representation of data as an intersection graph allows an easy and intuitive geometric interpretation of data observations, groups of observations, and results of multivariate data analysis techniques such as biplots, principal components, cluster analysis, or multidimensional scaling. These will appear as paths on the graph, relating variables, values and observations. This approach allows for a compact and memory efficient representation of data that contains many missing values or multi-valued attributes. The basic principles and advantages of this approach are presented with an example of its application to a simple toy problem. The main features of this methodology are illustrated with the aid software specifically developed for this purpose

    Framework for classroom student grading with open-ended questions: A text-mining approach

    Get PDF
    The purpose of this paper is to present a framework based on text-mining techniques to support teachers in their tasks of grading texts, compositions, or essays, which form the answers to open-ended questions (OEQ). The approach assumes that OEQ must be used as a learning and evaluation instrument with increasing frequency. Given the time-consuming grading process for those questions, their large-scale use is only possible when computational tools can help the teacher. This work assumes that the grading decision is entirely a teacher’s task responsibility, not the result of an automatic grading process. In this context, the teacher is the author of questions to be included in the tests, administration and results assessment, the entire cycle for this process being noticeably short: a few days at most. An attempt is made to address this problem. The method is entirely exploratory, descriptive and data-driven, the only data assumed as inputs being the texts of essays and compositions created by the students when answering OEQ for a single test on a specific occasion. Typically, the process involves exceedingly small data volumes measured by the power of current home computers, but big data when compared with human capabilities. The general idea is to use software to extract useful features from texts, perform lengthy and complex statistical analyses and present the results to the teacher, who, it is believed, will combine this information with his or her knowledge and experience to make decisions on mark allocation. A generic path model is formulated to represent that specific context and the kind of decisions and tasks a teacher should perform, the estimated results being synthesised using graphic displays. The method is illustrated by analysing three corpora of 126 texts originating in three different real learning contexts, time periods, educational levels and disciplines.info:eu-repo/semantics/publishedVersio

    Los métodos Biplot: evolución y aplicaciones

    No full text
    Entre los métodos de análisis multivariante de datos, los Biplot han sido fuente de continuas con-tribuciones a la ciencia desde su origen en 1971. Su objetivo general es la aproximación de una matriz de datos, de tal forma que permita su descripción o modelización a través de mapas geo-métricos construidos como proyecciones de nubes de puntos filas y columnas sobre subespacios de ajuste óptimo. Las múltiples contribuciones realizadas en las últimas décadas, nos han moti-vado a la realización del presente ensayo, donde se recogen en forma bastante completa las diferentes tendencias y se destacan las principales contribuciones. Esperamos que esta revisión pueda resultar de utilidad a investigadores interesados en el tema, ya que les permite seleccio-nar el método Biplot más adecuado para investigaciones posteriores, así como también conocer las líneas de investigación actuales que le sirvan como base para otras contribuciones en cual-quier campo de las ciencias, naturales y sociales

    Variables que inciden en la seguridad de las escuelas públicas de los Estados Unidos

    No full text
    This quantitative study used descriptive and correlational designs, together with Biplot methods, to determine variables that influence security in schools, the relationship between them, and the formation of clusters. The results showed differences among schools according to location, in reference to the variables that influence security. On the contrary, there were no differences in relation to the acts that threaten school security; generally, they occur occasionally. On the other hand, a negative correlation was found between parents’ participation at school, security services, security measures with students, and drug control practices. The relationships between these variables and others contributed to the formation of schools clusters. Implications and suggestions for future research are discussed in terms of school security. How to cite: Vázquez-Pérez, J. P., Vicente-Galindo, P., & Galindo-Villardón, M. P. (2011). Variables que inciden en la seguridad de las escuelas públicas de los Estados Unidos. Pedagogía, 44(1), 141-165. Retrieved https://revistas.upr.edu/index.php/educacion/article/view/16565Esta investigación cuantitativa utilizó los diseños descriptivo y correlacional, junto con los métodos Biplot, para determinar variables que incidían en la seguridad escolar, las relaciones existentes entre ellas y la formación de conglomerados. En los resultados, se demostró que, según la ubicación de las escuelas, las variables que incidieron en la seguridad son diferentes. Por el contrario, con respecto a los actos que atentan contra la seguridad, no se observaron diferencias por ubicación; en general, en todas ocurrían ocasionalmente. Por otro lado, se encontró una correlación negativa entre la participación de los padres, los servicios de seguridad, las medidas de seguridad con los estudiantes y las prácticas antidrogas. Las relaciones entre estas y otras variables contribuyeron a la formación de conglomerados entre las escuelas. Las implicaciones y recomendaciones para futuras investigaciones se presentan en términos de la seguridad escolar. Cómo citar: Vázquez-Pérez, J. P., Vicente-Galindo, P., & Galindo-Villardón, M. P. (2011). Variables que inciden en la seguridad de las escuelas públicas de los Estados Unidos. Pedagogía, 44(1), 141-165. Recuperado a partir de https://revistas.upr.edu/index.php/educacion/article/view/1656

    ESTIMACIÓN MÁXIMO VEROSÍMIL EN APROXIMACIONES BIPLOTS

    No full text
    Los métodos biplots clásicos de Gabriel (1971) se utilizan generalmente con propósitos descriptivos, sin hacer supuestos sobre distribuciones poblacionales, sin embargo, el biplot de una matriz de datos puede interpretarse también como un modelo bilineal multiplicativo (Gollob, 1968). Desde esta ultima perpectiva, en esta investigación se analiza su geometría y se formaliza matemáticamente un método de estimación alternativo a los existentes. El método propuesto puede ser de mucha utilidad en la práctica, ya que permite su generalización para introducir información externa que ayude en la interpretación, y en la obtención de variables latentes continuas en Ciencias Sociales

    LOS MÉTODOS BIPLOT: EVOLUCIÓN Y APLICACIONES

    No full text
    Entre los métodos de análisis multivariante de datos, los Biplot han sido fuente de continuas contribuciones a la ciencia desde su origen en 1971. Su objetivo general es la aproximación de una matriz de datos, de tal forma que permita su descripción o modelización a través de mapas geométricos construidos como proyecciones de nubes de puntos filas y columnas sobre subespacios de ajuste óptimo. Las múltiples contribuciones realizadas en las últimas décadas, nos han motivado a la realización del presente ensayo, donde se recogen en forma bastante completa las diferentes tendencias y se destacan las principales contribuciones. Esperamos que esta revisión pueda resultar de utilidad a investigadores interesados en el tema, ya que les permite seleccionar el método Biplot más adecuado para investigaciones posteriores, así como también conocer las líneas de investigación actuales que le sirvan como base para otras contribuciones en cualquier campo de las ciencias, naturales y sociales

    Estimación máximo verosímil en aproximaciones Biplots

    No full text
    Los métodos biplots clásicos de Gabriel (1971) se utilizan generalmente con propósitos descrip-tivos, sin hacer supuestos sobre distribuciones poblacionales, sin embargo, el biplot de una ma-triz de datos puede interpretarse también como un modelo bilineal multiplicativo (Gollob, 1968). Desde esta ultima perpectiva, en esta investigación se analiza su geometría y se formaliza ma-temáticamente un método de estimación alternativo a los existentes. El método propuesto pue-de ser de mucha utilidad en la práctica, ya que permite su generalización para introducir información externa que ayude en la interpretación, y en la obtención de variables latentes con-tinuas en Ciencias Sociales

    Analysis of Madrid Metro Network: From Structural to HJ-Biplot Perspective

    No full text
    With the growth of cities, urban traffic has increased and traffic congestion has become a serious problem. Due to their characteristics, metro systems are one of the most used public transportation networks in big cities. So, optimization and planning of metro networks are challenges which governments must focus on. The objective of this study was to analyze Madrid metro network using graph theory. Through complex network theory, the main structural and topological properties of the network as well as robustness characteristics were obtained. Furthermore, to inspect these results, multivariate analysis techniques were employed, specifically HJ-Biplot. This analysis tool allowed us to explore relationships between centrality measures and to classify stations according to their centrality. Therefore, it is a multidisciplinary study that includes network analysis and multivariate analysis. The study found that closeness and eccentricity were strongly negatively correlated. In addition, the most central stations were those located in the city center, that is, there is a relationship between centrality and geographic location. In terms of robustness, a highly agglomerated community structure was found
    corecore