11 research outputs found

    Maiter: An Asynchronous Graph Processing Framework for Delta-based Accumulative Iterative Computation

    Full text link
    Myriad of graph-based algorithms in machine learning and data mining require parsing relational data iteratively. These algorithms are implemented in a large-scale distributed environment in order to scale to massive data sets. To accelerate these large-scale graph-based iterative computations, we propose delta-based accumulative iterative computation (DAIC). Different from traditional iterative computations, which iteratively update the result based on the result from the previous iteration, DAIC updates the result by accumulating the "changes" between iterations. By DAIC, we can process only the "changes" to avoid the negligible updates. Furthermore, we can perform DAIC asynchronously to bypass the high-cost synchronous barriers in heterogeneous distributed environments. Based on the DAIC model, we design and implement an asynchronous graph processing framework, Maiter. We evaluate Maiter on local cluster as well as on Amazon EC2 Cloud. The results show that Maiter achieves as much as 60x speedup over Hadoop and outperforms other state-of-the-art frameworks.Comment: ScienceCloud 2012, TKDE 201

    Similarity Search over Network Structure

    Get PDF
    With the advent of the Internet, graph-structured data are ubiquitous. An essential task for graph-structured data management is similarity search based on graph topology, with a wide spectrum of applications, e.g., web search, outlier detection, co-citation analysis, and collaborative filtering. These graph topology data arrive from multiple sources at an astounding velocity, volume and veracity. While the scale of network structured data is increasing, existing similarity search algorithms on large graphs are impractical due to their expensive costs in terms of computational time and memory space. Moreover, dynamic changes (e.g., noise and abnormality) exists in network data, and it arises from many factors, such as data loss in transfer, data incompleteness, and dirty reading. Thus, the dynamic changes have become the main barrier to gaining accurate results for efficient network analysis. In real Web applications, CoSimRank has been proposed as a robust measure of node-pair similarity based on graph topology. It follows a SimRank-like notion that “two nodes are considered as similar if their in-neighbours are similar”, but the similarity of each node with itself is not constantly 1, which is different from SimRank. However, existing work on CoSimRank is restricted to static graphs. Each node pair CoSimRank score is retrieved from the sum of dot products of two Personalised PageRank vectors. When the graph is updated with edges (nodes) addition and deletion over time, it is cost-inhibitive to recompute all CoSimRank scores from scratch, which is impractical. RoleSim is a popular graph-structural role similarity search measure with many applications (e.g., sociometry), it can get the automorphic equivalence of nodes pair similarity, which SimRank and CoSimRank lack. But the accuracy of RoleSim algorithm can be improved. In this study, (1) we propose fast dynamic scheme, D-CoSim and D-deCoSim, for accurate CoSimRank search over large-scale evolving graphs. (2) Based on D-CoSim, we also propose fast scheme, F-CoSim and Opt_F-CoSim, which greatly accelerates CoSimRank search over static graphs. Our theoretical analysis shows that D-CoSim, D-deCoSim F-CoSim and Opt_F-CoSim guarantee the exactness of CoSimRank scores. Experimental evaluations verify the superiority of D-CoSim and D-deCoSim over evolving graphs, and the fast speedupof F-CoSim and Opt_F-CoSim on large-scale static graphs against its competitors, without any loss of accuracy. (3) We propose a novel role similarity search algorithm FaRS, and a speedup algorithm Opt_FaRS, which guarantees the automorphic equivalence capture, and captures the information from the neighbour’s class. The experimental results of FaRS and Opt_FaRS show that our algorithms achieves higher accuracy than baseline algorithms

    Entity-Oriented Search

    Get PDF
    This open access book covers all facets of entity-oriented search—where “search” can be interpreted in the broadest sense of information access—from a unified point of view, and provides a coherent and comprehensive overview of the state of the art. It represents the first synthesis of research in this broad and rapidly developing area. Selected topics are discussed in-depth, the goal being to establish fundamental techniques and methods as a basis for future research and development. Additional topics are treated at a survey level only, containing numerous pointers to the relevant literature. A roadmap for future research, based on open issues and challenges identified along the way, rounds out the book. The book is divided into three main parts, sandwiched between introductory and concluding chapters. The first two chapters introduce readers to the basic concepts, provide an overview of entity-oriented search tasks, and present the various types and sources of data that will be used throughout the book. Part I deals with the core task of entity ranking: given a textual query, possibly enriched with additional elements or structural hints, return a ranked list of entities. This core task is examined in a number of different variants, using both structured and unstructured data collections, and numerous query formulations. In turn, Part II is devoted to the role of entities in bridging unstructured and structured data. Part III explores how entities can enable search engines to understand the concepts, meaning, and intent behind the query that the user enters into the search box, and how they can provide rich and focused responses (as opposed to merely a list of documents)—a process known as semantic search. The final chapter concludes the book by discussing the limitations of current approaches, and suggesting directions for future research. Researchers and graduate students are the primary target audience of this book. A general background in information retrieval is sufficient to follow the material, including an understanding of basic probability and statistics concepts as well as a basic knowledge of machine learning concepts and supervised learning algorithms

    Prediction and modelling of complex social networks and their evolution.

    Get PDF
    This thesis focuses on complex social networks in the context of computational approaches for their prediction and modelling. The increasing popularity and advancement of social net- works paired with the availability of social network data enable empirical analysis, inference, prediction and modelling of social patterns. This data-driven approach towards social science is continuously evolving and is crucial for modelling and understanding of human social behaviour including predicting future social interactions for a wide range of applications. The main difference between traditional datasets and network datasets is the presence of the relational components (links) between instances (nodes) of the network. These links and nodes induce intricate local and global patterns, defining the topology of a network. The topology is ever evolving, determining the dynamics of such a networked system. The work presented in this thesis starts with an extensive analysis of three standard network models, in terms of their properties and self-interactions as well as the size and density of the resultant graphs. These crucial analysis and understanding of the main network models are utilised to later develop a comprehensive network simulation framework. A set of novel nature-inspired link prediction approaches are then developed to predict the evolution of networks, based solely on their topologies. Building on top of these approaches, enhanced topological representations of networks are subsequently combined with node characteristics for the purpose of node classification. Finally, the proposed classification methods are extensively evaluated using simulated networks from our network simulation framework as well as two real-world citation networks. The link prediction approaches proposed in this research show that the topology of the network can be further exploited to improve the prediction of future relationships. Moreover, this research demonstrates the potential of blending state-of-the-art Machine Learning techniques with graph theory. To accelerate such advancements in the field of network science, this research also offers an open- source software to provide high-quality synthetic datasets

    Temporal patterns of communication in social networks

    Get PDF
    This thesis has been a joint project between Universidad Carlos III de Madrid and Telefónica Research (Spain). Specifically, the research has been conducted at the GISC (Grupo Interdisciplinar de Sistemas Complejos), group of Universidad Carlos III and at the analytics and data mining and user modelling research teams of Telefónica Research. The main interest of this research has been in understanding and characterizing large networks of human interactions as continuously changing objects, which members appear and disappear over time and which interactions are characterized by temporal correlations and inhomogeneities. This constitutes a very challenging and novel topic. In fact, although many real social networks are temporal or dynamical networks, which elements and properties continuously change over time, traditional approaches to social network analysis are essentially static: ties (and tie weights) are given by the aggregated activity observed in a given time period, nodes and ties are considered persistent over time, temporal inhomogeneities and correlations between interaction events are neglected, etc. Within this frame, therefore, the time dimension of human behavior has typically been projected out. Although much effort has been devoted in the last years to characterize the temporal patterns of human interaction, a general understanding of how dynamically model real social networks is still missing. In this thesis we contribute to advancing the state of the art in this area by investigating the instantaneous, instead than the aggregated, contact network and by analyzing the role of temporal activity patterns of human interaction in the description and modeling of real social networks. Specifically, we investigated the role that topological and, in particular, temporal patterns of human interaction play in three main topics of social network analysis and data mining: the characterization of time (or attention) allocation in social networks, the prediction of link decay and/or persistence and the analysis and modeling of information spreading phenomena. To this end, we have analyzed large anonymized data sets of phone call communication traces (Call Detail Records or CDR) over long periods of time. Access to these observations was granted by Telefónica Research. The availability of empirical data about such massive networks allowed us to analyze and measure global features of human behavior and interaction and to characterize phenomena and tendencies that might be invisible at small scale. At the same time, the fine-grained resolution of the datasets we had access to and the fact that they cover a large sample of the population, ensure the significance and universality of our findings. The findings that emerge from our research indicate that the observed inhomogeneities and correlations of human temporal patterns of interactions significantly affect the current view of social networks, shifting from a very steady to a highly complex entity. Temporal patterns of communication are essential not only for a better characterization of the inherent properties of human behavior, but also, and more importantly, for the understanding and modeling of all those phenomena which are triggered by the way in which people communicate and behave. Examples are diffusion of epidemics, information spreading, opinion and influence phenomena and group formation. Our results indicate the necessity to incorporate temporal patterns of communication in the analysis of social networks: since structure and dynamics are tightly coupled, the analysis and modeling of human behavior has to factor in both. The work of this thesis combines data mining, the analysis of large datasets, theoretical modeling, simulations and experiments on empirical data. In addition, this also has a wide range of applications in many business sectors. In particular, at Telefónica Research, part of our techniques and findings have been successfully applied to areas such as social networks analysis, modeling human influence, customer segmentation and targeting in viral marketing campaigns. We believe this work has made a contribution to understanding and modeling real social networks and and we are confident that it will encourages further research in this field. --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Entender la dinámica de comunicación entre personas en una red social es uno de los problemas clave de la ciencia contemporánea y juega un papel fundamental en situaciones tales como detección temprana de epidemias, pero también en procesos como la difusión de información comercial, marketing viral, propagación de noticias, opiniones o rumores. De hecho, todos esos procesos están estrictamente relacionados con la forma en que las personas están conectadas e interactúan y con los mecanismos que regulan la dinámica de esas interacciones. Tradicionalmente, el estudio de las redes sociales y de la dinámica de comunicación entre personas se ha basado principalmente en el análisis de cuestionarios y estudios dirigidos a pequeños grupos de individuos, limitando la generalización a gran escala de los resultados y por tanto una comprensión completa del comportamiento humano y de muchos procesos reales basados en ello. En los últimos años, la existencia de grandes bases de datos electrónicos sobre interacción entre personas, como e-mail, llamadas de teléfono o mensajes en redes sociales online como Facebook o Twitter, ha facilitado el estudio sobre el comportamiento humano y cambiado radicalmente la forma de entender y modelizar las redes sociales, tanto que se habla ya de un nuevo tipo de ciencia emergente: la ciencia de las redes sociales o ciencia social computacional. De hecho, el estudio del comportamiento humano basado en bases de datos electrónicos a gran escala y durante períodos largos de tiempo ofrece una oportunidad de estudiar y modelar los fenómenos sociales que no tiene precedentes en ciencias sociales, económicas o de sistemas complejos. La mayoría de estudios de redes sociales en las últimas décadas se han enfocado en caracterizar la estructura topológica de la red (con quién se relaciona cada individuo) y entender las propiedades de esa estructura durante un período de observación dado. Se ha observado, por ejemplo, que en las redes sociales la distancia topológica desde cualquier nodo de la red a otro es mucho más pequeña que el tamaño (número total de nodos) de la red (efecto de ”pequeño mundo”) o que en estas redes hay un número inusual de grandes conectores (hubs), que poseen la mayor parte de las conexiones sociales. Sin embargo, en estos estudios normalmente no se incluyen las propiedades temporales de la actividad humana y se asume que las redes sociales son objetos estáticos cuyas propiedades se obtienen agregando en el tiempo la actividad de los individuos: tanto los nodos de la red cuanto las conexiones sociales se consideran permanentemente activas y el peso o importancia de cada relación sólo depende del volumen total de interacción entre las dos personas involucradas. Además, se asume que los eventos no están relacionados entre sí y que la interacción entre dos personas ocurre de forma homogénea en el tiempo, o sea que puede ocurrir de forma aleatoria en cualquier instante. Sin embargo, estudios recientes de la actividad humana han demostrado que los patrones temporales de esta actividad son altamente heterogéneos. De hecho, las conexiones sociales se forman y se destruyen en el tiempo y la actividad humana, por ejemplo el número de email mandados por un mismo usuario al día o la interacción entre dos personas, se produce a ráfagas, es decir períodos muy intensos de conversaciones se alternan con largos períodos de inactividad. Además, se ha observado que la comunicación humana sucede en conversaciones en grupo, es decir, aunque se produce a ráfagas, ´estas ocurren a la vez entre los miembros de un grupo social. Esa heterogeneidad de los patrones temporales de la actividad humana afecta la forma de comprender y modelar las redes de interacción humana, las propiedades topológicas de las mismas, así como la dinámica de muchos procesos reales. Sin embargo, a pesar de su importancia, todavía se sabe muy poco de cómo incorporar las propiedades temporales en la descripción y modelización de las redes sociales. Nuestro principal objetivo ha sido avanzar en este problema y con dos propósitos principales. Por un lado, entender y cuantificar no solo las propiedades estructurales, sino también los patrones temporales de comunicación entre personas y comprender como afectan a la actual descripción de las redes sociales. Frente a la visión estática de una red social (cómo están conectados los individuos dentro de una red), nuestro estudio ha buscado entender también cuándo y cómo se producen esas relaciones sociales en el tiempo. Por otro lado, nos hemos interesado en entender cómo esos ritmos de interacción afectan procesos dinámicos globales con un particular interés en fenómenos de la difusión de informaciones en redes sociales. Como consecuencia, nuestro propósito más general ha sido proporcionar una mejor caracterización de las redes sociales como entidades dinámicas en lugar de estáticas, incluyendo no sólo las propiedades topológicas de la red sino también los patrones temporales. Este proyecto de tesis ha sido una colaboración entre la Universidad Carlos III de Madrid y Telefónica I+D, a través de la beca Becas de Formación de Doctores Telefónica I+D y Universidad Carlos III de Madrid y sucesivas colaboraciones. En particular, Telefónica I+D nos ha proporcionado el acceso a bases de datos totalmente anonimizadas de llamadas telefónicas (Call Detail Record o CDR), cuyo análisis nos ha permitido de investigar las propiedades estructurales y dinámicas de masivas redes sociales durante largos períodos de tiempo (aproximadamente 9.000 millones de llamadas entre 20 millones de usuarios durante períodos de 11-19 meses) construidas a partir de esos datos. Este gran volumen de datos y su extensión en tiempo garantiza la representatividad y universalidad de nuestros resultados. Nuestra metodología se ha basado entonces en el estudio de grandes redes sociales de llamadas telefónicas, en simulaciones sobre esas redes y la posterior análisis y modelización. Para alcanzar nuestros objetivos, en primer lugar hemos analizado y caracterizado las propiedades temporales de estas redes. De acuerdo con otros estudios, hemos observado que, dentro de la misma red egocéntrica de una persona, no todas las conexiones sociales tienen la misma importancia y que tanto los individuos como los enlaces entre ellos son altamente volátiles. Se ha observado además que la comunicación entre individuos no sucede de manera homogénea en el tiempo, sino que se produce a ráfagas y están organizadas en grupos de conversaciones. En segundo lugar hemos analizado el papel que todos estos aspectos temporales de la comunicación humana juegan en: (i) los procesos de organización y distribución de tiempo y atención de una persona dentro de su red de contactos, (ii) la caracterización de una relación social a partir de la observación de actividad entre dos personas y del rol que esa actividad tiene en la predicción de la persistencia o decaimiento de la misma relación en el futuro y (iii) procesos de difusión de información en redes sociales. Uno de los motivos por los cuales las redes sociales no han sido estudiadas de forma dinámica es el hecho de que los procesos de creación y destrucción de los enlaces sociales están enmascarados por la actividad a ráfagas de las interacciones humanas. La dificultad en el separar esos dos procesos, junta a la convicción de que la escala de tiempo que regula la creación y destrucción de los enlaces sociales es mucho mas lenta que la de interacción, han favorecido hasta ahora una descripción agregada y estática de las redes sociales, frente al estudio de la red instantánea. Sin embargo, nosotros hemos propuesto un método que nos permite separar las dos escalas de tiempo de esos dos procesos y analizar, con mucha precisión, la red instantánea de cada usuario. Este análisis nos ha permitido investigar cómo cantidades esenciales en el análisis de redes sociales, como la conectividad social de un individuo, están afectados por la continua formación (destrucción) de nuevos (antiguos) enlaces. Contrariamente a la infinita (o muy grande) capacidad social predicha por algunos modelos estáticos, nosotros hemos observado que existe un límite a dicha capacidad y que, a pesar que las conexiones sociales se forman y destruyen en el tiempo, cada individuo mantiene un número limitado y constante de contactos a lo largo del tiempo. Mientras el número de contactos que cada usuario mantiene en el tiempo nos da informaciones sobre su capacidad social, el número de conexiones creadas o destruidas en una dada ventana temporal mide su actividad social. La identificación y el análisis de estas dos medidas, que normalmente se consideran como una única cantidad (la conectividad social), nos han llevado al descubrimiento y caracterización de distintos tipos de estrategias de comunicación. Mientras algunos individuos mantienen en el tiempo siempre el mismo conjunto de contactos (estrategia estable), otros prefieren explorar varias partes de la red (estrategia exploradora) y están caracterizados por un círculo social muy volátil y muy poco conectado entre sí. Además hemos visto que la estrategia de comunicación de un individuo también caracteriza la estrategia de sus contactos, siendo estas dinámicas asortativas en la red. Es decir, la red est´a formada por grupos de individuos muy conectados y persistentes separados por grupos muy vol´atiles y desconectados. Este comportamiento afecta no sólo las dinámicas de cómo la gente distribuye su tiempo y atención entre su círculo social sino también, y más importante, procesos globales como la transmisión de información. En concreto nuestro estudio demuestra que, contrariamente al sentido común, las estrategias estables son más eficientes que las exploradoras para conocer antes información. El estudio de las propiedades dinamicas de la comunicación humana también nos ha llevado a demostrar que la forma en la que dos individuos interactúan en el tiempo permite caracterizar mucho más que el número total de comunicaciones: nos da información sobre el tipo de relación social que existe entre ellos. Por ello, hemos introducido simples cantidades para medir la duración total o el nivel de heterogeneidad temporal en una relación social. Esas cantidades, no sólo permiten distinguir entre distintos tipos de enlaces sociales, cosa imposible considerando sólo el número de llamadas, sino también nos dan información sobre el estado de la red social en una ventana futura. De hecho, aplicando un modelo sencillo de clasificación, hemos demostrado que tanto como las propiedades topológicas de los enlaces sociales, sus patrones temporales nos permiten predecir si un enlace, observado en un dado período temporal, es más o menos probable que decaiga o persista en el tiempo. Este estudio tiene importantes aplicaciones no sólo en la caracterización de un enlace social, sino en la predicción y gestión de la actividad en redes sociales. Finalmente, hemos analizado el impacto que los patrones temporales de comunicación tienen en el proceso de propagación de información. Para abordar este tema hemos utilizado simulaciones de uno de los modelos estándar en la propagación de epidemias e infecciones, el modelo SIR (Susceptible-Infectado-Recuperado), sobre las secuencias reales de llamadas entre personas. De esta forma, hemos podido tener en cuenta todos los aspectos de la comunicación real y analizar desde un punto de vista no sólo cualitativo, sino también cuantitativo, los efectos que esos aspectos tienen en el número de gente a la que puede llegar la información y en la velocidad de dicho proceso. La principal conclusión del estudio es que el hecho que las interacciones humanas suceden en ráfagas ralentiza la difusión de información, ya que los grandes períodos de inactividad en la comunicación entre dos personas hacen menos probable el traspaso de una información de una a otra. Por otro lado, las conversaciones entre grupos de personas aceleran la difusión de información dentro de esos grupos. Esos dos efectos compiten y son los ingredientes fundamentales en el proceso de difusión en redes sociales y, en general, en todos los procesos donde el tiempo entre eventos de actividad humana es decisivo. Por último, hemos propuesto una simple forma para representar las redes sociales dentro del esquema tradicional estático, pero teniendo en cuenta también las propiedades temporales de la interacción humana a través de lo que hemos definido fuerza dinámica de un enlace, contrariamente a la fuerza estática dada por el volumen de comunicación entre dos personas. Nuestro estudio permite por primera vez una descripción básica de las redes sociales en donde la fuerza de los enlaces incluye algunos aspectos de la dinámica de las interacciones y abre la puerta a su utilización para modelizar, entender y analizar redes sociales dinámicas. El proyecto constituye una combinación de simulación, modelización teórica, experimentación en redes sociales empíricas y aplicación al entorno empresarial. En este aspecto, por ejemplo, Telefónica I+D ha mostrado amplio inter´es por los resultados de nuestra investigación y, de hecho, parte de los resultados y del trabajo realizado se han aplicado con éxito al análisis de redes sociales y a campañas de marketing viral

    Recent Advances in Social Data and Artificial Intelligence 2019

    Get PDF
    The importance and usefulness of subjects and topics involving social data and artificial intelligence are becoming widely recognized. This book contains invited review, expository, and original research articles dealing with, and presenting state-of-the-art accounts pf, the recent advances in the subjects of social data and artificial intelligence, and potentially their links to Cyberspace

    Multidimensional Network analysis

    Get PDF
    This thesis is focused on the study of multidimensional networks. A multidimensional network is a network in which among the nodes there may be multiple different qualitative and quantitative relations. Traditionally, complex network analysis has focused on networks with only one kind of relation. Even with this constraint, monodimensional networks posed many analytic challenges, being representations of ubiquitous complex systems in nature. However, it is a matter of common experience that the constraint of considering only one single relation at a time limits the set of real world phenomena that can be represented with complex networks. When multiple different relations act at the same time, traditional complex network analysis cannot provide suitable analytic tools. To provide the suitable tools for this scenario is exactly the aim of this thesis: the creation and study of a Multidimensional Network Analysis, to extend the toolbox of complex network analysis and grasp the complexity of real world phenomena. The urgency and need for a multidimensional network analysis is here presented, along with an empirical proof of the ubiquity of this multifaceted reality in different complex networks, and some related works that in the last two years were proposed in this novel setting, yet to be systematically defined. Then, we tackle the foundations of the multidimensional setting at different levels, both by looking at the basic extensions of the known model and by developing novel algorithms and frameworks for well-understood and useful problems, such as community discovery (our main case study), temporal analysis, link prediction and more. We conclude this thesis with two real world scenarios: a monodimensional study of international trade, that may be improved with our proposed multidimensional analysis; and the analysis of literature and bibliography in the field of classical archaeology, used to show how natural and useful the choice of a multidimensional network analysis strategy is in a problem traditionally tackled with different techniques
    corecore