805 research outputs found

    Learning Cooperative Games

    Full text link
    This paper explores a PAC (probably approximately correct) learning model in cooperative games. Specifically, we are given mm random samples of coalitions and their values, taken from some unknown cooperative game; can we predict the values of unseen coalitions? We study the PAC learnability of several well-known classes of cooperative games, such as network flow games, threshold task games, and induced subgraph games. We also establish a novel connection between PAC learnability and core stability: for games that are efficiently learnable, it is possible to find payoff divisions that are likely to be stable using a polynomial number of samples.Comment: accepted to IJCAI 201

    Geo-Social Group Queries with Minimum Acquaintance Constraint

    Full text link
    The prosperity of location-based social networking services enables geo-social group queries for group-based activity planning and marketing. This paper proposes a new family of geo-social group queries with minimum acquaintance constraint (GSGQs), which are more appealing than existing geo-social group queries in terms of producing a cohesive group that guarantees the worst-case acquaintance level. GSGQs, also specified with various spatial constraints, are more complex than conventional spatial queries; particularly, those with a strict kkNN spatial constraint are proved to be NP-hard. For efficient processing of general GSGQ queries on large location-based social networks, we devise two social-aware index structures, namely SaR-tree and SaR*-tree. The latter features a novel clustering technique that considers both spatial and social factors. Based on SaR-tree and SaR*-tree, efficient algorithms are developed to process various GSGQs. Extensive experiments on real-world Gowalla and Dianping datasets show that our proposed methods substantially outperform the baseline algorithms based on R-tree.Comment: This is the preprint version that is accepted by the Very Large Data Bases Journa

    Identifying High-Coverage Communities in Edge-Weighted Networks

    Get PDF
    Την τελευταία δεκαετία, η αναζήτηση κοινοτήτων έχει συγκεντρώσει μεγάλη απήχηση σε επιστημονικά πεδία όπως η ανάλυση κοινωνικών και βιολογικών δικτύων. Σχετικές μελέτες χρησιμοποιούν μη σταθμισμένους γράφους για να αναπαριστούν υποκείμενες δομές και στοχεύουν στην εύρεση κοινωτήτων με υψηλή συνοχή. Παράλληλα, νέες έρευνες έχουν επικεντρωθεί στην αναζήτηση κοινοτήτων των οποίων τα μέλη 1) πληρούν ένα σύνολο προκαθορισμένων περιορισμών και 2) συλλογικά μεγιστοποιούν την τιμή μια συνάρτησης. Παρα το γεγονός ότι πλήθος δικτύων του πραγματικού κόσμου διαθέτουν ακμές με βάρη καθώς και κόμβους που σχετίζονται με ένα σύνολο χαρακτηριστικών, οι παραπάνω ήδη καταβληθείσες προσπάθειες επικεντρώνονται κυρίως σε μη σταθμισμένα δίκτυα χωρίς χαρακτηριστικά στους κόμβους. Σε αυτή τη διπλωματική, διερευνούμε μια παραλλαγή του προβλήματος αναζήτησης κοινοτήτων για μη κατευθυνόμενα δίκτυα, με βάρη στις ακμές και κόμβους που διαθέτουν ένα σύνολο χαρακτηριστικών. Δοθέντων ενός γράφου G, ενός συνόλου αρχικών κόμβων, ένα άνω όριο h ως προς το μέγεθος της επιστρεπτέας λύσης, καθώς και ένα κάτω φράγμα s ως προς την συνεκτικότητα, στοχεύουμε στην εύρεση ενός συνδεδεμένου υπογράφου του G ο οποίος: 1) περιέχει τους αρχικούς κόμβους, 2) το μέγεθος της κοινότητας που προσδιορίζεται είναι το πολύ h, 3) το μέτρο συνοχής είναι τουλάχιστον s και 4) ο συνολικός αριθμός των διαφορετικών χαρακτηριστικών που καλύπτονται από τους κόμβους της λύσης μεγιστοποιείται. Ονομάζουμε αυτό το πρόβλημα Αναζήτηση Κοινωτήτων Υψηλής Κάλυψης σε Δίκτυα με Βάρη Ακμών (WCCS). Σε αυτή την διπλωματική, εκμεταλλευόμαστε την πληροφορία που προέρχεται από τα βάρη των ακμών για να ποσοτικοποιήσουμε το ελάχιστο άθροισμα των βαρών που πρέπει να έχει κάποιος κόμβος σε κάθε υποψήφιο υπογράφημα. Υπό αυτές τις συνθήκες, αυτό το ελάχιστο άθροισμα των βαρών, χρησιμεύει ως μέτρο συνοχής. Δείχνουμε ότι Αναζήτηση Κοινωτήτων Υψηλής Κάλυψης σε Δίκτυα με Βάρη Ακμών (WCCS) είναι ένα NP-δύσκολο πρόβλημα όταν πρόκειται για γενικευμένα δίκτυα και ως εκ τούτου, προτείνουμε τρεις προσεγγίσεις για την αντιμετώπιση του εν λόγω προβλήματος. Πειραματικά αποτελέσματα έξι σύνολου δεδομένων πραγματικού κόσμου, δείχνουν ότι παρά τη δυσκολία του προβλήματός μας, μπορούμε αποδοτικά να εντοπίουμε λύσεις που παρέχουν αποτελεσματική κάλυψη.Over the past decade, community search has garnered massive appeal in the areas of social and biology network analysis. Pertinent studies have utilized unweighted graphs to represent underlying structures and seek to reveal highly-cohesive formed groups. Concurrent initiatives have focused on the search for communities whose members 1) comply with designated constraint(s) and 2) collectively present maximization of a score function. Despite the fact that a multitude of real-world networks feature both weighted edges and node attributes, the above already expended efforts focus mostly on unweighted networks without node attributes. In this thesis, we investigate a variant of the community search problem for undirected, edge-weighted, and node-attributed networks modeled as graphs. Given a weighted graph G, a query set of seed nodes Q, a community size constraint h, and a connectivity constraint s, we aim to find a connected subgraph of G that: 1) contains the seed nodes, 2) the size of the community identified is at most h, 3) its cohesiveness measure is at least s and 4) its total number of associated elements is maximized. We term this problem Weighted Covering Community Search (WCCS). In this thesis, we exploit edge-weight-information to quantify the minimum strength within each candidate subgraph considered. In this regard, this minimum strength serves as our cohesiveness measure. We show that the Weighted Covering Community Search (WCCS) is an NP-hard problem when it comes to generalized networks and therefore, we suggest three approaches to address the problem in question. Experimental results with six realworld datasets point to the fact that despite the hardness of our problem, we can efficiently identify solutions that render effective coverage

    Visual querying and analysis of large software repositories

    Get PDF
    We present a software framework for mining software repositories. Our extensible framework enables the integration of data extraction from repositories with data analysis and interactive visualization. We demonstrate the applicability of the framework by presenting several case studies performed on industry-size software repositories. In each study we use the framework to give answers to one or several software engineering questions addressing a specific project. Next, we validate the answers by comparing them with existing project documentation, by interviewing domain experts and by detailed analyses of the source code. The results show that our framework can be used both for supporting case studies on mining software repository techniques and for building end-user tools for software maintenanc

    Enabling Complex Semantic Queries to Bioinformatics Databases through Intuitive Search Over Data

    Get PDF
    Data integration promises to be one of the main catalysts in enabling new insights to be drawn from the wealth of biological data already available publicly. However, the heterogene- ity of the existing data sources still poses significant challenges for achieving interoperability among biological databases. Furthermore, merely solving the technical challenges of data in- tegration, for example through the use of common data representation formats, leaves open the larger problem. Namely, the steep learning curve required for understanding the data models of each public source, as well as the technical language through which the sources can be queried and joined. As a consequence, most of the available biological data remain practically unexplored today. In this thesis, we address these problems jointly, by first introducing an ontology-based data integration solution in order to mitigate the data source heterogeneity problem. We illustrate through the concrete example of Bgee, a gene expression data source, how relational databases can be exposed as virtual Resource Description Framework (RDF) graphs, through relational-to-RDF mappings. This has the important advantage that the original data source can remain unmodified, while still becoming interoperable with external RDF sources. We complement our methods with applied case studies designed to guide domain experts in formulating expressive federated queries targeting the integrated data across the domains of evolutionary relationships and gene expression. More precisely, we introduce two com- parative analyses, first within the same domain (using orthology data from multiple, inter- operable, data sources) and second across domains, in order to study the relation between expression change and evolution rate following a duplication event. Finally, in order to bridge the semantic gap between users and data, we design and im- plement Bio-SODA, a question answering system over domain knowledge graphs, that does not require training data for translating user questions to SPARQL. Bio-SODA uses a novel ranking approach that combines syntactic and semantic similarity, while also incorporating node centrality metrics to rank candidate matches for a given user question. Our results in testing Bio-SODA across several real-world databases that span multiple domains (both within and outside bioinformatics) show that it can answer complex, multi-fact queries, be- yond the current state-of-the-art in the more well-studied open-domain question answering. -- L’intégration des données promet d’être l’un des principaux catalyseurs permettant d’extraire des nouveaux aperçus de la richesse des données biologiques déjà disponibles publiquement. Cependant, l’hétérogénéité des sources de données existantes pose encore des défis importants pour parvenir à l’interopérabilité des bases de données biologiques. De plus, en surmontant seulement les défis techniques de l’intégration des données, par exemple grâce à l’utilisation de formats standard de représentation de données, on laisse ouvert un problème encore plus grand. À savoir, la courbe d’apprentissage abrupte nécessaire pour comprendre la modéli- sation des données choisie par chaque source publique, ainsi que le langage technique par lequel les sources peuvent être interrogés et jointes. Par conséquent, la plupart des données biologiques publiquement disponibles restent pratiquement inexplorés aujourd’hui. Dans cette thèse, nous abordons l’ensemble des deux problèmes, en introduisant d’abord une solution d’intégration de données basée sur ontologies, afin d’atténuer le problème d’hété- rogénéité des sources de données. Nous montrons, à travers l’exemple de Bgee, une base de données d’expression de gènes, une approche permettant les bases de données relationnelles d’être publiés sous forme de graphes RDF (Resource Description Framework) virtuels, via des correspondances relationnel-vers-RDF (« relational-to-RDF mappings »). Cela présente l’important avantage que la source de données d’origine peut rester inchangé, tout en de- venant interopérable avec les sources RDF externes. Nous complétons nos méthodes avec des études de cas appliquées, conçues pour guider les experts du domaine dans la formulation de requêtes fédérées expressives, ciblant les don- nées intégrées dans les domaines des relations évolutionnaires et de l’expression des gènes. Plus précisément, nous introduisons deux analyses comparatives, d’abord dans le même do- maine (en utilisant des données d’orthologie provenant de plusieurs sources de données in- teropérables) et ensuite à travers des domaines interconnectés, afin d’étudier la relation entre le changement d’expression et le taux d’évolution suite à une duplication de gène. Enfin, afin de mitiger le décalage sémantique entre les utilisateurs et les données, nous concevons et implémentons Bio-SODA, un système de réponse aux questions sur des graphes de connaissances domaine-spécifique, qui ne nécessite pas de données de formation pour traduire les questions des utilisateurs vers SPARQL. Bio-SODA utilise une nouvelle ap- proche de classement qui combine la similarité syntactique et sémantique, tout en incorporant des métriques de centralité des nœuds, pour classer les possibles candidats en réponse à une question utilisateur donnée. Nos résultats suite aux tests effectués en utilisant Bio-SODA sur plusieurs bases de données à travers plusieurs domaines (tantôt liés à la bioinformatique qu’extérieurs) montrent que Bio-SODA réussit à répondre à des questions complexes, en- gendrant multiples entités, au-delà de l’état actuel de la technique en matière de systèmes de réponses aux questions sur les données structures, en particulier graphes de connaissances

    Efficient Node Proximity and Node Significance Computations in Graphs

    Get PDF
    abstract: Node proximity measures are commonly used for quantifying how nearby or otherwise related to two or more nodes in a graph are. Node significance measures are mainly used to find how much nodes are important in a graph. The measures of node proximity/significance have been highly effective in many predictions and applications. Despite their effectiveness, however, there are various shortcomings. One such shortcoming is a scalability problem due to their high computation costs on large size graphs and another problem on the measures is low accuracy when the significance of node and its degree in the graph are not related. The other problem is that their effectiveness is less when information for a graph is uncertain. For an uncertain graph, they require exponential computation costs to calculate ranking scores with considering all possible worlds. In this thesis, I first introduce Locality-sensitive, Re-use promoting, approximate Personalized PageRank (LR-PPR) which is an approximate personalized PageRank calculating node rankings for the locality information for seeds without calculating the entire graph and reusing the precomputed locality information for different locality combinations. For the identification of locality information, I present Impact Neighborhood Indexing (INI) to find impact neighborhoods with nodes' fingerprints propagation on the network. For the accuracy challenge, I introduce Degree Decoupled PageRank (D2PR) technique to improve the effectiveness of PageRank based knowledge discovery, especially considering the significance of neighbors and degree of a given node. To tackle the uncertain challenge, I introduce Uncertain Personalized PageRank (UPPR) to approximately compute personalized PageRank values on uncertainties of edge existence and Interval Personalized PageRank with Integration (IPPR-I) and Interval Personalized PageRank with Mean (IPPR-M) to compute ranking scores for the case when uncertainty exists on edge weights as interval values.Dissertation/ThesisDoctoral Dissertation Computer Science 201
    corecore