143 research outputs found

    Nepotistic relationships in Twitter and their impact on rank prestige algorithms

    Get PDF
    Micro-blogging services such as Twitter allow anyone to publish anything, anytime. Needless to say, many of the available contents can be diminished as babble or spam. However, given the number and diversity of users, some valuable pieces of information should arise from the stream of tweets. Thus, such services can develop into valuable sources of up-to-date information (the so-called real-time web) provided a way to find the most relevant/trustworthy/authoritative users is available. Hence, this makes a highly pertinent question for which graph centrality methods can provide an answer. In this paper the author offers a comprehensive survey of feasible algorithms for ranking users in social networks, he examines their vulnerabilities to linking malpractice in such networks, and suggests an objective criterion against which to compare such algorithms. Additionally, he suggests a first step towards ―desensitizing‖ prestige algorithms against cheating by spammers and other abusive use

    Decentralized link analysis in peer-to-peer web search networks

    Get PDF
    Analyzing the authority or reputation of entities that are connected by a graph structure and ranking these entities is an important issue that arises in the Web, in Web 2.0 communities, and in other applications. The problem is typically addressed by computing the dominant eigenvector of a matrix that is suitably derived from the underlying graph, or by performing a full spectral decomposition of the matrix. Although such analyses could be performed by a centralized server, there are good reasons that suggest running theses computations in a decentralized manner across many peers, like scalability, privacy, censorship, etc. There exist a number of approaches for speeding up the analysis by partitioning the graph into disjoint fragments. However, such methods are not suitable for a peer-to-peer network, where overlap among the fragments might occur. In addition, peer-to-peer approaches need to consider network characteristics, such as peers unaware of other peers' contents, susceptibility to malicious attacks, and network dynamics (so-called churn). In this thesis we make the following major contributions. We present JXP, a decentralized algorithm for computing authority scores of entities distributed in a peer-to-peer (P2P) network that allows peers to have overlapping content and requires no a priori knowledge of other peers' content. We also show the benets of JXP in the Minerva distributed Web search engine. We present an extension of JXP, coined TrustJXP, that contains a reputation model in order to deal with misbehaving peers. We present another extension of JXP, that handles dynamics on peer-to-peer networks, as well as an algorithm for estimating the current number of entities in the network. This thesis also presents novel methods for embedding JXP in peer-to-peer networks and applications. We present an approach for creating links among peers, forming semantic overlay networks, where peers are free to decide which connections they create and which they want to avoid based on various usefulness estimators. We show how peer-to-peer applications, like the JXP algorithm, can greatly benet from these additional semantic relations.Die Berechnung von Autoritäts- oder Reputationswerten für Knoten eines Graphen, welcher verschiedene Entitäten verknüpft, ist von großem Interesse in Web-Anwendungen, z.B. in der Analyse von Hyperlinkgraphen, Web 2.0 Portalen, sozialen Netzen und anderen Anwendungen. Die Lösung des Problems besteht oftmals im Kern aus der Berechnung des dominanten Eigenvektors einer Matrix, die vom zugrunde liegenden Graphen abgeleitet wird. Obwohl diese Analysen in einer zentralisierten Art und Weise berechnet werden können, gibt es gute Gründe, diese Berechnungen auf mehrere Knoten eines Netzwerkes zu verteilen, insbesondere bezüglich Skalierbarkeit, Datenschutz und Zensur. In der Literatur finden sich einige Methoden, welche die Berechnung beschleunigen, indem der zugrunde liegende Graph in nicht überlappende Teilgraphen zerlegt wird. Diese Annahme ist in Peer-to-Peer-System allerdings nicht realistisch, da die einzelnen Peers ihre Graphen in einer nicht synchronisierten Weise erzeugen, was inhärent zu starken oder weniger starken Überlappungen der Graphen führt. Darüber hinaus sind Peer-to-Peer-Systeme per Definition ein lose gekoppelter Zusammenschluss verschiedener Benutzer (Peers), verteilt im ganzen Internet, so dass Netzwerkcharakteristika, Netzwerkdynamik und mögliche Attacken krimineller Benutzer unbedingt berücksichtigt werden müssen. In dieser Arbeit liefern wir die folgenden grundlegenden Beiträge. Wir präsentieren JXP, einen verteilten Algorithmus für die Berechnung von Autoritätsmaßen über Entitäten in einem Peer-to-Peer Netzwerk. Wir präsentieren Trust-JXP, eine Erweiterung von JXP, ausgestattet mit einem Modell zur Berechnung von Reputationswerten, die benutzt werden, um bösartig agierende Benutzer zu identizieren. Wir betrachten, wie JXP robust gegen Veränderungen des Netzwerkes gemacht werden kann und wie die Anzahl der verschiedenen Entitäten im Netzwerk effizient geschätzt werden kann. Darüber hinaus beschreiben wir in dieser Arbeit neuartige Ansätze, JXP in bestehende Peer-to-Peer-Netzwerke einzubinden. Wir präsentieren eine Methode, mit deren Hilfe Peers entscheiden können, welche Verbindungen zu anderen Peers von Nutzen sind und welche Verbindungen vermieden werden sollen. Diese Methode basiert auf verschiedenen Qualitätsindikatoren, und wir zeigen, wie Peer-to-Peer-Anwendungen, zum Beispiel JXP, von diesen zusätzlichen Relationen profitieren können

    Decentralized link analysis in peer-to-peer web search networks

    Get PDF
    Analyzing the authority or reputation of entities that are connected by a graph structure and ranking these entities is an important issue that arises in the Web, in Web 2.0 communities, and in other applications. The problem is typically addressed by computing the dominant eigenvector of a matrix that is suitably derived from the underlying graph, or by performing a full spectral decomposition of the matrix. Although such analyses could be performed by a centralized server, there are good reasons that suggest running theses computations in a decentralized manner across many peers, like scalability, privacy, censorship, etc. There exist a number of approaches for speeding up the analysis by partitioning the graph into disjoint fragments. However, such methods are not suitable for a peer-to-peer network, where overlap among the fragments might occur. In addition, peer-to-peer approaches need to consider network characteristics, such as peers unaware of other peers' contents, susceptibility to malicious attacks, and network dynamics (so-called churn). In this thesis we make the following major contributions. We present JXP, a decentralized algorithm for computing authority scores of entities distributed in a peer-to-peer (P2P) network that allows peers to have overlapping content and requires no a priori knowledge of other peers' content. We also show the benets of JXP in the Minerva distributed Web search engine. We present an extension of JXP, coined TrustJXP, that contains a reputation model in order to deal with misbehaving peers. We present another extension of JXP, that handles dynamics on peer-to-peer networks, as well as an algorithm for estimating the current number of entities in the network. This thesis also presents novel methods for embedding JXP in peer-to-peer networks and applications. We present an approach for creating links among peers, forming semantic overlay networks, where peers are free to decide which connections they create and which they want to avoid based on various usefulness estimators. We show how peer-to-peer applications, like the JXP algorithm, can greatly benet from these additional semantic relations.Die Berechnung von Autoritäts- oder Reputationswerten für Knoten eines Graphen, welcher verschiedene Entitäten verknüpft, ist von großem Interesse in Web-Anwendungen, z.B. in der Analyse von Hyperlinkgraphen, Web 2.0 Portalen, sozialen Netzen und anderen Anwendungen. Die Lösung des Problems besteht oftmals im Kern aus der Berechnung des dominanten Eigenvektors einer Matrix, die vom zugrunde liegenden Graphen abgeleitet wird. Obwohl diese Analysen in einer zentralisierten Art und Weise berechnet werden können, gibt es gute Gründe, diese Berechnungen auf mehrere Knoten eines Netzwerkes zu verteilen, insbesondere bezüglich Skalierbarkeit, Datenschutz und Zensur. In der Literatur finden sich einige Methoden, welche die Berechnung beschleunigen, indem der zugrunde liegende Graph in nicht überlappende Teilgraphen zerlegt wird. Diese Annahme ist in Peer-to-Peer-System allerdings nicht realistisch, da die einzelnen Peers ihre Graphen in einer nicht synchronisierten Weise erzeugen, was inhärent zu starken oder weniger starken Überlappungen der Graphen führt. Darüber hinaus sind Peer-to-Peer-Systeme per Definition ein lose gekoppelter Zusammenschluss verschiedener Benutzer (Peers), verteilt im ganzen Internet, so dass Netzwerkcharakteristika, Netzwerkdynamik und mögliche Attacken krimineller Benutzer unbedingt berücksichtigt werden müssen. In dieser Arbeit liefern wir die folgenden grundlegenden Beiträge. Wir präsentieren JXP, einen verteilten Algorithmus für die Berechnung von Autoritätsmaßen über Entitäten in einem Peer-to-Peer Netzwerk. Wir präsentieren Trust-JXP, eine Erweiterung von JXP, ausgestattet mit einem Modell zur Berechnung von Reputationswerten, die benutzt werden, um bösartig agierende Benutzer zu identizieren. Wir betrachten, wie JXP robust gegen Veränderungen des Netzwerkes gemacht werden kann und wie die Anzahl der verschiedenen Entitäten im Netzwerk effizient geschätzt werden kann. Darüber hinaus beschreiben wir in dieser Arbeit neuartige Ansätze, JXP in bestehende Peer-to-Peer-Netzwerke einzubinden. Wir präsentieren eine Methode, mit deren Hilfe Peers entscheiden können, welche Verbindungen zu anderen Peers von Nutzen sind und welche Verbindungen vermieden werden sollen. Diese Methode basiert auf verschiedenen Qualitätsindikatoren, und wir zeigen, wie Peer-to-Peer-Anwendungen, zum Beispiel JXP, von diesen zusätzlichen Relationen profitieren können

    Socially enhanced search and exploration in social tagging networks

    Get PDF
    Social tagging networks have become highly popular for publishing and searching contents. Users in such networks can review, rate and comment on contents, or annotate them with keywords (emph{social tags}) to give short but exact text representations of even non-textual contents. In addition, there is an inherent support for interactions and relationships among users. Thus, users naturally form groups of friends or of common interests. We address three research areas in our work utilising these intrinsic features of social tagging networks. 1) We investigate new approaches for exploiting the social knowledge of and the relationships between users for searching and recommending relevant contents, and integrate them in a comprehensive framework, coined SENSE, for search in social tagging networks. 2) To dynamically update precomputed lists of transitive friends in descending order of their distance in user graphs of social tagging networks, we provide an algorithm for incrementally solving the all pairs shortest distance problem in large, disk-resident graphs and formally prove its correctness. 3) Since users are content providers in social tagging networks, users may keep their own data at independent, local peers that collaborate in a distributed P2P network. We provide an algorithm for such systems to counter cheating of peers in authority computations over social networks. The viability of each solution is demonstrated by extensive experiments regarding effectiveness and efficiency.Im Internet sind soziale Netzwerke, die es erlauben Inhalte mit Anmerkungen zu versehen, inzwischen weit verbreitet und bei Anwendern gleichermaßen beliebt, um eigene Informationen zu veröffentlichen oder nach denen andere Benutzer zu suchen. Anwender können in diesen sozialen Netzwerken vorhandene Inhalte kritisieren, bewerten und kommentieren oder eben mit Schlagworten, d.h. mit sozialen Annotationen (engl. social tags) versehen. Ein weiteres Merkmal dieser sozialen Netzwerke ist es, dass Interaktionen und Freundshaftsbeziehungen zwischen Benutzern aktiv gefördert werden und sich so Anwender mit ähnlichen Interessen in Gruppen zusammenschließen. Hieraus ergeben sich interessante Möglichkeiten für die Forschung. Wir sprechen drei Bereiche in dieser Arbeit an. 1) Wir präsentieren mit SENSE ein umfassendes Rahmenwerk zur Suche in sozialen Netzwerken und stellen darin neue Ansätze zur Verbesserung von Suchergebnissen vor, die das gemeinschaftliche Wissen der Anwender und die Beziehungen zwischen den Anwendern nutzen. 2) Zur kontinuierlichen Aktualisierung von Freundeslisten, stellen wir einen Algorithmus zur inkrementellen Lösung des kürzesten Wege-Problems zwischen allen Paaren von Knoten im Benutzergraphen sozialer Netzwerke vor. 3) Soziale Netzwerke, die in einer verteilten P2P Umgebung betrieben werden, stehen dem Problem gegenüber, dass Benutzer-Peers versuchen können, Suchergebnisse zu beeinflussen. Wir stellen einen Algorithmus vor, der diesem Problem entgegentritt

    Predictions of new graph relationships - The Movie DataBase dataset

    Get PDF
    Thanks to the huge amount of data that is collected nowadays, models can be created to make all kinds of predictions. Graphs are a speci c type of model that can connect this data through relationships and predict new ones. A clear example is the suggestions of new people to connect with in social networks. In this project, the information contained in The Movie Database of almost 5000 films from 1916 to 2017 is used to make a graph model and to predict brand new relationships: which actors will work together, who will be the director of a new blockbuster, etc. These new predictions are created by using machine learning over the relationships. The results obtained with best prediction algorithm used show an accuracy of 60%. Hence, further work is needed to tweak features extraction out from the graph model to improve the precision of these relationship predictions.Gracias a la enorme cantidad de datos que se recogen hoy en día, se pueden crear modelos para hacer todo tipo de predicciones. Los gráficos son un tipo de modelo específico que puede conectar estos datos a través de relaciones y predecir otros nuevos. Un ejemplo claro son las sugerencias de nuevas personas con las que conectarse en las redes sociales. En este proyecto, la información contenida en la Base de Datos de Películas de casi 5000 películas de 1916 a 2017 se utiliza para hacer un modelo gráfico y para predecir nuevas relaciones: qué actores trabajarán juntos, quién será el director de un nuevo éxito de taquilla, etc. Estas nuevas predicciones se crean utilizando el aprendizaje automático sobre las relaciones. Los resultados obtenidos con el mejor algoritmo de predicción utilizado muestran una precisión del 60%. Por lo tanto, es necesario seguir trabajando para ajustar la extracción de características del modelo gráfico para mejorar la precisión de estas predicciones de las relaciones.Gràcies a l'enorme quantitat de dades que es recullen avui dia, es poden crear models per a fer tot tipus de prediccions. Els gràfics són un tipus de model específic que pot connectar aquestes dades a través de relacions i predir altres nous. Un exemple clar són els suggeriments de noves persones amb les quals connectar-se en les xarxes socials. En aquest projecte, la informació continguda en la Base de dades de Pel·lícules de gairebé 5000 pel·lícules de 1916 a 2017 s'utilitza per a fer un model gràfic i per a predir noves relacions: quins actors treballaran junts, qui serà el director d'un nou èxit de taquilla, etc. Aquestes noves prediccions es creen utilitzant l'aprenentatge automàtic sobre les relacions. Els resultats obtinguts amb el millor algorisme de predicció utilitzat mostren una precisió del 60%. Per tant, és necessari continuar treballant per a ajustar l'extracció de característiques del model gràfic per a millorar la precisió d'aquestes prediccions de les relacions

    Exploiting extensible background knowledge for clustering-based automatic keyphrase extraction

    Get PDF
    Keyphrases are single- or multi-word phrases that are used to describe the essential content of a document. Utilizing an external knowledge source such as WordNet is often used in keyphrase extraction methods to obtain relation information about terms and thus improves the result, but the drawback is that a sole knowledge source is often limited. This problem is identified as the coverage limitation problem. In this paper, we introduce SemCluster, a clustering-based unsupervised keyphrase extraction method that addresses the coverage limitation problem by using an extensible approach that integrates an internal ontology (i.e., WordNet) with other knowledge sources to gain a wider background knowledge. SemCluster is evaluated against three unsupervised methods, TextRank, ExpandRank, and KeyCluster, and under the F1-measure metric. The evaluation results demonstrate that SemCluster has better accuracy and computational efficiency and is more robust when dealing with documents from different domains

    Vertrauensbasierte Empfehlungen in mehrschichtigen Netzwerken

    Get PDF
    The huge interest in social networking applications - Friendster.com, for example, has more than 40 million users - led to a considerable research interest in using this data for generating recommendations. Especially recommendation techniques that analyze trust networks were found to provide very accurate and highly personalized results. The main contribution of this thesis is to extend the approach to trust-based recommendations, which up to now have been made for unlinked items such as products or movies, to linked resources, in particular documents. Therefore, a second type of network, namely a document reference network, is considered apart from the trust network. This is, for example, the citation network of scientific publications or the hyperlink graph of webpages. Recommendations for documents are typically made by reference-based visibility measures which consider a document to be the more important, the more often it is referenced by important documents. Document and trust networks, as well as further networks such as organization networks are integrated in a multi-layer network. This architecture makes it possible to combine classical measures for the visibility of a document with trust-based recommendations, giving trust-enhanced visibility measures. Moreover, an approximation approach is introduced which considers the uncertainty induced by duplicate documents. These measures are evaluated in simulation studies. The trust-based recommender system for scientific publications SPRec implements a two-layer architecture and provides personalized recommendations via a Web interface.Soziale Netzwerke mit ihren Millionen von Nutzern haben zu einem großen Interesse an der Fragestellung geführt, wie die Informationen aus solchen sozialen Netzwerken in Empfehlungssystemen genutzt werden können. Aktuelle Forschungsarbeiten haben gezeigt, dass vor allem Techniken, die soziale Vertrauensnetzwerke zur Grundlage nehmen, sehr gute Ergebnisse liefern. Die vorliegende Dissertation erweitert Ansätze zu vertrauensbasierten Empfehlungen, die bisher nur isolierte Objekte wie beispielsweise Produkte oder Filme berücksichtigt haben, zu Ansätzen für vernetzte Ressourcen, insbesondere Dokumente. Daher wird neben dem Vertrauensnetzwerk eine zweite Art von Netzwerk betrachtet, ein Dokumentennetzwerk. Beispiele für Dokumentennetzwerke sind Zitationsnetzwerke wissenschaftlicher Publikationen oder der Hyperlink-Graph zwischen Webseiten. Dokumentenempfehlungen werden typischerweise mit referenzbasierten Sichtbarkeitsmaßen berechnet, die ein Dokument als wichtig erachten, wenn es von vielen wichtigen Dokumenten referenziert wird. Vertrauensnetzwerke und Dokumentennetzwerke werden in einer zweischichtigen Architektur integriert. Weitere Netzwerke, wie zum Beispiel Organisationsnetzwerke bauen sie zu einer mehrschichtigen Architektur aus. In dieser Architektur können klassische Maße für Dokumentensichtbarkeit mit vertrauensbasierten Empfehlungen kombiniert werden, nämlich in den sogenannten vertrauensbasierten Sichtbarkeitsmaßen. Darüberhinaus führt die Dissertation einen Ansatz ein, um die vertrauensbasierte Sichtbarkeit dann approximieren zu können, wenn das Dokumentennetzwerk Duplikate von Dokumenten enthält. Die entwickelten Sichtbarkeitsmaße werden in einer Simulationsstudie analysiert. Das webbasierte Empfehlungssystem für wissenschaftliche Veröffentlichungen SPRec implementiert die vertrauensbasierten Sichtbarkeitsmaße und generiert personalisierte Empfehlungen

    Link-based similarity search to fight web spam

    Get PDF
    www.ilab.sztaki.hu/websearch We investigate the usability of similarity search in fighting Web spam based on the assumption that an unknown spam page is more similar to certain known spam pages than to honest pages. In order to be successful, search engine spam never appears in isolation: we observe link farms and alliances for the sole purpose of search engine ranking manipulation. The artificial nature and strong inside connectedness however gave rise to successful algorithms to identify search engine spam. One example is trust and distrust propagation, an idea originating in recommender systems and P2P networks, that yields spam classificators by spreading information along hyperlinks from white and blacklists. While most previous results use PageRank variants for propagation, we form classifiers by investigating similarity top lists of an unknown page along various measures such as co-citation, companion, nearest neighbors in low dimensional projections and SimRank. We test our method over two data sets previously used to measure spam filtering algorithms. 1
    corecore