20 research outputs found

    Location Prediction: Communities Speak Louder than Friends

    Get PDF
    Humans are social animals, they interact with different communities of friends to conduct different activities. The literature shows that human mobility is constrained by their social relations. In this paper, we investigate the social impact of a person's communities on his mobility, instead of all friends from his online social networks. This study can be particularly useful, as certain social behaviors are influenced by specific communities but not all friends. To achieve our goal, we first develop a measure to characterize a person's social diversity, which we term `community entropy'. Through analysis of two real-life datasets, we demonstrate that a person's mobility is influenced only by a small fraction of his communities and the influence depends on the social contexts of the communities. We then exploit machine learning techniques to predict users' future movement based on their communities' information. Extensive experiments demonstrate the prediction's effectiveness.Comment: ACM Conference on Online Social Networks 2015, COSN 201

    The Unwanted Dissemination of Science: The Usage of Academic Articles as Ammunition in Contested Discursive Arenas on Twitter

    Full text link
    Twitter is a common site of offensive language. Prior literature has shown that the emotional content of tweets can heavily impact their diffusion when discussing political topics. We extend prior work to look at offensive tweets that link to academic articles. Using a mixed methods approach, we identify three findings: firstly, offensive language is common in tweets that refer to academic articles, and vary widely by subject matter. Secondly, discourse analysis reveals that offensive tweets commonly use academic articles to promote or attack political ideologies. Lastly, we show that offensive tweets reach a smaller audience than their non-offensive counterparts. Our analysis of these offensive tweets reveal how academic articles are being shared on Twitter not for the sake of disseminating new knowledge, but rather to as argumentative tools in controversial and combative discourses.Comment: 16 pages, 8 tables, submitted to CSCW '2

    Data science methods for the analysis of controversial social dedia discussions

    Get PDF
    Social media communities like Reddit and Twitter allow users to express their views on topics of their interest, and to engage with other users who may share or oppose these views. This can lead to productive discussions towards a consensus, or to contended debates, where disagreements frequently arise. Prior work on such settings has primarily focused on identifying notable instances of antisocial behavior such as hate-speech and “trolling”, which represent possible threats to the health of a community. These, however, are exceptionally severe phenomena, and do not encompass controversies stemming from user debates, differences of opinions, and off-topic content, all of which can naturally come up in a discussion without going so far as to compromise its development. This dissertation proposes a framework for the systematic analysis of social media discussions that take place in the presence of controversial themes, disagreements, and mixed opinions from participating users. For this, we develop a feature-based model to describe key elements of a discussion, such as its salient topics, the level of activity from users, the sentiments it expresses, and the user feedback it receives. Initially, we build our feature model to characterize adversarial discussions surrounding political campaigns on Twitter, with a focus on the factual and sentimental nature of their topics and the role played by different users involved. We then extend our approach to Reddit discussions, leveraging community feedback signals to define a new notion of controversy and to highlight conversational archetypes that arise from frequent and interesting interaction patterns. We use our feature model to build logistic regression classifiers that can predict future instances of controversy in Reddit communities centered on politics, world news, sports, and personal relationships. Finally, our model also provides the basis for a comparison of different communities in the health domain, where topics and activity vary considerably despite their shared overall focus. In each of these cases, our framework provides insight into how user behavior can shape a community’s individual definition of controversy and its overall identity.Social-Media Communities wie Reddit und Twitter ermöglichen es Nutzern, ihre Ansichten zu eigenen Themen zu Ă€ußern und mit anderen Nutzern in Kontakt zu treten, die diese Ansichten teilen oder ablehnen. Dies kann zu produktiven Diskussionen mit einer Konsensbildung fĂŒhren oder zu strittigen Auseinandersetzungen ĂŒber auftretende Meinungsverschiedenheiten. FrĂŒhere Arbeiten zu diesem Komplex konzentrierten sich in erster Linie darauf, besondere FĂ€lle von asozialem Verhalten wie Hassrede und "Trolling" zu identifizieren, da diese eine Gefahr fĂŒr die GesprĂ€chskultur und den Wert einer Community darstellen. Die sind jedoch außergewöhnlich schwerwiegende PhĂ€nomene, die keinesfalls bei jeder Kontroverse auftreten die sich aus einfachen Diskussionen, Meinungsverschiedenheiten und themenfremden Inhalten ergeben. All diese Reibungspunkte können auch ganz natĂŒrlich in einer Diskussion auftauchen, ohne dass diese gleich den ganzen GesprĂ€chsverlauf gefĂ€hrden. Diese Dissertation stellt ein Framework fĂŒr die systematische Analyse von Social-Media Diskussionen vor, die vornehmlich von kontroversen Themen, strittigen Standpunkten und Meinungsverschiedenheiten der teilnehmenden Nutzer geprĂ€gt sind. Dazu entwickeln wir ein Feature-Modell, um SchlĂŒsselelemente einer Diskussion zu beschreiben. Dazu zĂ€hlen der AktivitĂ€tsgrad der Benutzer, die Wichtigkeit der einzelnen Aspekte, die Stimmung, die sie ausdrĂŒckt, und das Benutzerfeedback. ZunĂ€chst bauen wir unser Feature-Modell so auf, um bei Diskussionen gegensĂ€tzlicher politischer Kampagnen auf Twitter die oben genannten SchlĂŒsselelemente zu bestimmen. Der Schwerpunkt liegt dabei auf den sachlichen und emotionalen Aspekten der Themen im Bezug auf die Rollen verschiedener Nutzer. Anschließend erweitern wir unseren Ansatz auf Reddit-Diskussionen und nutzen das Community-Feedback, um einen neuen Begriff der Kontroverse zu definieren und Konversationsarchetypen hervorzuheben, die sich aus Interaktionsmustern ergeben. Wir nutzen unser Feature-Modell, um ein Logistischer Regression Verfahren zu entwickeln, das zukĂŒnftige Kontroversen in Reddit-Communities in den Themenbereichen Politik, Weltnachrichten, Sport und persönliche Beziehungen vorhersagen kann. Schlussendlich bietet unser Modell auch die Grundlage fĂŒr eine Vergleichbarkeit verschiedener Communities im Gesundheitsbereich, auch wenn dort die Themen und die NutzeraktivitĂ€t, trotz des gemeinsamen Gesamtfokus, erheblich variieren. In jedem der genannten Themenbereiche gibt unser Framework Erkenntnisgewinne, wie das Verhalten der Nutzer die spezifisch Definition von Kontroversen der Community prĂ€gt

    OpĂ©rationnaliser les compĂ©tences transversales en analyse bibliomĂ©trique et en visualisation des rĂ©seaux au thĂšme de l’économie collaborative

    Get PDF
    Une analyse bibliomĂ©trique utilisant la visualisation de rĂ©seaux pour reprĂ©senter le thĂšme de l’Économie collaborative (ÉC) au sein de la recherche scientifique a Ă©tĂ© rĂ©alisĂ©e dans le cadre de ce mĂ©moire. Pour ce faire, 729 documents ont Ă©tĂ© recensĂ©s sur deux bases de donnĂ©es (Scopus et Web of Science). Ces documents ont Ă©tĂ© dĂ©sambiguĂŻsĂ©s, nettoyĂ©s et standardisĂ©s pour ĂȘtre compilĂ©s et analysĂ©s avec BibExcel et VOSviewer. DiffĂ©rentes statistiques bibliomĂ©triques et analyses non Ă©valuatives (cooccurence, cocitation, coauteur) ont pu ĂȘtre exĂ©cutĂ©es et visualisĂ©es afin de mieux comprendre le milieu de l’ÉC. Les rĂ©sultats de cette recherche sont multiples. D’une part, l’importance des États-Unis est notoire, autant au niveau des auteurs, des organisations que des collaborations. Ensuite, diffĂ©rentes grappes thĂ©matiques ont pu ĂȘtre formĂ©es selon la variable Ă©tudiĂ©e. L’importance de la technologie, du tourisme, du dĂ©veloppement durable, de l’aspect managĂ©rial et enfin de la thĂ©orie/conceptualisation de l’ÉC est rĂ©currente. Plusieurs auteurs sont dĂ©terminants dans la littĂ©rature, mais les plus influents sont Russel Belk et Rachel Botsman. Le livre What’s yours is mine (Botsman et Rogers, 2010) est le document le plus citĂ©, et ce malgrĂ© le fait qu’il soit Ă©crit par des auteurs ne provenant pas du milieu acadĂ©mique. Les relations entre les publications Ă©tudiĂ©es dĂ©montrent une cohĂ©sion entre les diffĂ©rentes idĂ©es et thĂ©matiques vĂ©hiculĂ©es dans le domaine, et ce malgrĂ© le fait qu’il existe des problĂšmes dĂ©finitionnels et conceptuels Ă  propos de l’ÉC. Enfin, l’évolution chronologique des publications subit une croissance trĂšs importante depuis 2016 et tĂ©moigne d’un champ de recherche Ă©mergent : le dĂ©veloppement durable. La somme des rĂ©sultats analysĂ©s donne un nouveau regard sur l’ÉC. Elle permet pour les nouveaux chercheurs de les introduire aux caractĂ©ristiques du domaine et sert aux experts Ă  cerner les thĂ©matiques, revues et auteurs Ă  considĂ©rer lors de leurs propres analyses. La mĂ©thodologie et les rĂ©sultats de cette recherche furent publiĂ©s dans le Journal of Cleaner Production (Ertz & Leblanc-Proulx, 2018), le Journal of Markteing Analytics (Ertz & Leblanc-Proulx, 2019a) et le livre Sage Research methods Cases (Ertz & Leblanc-Proulx, 2019b)

    Not all trips are equal: Analyzing foursquare check-ins of trips and city visitors

    Get PDF
    National Research Foundation (NRF) Singapore under International Research Centres in Singapore Funding Initiativ

    Enhancing Privacy and Fairness in Search Systems

    Get PDF
    Following a period of expedited progress in the capabilities of digital systems, the society begins to realize that systems designed to assist people in various tasks can also harm individuals and society. Mediating access to information and explicitly or implicitly ranking people in increasingly many applications, search systems have a substantial potential to contribute to such unwanted outcomes. Since they collect vast amounts of data about both searchers and search subjects, they have the potential to violate the privacy of both of these groups of users. Moreover, in applications where rankings influence people's economic livelihood outside of the platform, such as sharing economy or hiring support websites, search engines have an immense economic power over their users in that they control user exposure in ranked results. This thesis develops new models and methods broadly covering different aspects of privacy and fairness in search systems for both searchers and search subjects. Specifically, it makes the following contributions: (1) We propose a model for computing individually fair rankings where search subjects get exposure proportional to their relevance. The exposure is amortized over time using constrained optimization to overcome searcher attention biases while preserving ranking utility. (2) We propose a model for computing sensitive search exposure where each subject gets to know the sensitive queries that lead to her profile in the top-k search results. The problem of finding exposing queries is technically modeled as reverse nearest neighbor search, followed by a weekly-supervised learning to rank model ordering the queries by privacy-sensitivity. (3) We propose a model for quantifying privacy risks from textual data in online communities. The method builds on a topic model where each topic is annotated by a crowdsourced sensitivity score, and privacy risks are associated with a user's relevance to sensitive topics. We propose relevance measures capturing different dimensions of user interest in a topic and show how they correlate with human risk perceptions. (4) We propose a model for privacy-preserving personalized search where search queries of different users are split and merged into synthetic profiles. The model mediates the privacy-utility trade-off by keeping semantically coherent fragments of search histories within individual profiles, while trying to minimize the similarity of any of the synthetic profiles to the original user profiles. The models are evaluated using information retrieval techniques and user studies over a variety of datasets, ranging from query logs, through social media and community question answering postings, to item listings from sharing economy platforms.Nach einer Zeit schneller Fortschritte in den FĂ€higkeiten digitaler Systeme beginnt die Gesellschaft zu erkennen, dass Systeme, die Menschen bei verschiedenen Aufgaben unterstĂŒtzen sollen, den Einzelnen und die Gesellschaft auch schĂ€digen können. Suchsysteme haben ein erhebliches Potenzial, um zu solchen unerwĂŒnschten Ergebnissen beizutragen, weil sie den Zugang zu Informationen vermitteln und explizit oder implizit Menschen in immer mehr Anwendungen in Ranglisten anordnen. Da sie riesige Datenmengen sowohl ĂŒber Suchende als auch ĂŒber Gesuchte sammeln, können sie die PrivatsphĂ€re dieser beiden Benutzergruppen verletzen. In Anwendungen, in denen Ranglisten einen Einfluss auf den finanziellen Lebensunterhalt der Menschen außerhalb der Plattform haben, z. B. auf Sharing-Economy-Plattformen oder Jobbörsen, haben Suchmaschinen eine immense wirtschaftliche Macht ĂŒber ihre Nutzer, indem sie die Sichtbarkeit von Personen in Suchergebnissen kontrollieren. In dieser Dissertation werden neue Modelle und Methoden entwickelt, die verschiedene Aspekte der PrivatsphĂ€re und der Fairness in Suchsystemen, sowohl fĂŒr Suchende als auch fĂŒr Gesuchte, abdecken. Insbesondere leistet die Arbeit folgende BeitrĂ€ge: (1) Wir schlagen ein Modell fĂŒr die Berechnung von fairen Rankings vor, bei denen Suchsubjekte entsprechend ihrer Relevanz angezeigt werden. Die Sichtbarkeit wird im Laufe der Zeit durch ein Optimierungsmodell adjustiert, um die Verzerrungen der Sichtbarkeit fĂŒr Sucher zu kompensieren, wĂ€hrend die NĂŒtzlichkeit des Rankings beibehalten bleibt. (2) Wir schlagen ein Modell fĂŒr die Bestimmung kritischer Suchanfragen vor, in dem fĂŒr jeden Nutzer Aanfragen, die zu seinem Nutzerprofil in den Top-k-Suchergebnissen fĂŒhren, herausgefunden werden. Das Problem der Berechnung von exponierenden Suchanfragen wird als Reverse-Nearest-Neighbor-Suche modelliert. Solche kritischen Suchanfragen werden dann von einem Learning-to-Rank-Modell geordnet, um die sensitiven Suchanfragen herauszufinden. (3) Wir schlagen ein Modell zur Quantifizierung von Risiken fĂŒr die PrivatsphĂ€re aus Textdaten in Online Communities vor. Die Methode baut auf einem Themenmodell auf, bei dem jedes Thema durch einen Crowdsourcing-SensitivitĂ€tswert annotiert wird. Die Risiko-Scores sind mit der Relevanz eines Benutzers mit kritischen Themen verbunden. Wir schlagen Relevanzmaße vor, die unterschiedliche Dimensionen des Benutzerinteresses an einem Thema erfassen, und wir zeigen, wie diese Maße mit der Risikowahrnehmung von Menschen korrelieren. (4) Wir schlagen ein Modell fĂŒr personalisierte Suche vor, in dem die PrivatsphĂ€re geschĂŒtzt wird. In dem Modell werden Suchanfragen von Nutzer partitioniert und in synthetische Profile eingefĂŒgt. Das Modell erreicht einen guten Kompromiss zwischen der SuchsystemnĂŒtzlichkeit und der PrivatsphĂ€re, indem semantisch kohĂ€rente Fragmente der Suchhistorie innerhalb einzelner Profile beibehalten werden, wobei gleichzeitig angestrebt wird, die Ähnlichkeit der synthetischen Profile mit den ursprĂŒnglichen Nutzerprofilen zu minimieren. Die Modelle werden mithilfe von Informationssuchtechniken und Nutzerstudien ausgewertet. Wir benutzen eine Vielzahl von DatensĂ€tzen, die von Abfrageprotokollen ĂŒber soziale Medien Postings und die Fragen vom Q&A Forums bis hin zu Artikellistungen von Sharing-Economy-Plattformen reichen

    Towards trustworthy social computing systems

    Get PDF
    The rising popularity of social computing systems has managed to attract rampant forms of service abuse that negatively affects the sustainability of these systems and degrades the quality of service experienced by their users. The main factor that enables service abuse is the weak identity infrastructure used by most sites, where identities are easy to create with no verification by a trusted authority. Attackers are exploiting this infrastructure to launch Sybil attacks, where they create multiple fake (Sybil) identities to take advantage of the combined privileges associated with the identities to abuse the system. In this thesis, we present techniques to mitigate service abuse by designing and building defense schemes that are robust and practical. We use two broad defense strategies: (1) Leveraging the social network: We first analyze existing social network-based Sybil detection schemes and present their practical limitations when applied on real world social networks. Next, we present an approach called Sybil Tolerance that bounds the impact an attacker can gain from using multiple identities; (2) Leveraging activity history of identities: We present two approaches, one that applies anomaly detection on user social behavior to detect individual misbehaving identities, and a second approach called Stamper that focuses on detecting a group of Sybil identities. We show that both approaches in this category raise the bar for defense against adaptive attackers.Die steigende PopularitĂ€t sozialer Medien fĂŒhrt zu umfangreichen Missbrauch mit negativen Folgen fĂŒr die nachhaltige FunktionalitĂ€t und verringerter QualitĂ€t des Services. Der Missbrauch wird maßgeblich durch die Nutzung schwacher Identifikationsverfahren, die eine einfache Anmeldung ohne Verifikation durch eine vertrauenswĂŒrdige Behörde erlaubt, ermöglicht. Angreifer nutzen diese Umgebung aus und attackieren den Service mit sogenannten Sybil Angriffen, bei denen mehrere gefĂ€lschte (Sybil) IdentitĂ€ten erstellt werden, um einen Vorteil durch die gemeinsamen Privilegien der IdentitĂ€ten zu erhalten und den Service zu missbrauchen. Diese Doktorarbeit zeigt Techniken zur Verhinderung von Missbrauch sozialer Medien, in dem Verteidigungsmechanismen konstruiert und implementiert werden, die sowohl robust als auch praktikabel sind. Zwei Verteidigungsstrategien werden vorgestellt: (1) Unter Ausnutzung des sozialen Netzwerks: Wir analysieren zuerst existierende soziale Netzwerk-basierende Sybil Erkennungsmechanismen und zeigen deren praktische Anwendungsgrenzen auf bei der Anwendung auf soziale Netzwerke aus der echten Welt. Im Anschluss zeigen wir den Ansatz der sogenannten Sybil Toleranz, welcher die Folgen eines Angriffs mit mehreren IdentitĂ€ten einschrĂ€nkt. (2) Unter Ausnutzung des AktivitĂ€tsverlaufs von IdentitĂ€ten: Wir prĂ€sentieren zwei AnsĂ€tze, einen anwendbar fĂŒr die Erkennung von UnregelmĂ€ĂŸigkeiten in dem sozialen Verhalten eines Benutzers zur Erkennung unanstĂ€ndiger Benutzer und ein weiterer Ansatz namens Stamper, dessen Fokus die Erkennung von Gruppen bestehend aus Sybil IdentitĂ€ten ist. Beide gezeigten AnsĂ€tze erschweren adaptive Angriffe und verbessern existierende Verteidigungsmechanismen

    Towards trustworthy social computing systems

    Get PDF
    The rising popularity of social computing systems has managed to attract rampant forms of service abuse that negatively affects the sustainability of these systems and degrades the quality of service experienced by their users. The main factor that enables service abuse is the weak identity infrastructure used by most sites, where identities are easy to create with no verification by a trusted authority. Attackers are exploiting this infrastructure to launch Sybil attacks, where they create multiple fake (Sybil) identities to take advantage of the combined privileges associated with the identities to abuse the system. In this thesis, we present techniques to mitigate service abuse by designing and building defense schemes that are robust and practical. We use two broad defense strategies: (1) Leveraging the social network: We first analyze existing social network-based Sybil detection schemes and present their practical limitations when applied on real world social networks. Next, we present an approach called Sybil Tolerance that bounds the impact an attacker can gain from using multiple identities; (2) Leveraging activity history of identities: We present two approaches, one that applies anomaly detection on user social behavior to detect individual misbehaving identities, and a second approach called Stamper that focuses on detecting a group of Sybil identities. We show that both approaches in this category raise the bar for defense against adaptive attackers.Die steigende PopularitĂ€t sozialer Medien fĂŒhrt zu umfangreichen Missbrauch mit negativen Folgen fĂŒr die nachhaltige FunktionalitĂ€t und verringerter QualitĂ€t des Services. Der Missbrauch wird maßgeblich durch die Nutzung schwacher Identifikationsverfahren, die eine einfache Anmeldung ohne Verifikation durch eine vertrauenswĂŒrdige Behörde erlaubt, ermöglicht. Angreifer nutzen diese Umgebung aus und attackieren den Service mit sogenannten Sybil Angriffen, bei denen mehrere gefĂ€lschte (Sybil) IdentitĂ€ten erstellt werden, um einen Vorteil durch die gemeinsamen Privilegien der IdentitĂ€ten zu erhalten und den Service zu missbrauchen. Diese Doktorarbeit zeigt Techniken zur Verhinderung von Missbrauch sozialer Medien, in dem Verteidigungsmechanismen konstruiert und implementiert werden, die sowohl robust als auch praktikabel sind. Zwei Verteidigungsstrategien werden vorgestellt: (1) Unter Ausnutzung des sozialen Netzwerks: Wir analysieren zuerst existierende soziale Netzwerk-basierende Sybil Erkennungsmechanismen und zeigen deren praktische Anwendungsgrenzen auf bei der Anwendung auf soziale Netzwerke aus der echten Welt. Im Anschluss zeigen wir den Ansatz der sogenannten Sybil Toleranz, welcher die Folgen eines Angriffs mit mehreren IdentitĂ€ten einschrĂ€nkt. (2) Unter Ausnutzung des AktivitĂ€tsverlaufs von IdentitĂ€ten: Wir prĂ€sentieren zwei AnsĂ€tze, einen anwendbar fĂŒr die Erkennung von UnregelmĂ€ĂŸigkeiten in dem sozialen Verhalten eines Benutzers zur Erkennung unanstĂ€ndiger Benutzer und ein weiterer Ansatz namens Stamper, dessen Fokus die Erkennung von Gruppen bestehend aus Sybil IdentitĂ€ten ist. Beide gezeigten AnsĂ€tze erschweren adaptive Angriffe und verbessern existierende Verteidigungsmechanismen

    Applying Security Risk Management to Internet Connectivity in K-12 Schools and School Districts

    Get PDF
    Internet connectivity has been added to the classrooms of United States (U.S .) K-12 schools, but recognition of the security risks and related management responsibilities to address increased risk exposure is not apparent. Providing a sufficient level of access for K-12 students to learn through exploration and experimentation needs to be balanced with sufficient limitations to minimize the risk of technically proficient participants inflicting harm through school resources. Problems of inappropriate use such as adjusting grades, tampering with work of other students, and defacing Web sites by K-12 students are already appearing in U.S. newspapers. In addition, the growing level of Internet security incidents such as worms and malicious code puts K-12 technology infrastructure and data at risk. Each K-12 school and school district has a unique set of technical capabilities that must be balanced against the risk of misuse to establish appropriate security. Applying security risk management can allow K -12 administrators to identify areas of weak security that pose unacceptable risk and plan for needed improvements. Within this investigation, a security risk methodology was selected, tailored to incorporate organizational characteristics and regulatory requirements unique to K-12 schools and school districts, and successfully applied by the Scarsdale Public School District, Scarsdale, New York. In addition, several K-12 school officials including school board members, technology directors, and superintendents, reviewed the tailored methodology and affirmed its applicability to their schools and school districts. The Operationally Critical Threat, Asset, and Vulnerability EvaluationsM (OCTA VEÂź) Methodology was selected by this investigator for evaluating the security risk ofK-12 schools and school districts. The OCTAVE Methodology applies a security risk management approach developed by researchers at the Carnegie MellonÂź Software Engineering Institute (SElsM). The methodology is used by over 1,000 medical, financial, manufacturing, and government organizations, and allows for self-direction. It is available at no cost and provides a wide range of tailoring capabilities for adaptin
    corecore