927 research outputs found
Enabling privacy-preserving sharing of genomic data for GWASs in decentralized networks
The human genome can reveal sensitive information and is potentially re-identifiable, which raises privacy and security concerns about sharing such data on wide scales. In this work, we propose a preventive approach for privacy-preserving sharing of genomic data in decentralized networks for Genome-wide association studies (GWASs), which have been widely used in discovering the association between genotypes and phenotypes. The key components of this work are: a decentralized secure network, with a privacy-preserving sharing protocol, and a gene fragmentation framework that is trainable in an end-to-end manner. Our experiments on real datasets show the effectiveness of our privacy-preserving approaches as well as significant improvements in efficiency when compared with recent, related algorithms
Wadawurrung ethnobotany as synthesised from the research of Louis Lane
This research looks at how plants were used by Wadawurrung People prior to colonisation in a region classified as a biodiverse hotspot. This thesis provides a unique and valuable opportunity for modern society to learn about the Wadawurrung People’s comprehensive relationship with plants and their way of life
Entities with quantities : extraction, search, and ranking
Quantities are more than numeric values. They denote measures of the worldâs entities such as heights of buildings, running times of athletes, energy efficiency of car models or energy production of power plants, all expressed in numbers with associated units. Entity-centric search and question answering (QA) are well supported by modern search engines. However, they do not work well when the queries involve quantity filters, such as searching for athletes who ran 200m under 20 seconds or companies with quarterly revenue above $2 Billion. State-of-the-art systems fail to understand the quantities, including the condition (less than, above, etc.), the unit of interest (seconds, dollar, etc.), and the context of the quantity (200m race, quarterly revenue, etc.). QA systems based on structured knowledge bases (KBs) also fail as quantities are poorly covered by state-of-the-art KBs. In this dissertation, we developed new methods to advance the state-of-the-art on quantity knowledge extraction and search.Zahlen sind mehr als nur numerische Werte. Sie beschreiben MaĂe von Entitäten wie die HĂśhe von Gebäuden, die Laufzeit von Sportlern, die Energieeffizienz von Automodellen oder die Energieerzeugung von Kraftwerken - jeweils ausgedrĂźckt durch Zahlen mit zugehĂśrigen Einheiten. Entitätszentriete Anfragen und direktes Question-Answering werden von Suchmaschinen häufig gut unterstĂźtzt. Sie funktionieren jedoch nicht gut, wenn die Fragen Zahlenfilter beinhalten, wie z. B. die Suche nach Sportlern, die 200m unter 20 Sekunden gelaufen sind, oder nach Unternehmen mit einem Quartalsumsatz von Ăźber 2 Milliarden US-Dollar. Selbst moderne Systeme schaffen es nicht, Quantitäten, einschlieĂlich der genannten Bedingungen (weniger als, Ăźber, etc.), der MaĂeinheiten (Sekunden, Dollar, etc.) und des Kontexts (200-Meter-Rennen, Quartalsumsatz usw.), zu verstehen. Auch QA-Systeme, die auf strukturierten Wissensbanken (âKnowledge Basesâ, KBs) aufgebaut sind, versagen, da quantitative Eigenschaften von modernen KBs kaum erfasst werden. In dieser Dissertation werden neue Methoden entwickelt, um den Stand der Technik zur Wissensextraktion und -suche von Quantitäten voranzutreiben. Unsere Hauptbeiträge sind die folgenden: ⢠Zunächst präsentieren wir Qsearch [Ho et al., 2019, Ho et al., 2020] â ein System, das mit erweiterten Fragen mit Quantitätsfiltern umgehen kann, indem es Hinweise verwendet, die sowohl in der Frage als auch in den Textquellen vorhanden sind. Qsearch umfasst zwei Hauptbeiträge. Der erste Beitrag ist ein tiefes neuronales Netzwerkmodell, das fĂźr die Extraktion quantitätszentrierter Tupel aus Textquellen entwickelt wurde. Der zweite Beitrag ist ein neuartiges Query-Matching-Modell zum Finden und zur Reihung passender Tupel. ⢠Zweitens, um beim Vorgang heterogene Tabellen einzubinden, stellen wir QuTE [Ho et al., 2021a, Ho et al., 2021b] vor â ein System zum Extrahieren von Quantitätsinformationen aus Webquellen, insbesondere Ad-hoc Webtabellen in HTML-Seiten. Der Beitrag von QuTE umfasst eine Methode zur VerknĂźpfung von Quantitäts- und Entitätsspalten, fĂźr die externe Textquellen genutzt werden. Zur Beantwortung von Fragen kontextualisieren wir die extrahierten Entitäts-Quantitäts-Paare mit informativen Hinweisen aus der Tabelle und stellen eine neue Methode zur Konsolidierung und verbesserteer Reihung von Antwortkandidaten durch Inter-Fakten-Konsistenz vor. ⢠Drittens stellen wir QL [Ho et al., 2022] vor â eine Recall-orientierte Methode zur Anreicherung von Knowledge Bases (KBs) mit quantitativen Fakten. Moderne KBs wie Wikidata oder YAGO decken viele Entitäten und ihre relevanten Informationen ab, Ăźbersehen aber oft wichtige quantitative Eigenschaften. QL ist frage-gesteuert und basiert auf iterativem Lernen mit zwei Hauptbeiträgen, um die KB-Abdeckung zu verbessern. Der erste Beitrag ist eine Methode zur Expansion von Fragen, um einen grĂśĂeren Pool an Faktenkandidaten zu erfassen. Der zweite Beitrag ist eine Technik zur Selbstkonsistenz durch BerĂźcksichtigung der Werteverteilungen von Quantitäten
Enhancing explainability and scrutability of recommender systems
Our increasing reliance on complex algorithms for recommendations calls for models and methods for explainable, scrutable, and trustworthy AI. While explainability is required for understanding the relationships between model inputs and outputs, a scrutable system allows us to modify its behavior as desired. These properties help bridge the gap between our expectations and the algorithmâs behavior and accordingly boost our trust in AI. Aiming to cope with information overload, recommender systems play a crucial role in ďŹltering content (such as products, news, songs, and movies) and shaping a personalized experience for their users. Consequently, there has been a growing demand from the information consumers to receive proper explanations for their personalized recommendations. These explanations aim at helping users understand why certain items are recommended to them and how their previous inputs to the system relate to the generation of such recommendations. Besides, in the event of receiving undesirable content, explanations could possibly contain valuable information as to how the systemâs behavior can be modiďŹed accordingly. In this thesis, we present our contributions towards explainability and scrutability of recommender systems: ⢠We introduce a user-centric framework, FAIRY, for discovering and ranking post-hoc explanations for the social feeds generated by black-box platforms. These explanations reveal relationships between usersâ proďŹles and their feed items and are extracted from the local interaction graphs of users. FAIRY employs a learning-to-rank (LTR) method to score candidate explanations based on their relevance and surprisal. ⢠We propose a method, PRINCE, to facilitate provider-side explainability in graph-based recommender systems that use personalized PageRank at their core. PRINCE explanations are comprehensible for users, because they present subsets of the userâs prior actions responsible for the received recommendations. PRINCE operates in a counterfactual setup and builds on a polynomial-time algorithm for ďŹnding the smallest counterfactual explanations. ⢠We propose a human-in-the-loop framework, ELIXIR, for enhancing scrutability and subsequently the recommendation models by leveraging user feedback on explanations. ELIXIR enables recommender systems to collect user feedback on pairs of recommendations and explanations. The feedback is incorporated into the model by imposing a soft constraint for learning user-speciďŹc item representations. We evaluate all proposed models and methods with real user studies and demonstrate their beneďŹts at achieving explainability and scrutability in recommender systems.Unsere zunehmende Abhängigkeit von komplexen Algorithmen fĂźr maschinelle Empfehlungen erfordert Modelle und Methoden fĂźr erklärbare, nachvollziehbare und vertrauenswĂźrdige KI. Zum Verstehen der Beziehungen zwischen Modellein- und ausgaben muss KI erklärbar sein. MĂśchten wir das Verhalten des Systems hingegen nach unseren Vorstellungen ändern, muss dessen Entscheidungsprozess nachvollziehbar sein. Erklärbarkeit und Nachvollziehbarkeit von KI helfen uns dabei, die LĂźcke zwischen dem von uns erwarteten und dem tatsächlichen Verhalten der Algorithmen zu schlieĂen und unser Vertrauen in KI-Systeme entsprechend zu stärken. Um ein ĂbermaĂ an Informationen zu verhindern, spielen Empfehlungsdienste eine entscheidende Rolle um Inhalte (z.B. Produkten, Nachrichten, Musik und Filmen) zu ďŹltern und deren Benutzern eine personalisierte Erfahrung zu bieten. Infolgedessen erheben immer mehr In- formationskonsumenten Anspruch auf angemessene Erklärungen fĂźr deren personalisierte Empfehlungen. Diese Erklärungen sollen den Benutzern helfen zu verstehen, warum ihnen bestimmte Dinge empfohlen wurden und wie sich ihre frĂźheren Eingaben in das System auf die Generierung solcher Empfehlungen auswirken. AuĂerdem kĂśnnen Erklärungen fĂźr den Fall, dass unerwĂźnschte Inhalte empfohlen werden, wertvolle Informationen darĂźber enthalten, wie das Verhalten des Systems entsprechend geändert werden kann. In dieser Dissertation stellen wir unsere Beiträge zu Erklärbarkeit und Nachvollziehbarkeit von Empfehlungsdiensten vor. ⢠Mit FAIRY stellen wir ein benutzerzentriertes Framework vor, mit dem post-hoc Erklärungen fĂźr die von Black-Box-Plattformen generierten sozialen Feeds entdeckt und bewertet werden kĂśnnen. Diese Erklärungen zeigen Beziehungen zwischen BenutzerproďŹlen und deren Feeds auf und werden aus den lokalen Interaktionsgraphen der Benutzer extrahiert. FAIRY verwendet eine LTR-Methode (Learning-to-Rank), um die Erklärungen anhand ihrer Relevanz und ihres Grads unerwarteter Empfehlungen zu bewerten. ⢠Mit der PRINCE-Methode erleichtern wir das anbieterseitige Generieren von Erklärungen fĂźr PageRank-basierte Empfehlungsdienste. PRINCE-Erklärungen sind fĂźr Benutzer verständlich, da sie Teilmengen frĂźherer Nutzerinteraktionen darstellen, die fĂźr die erhaltenen Empfehlungen verantwortlich sind. PRINCE-Erklärungen sind somit kausaler Natur und werden von einem Algorithmus mit polynomieller Laufzeit erzeugt , um präzise Erklärungen zu ďŹnden. ⢠Wir präsentieren ein Human-in-the-Loop-Framework, ELIXIR, um die Nachvollziehbarkeit der Empfehlungsmodelle und die Qualität der Empfehlungen zu verbessern. Mit ELIXIR kĂśnnen Empfehlungsdienste Benutzerfeedback zu Empfehlungen und Erklärungen sammeln. Das Feedback wird in das Modell einbezogen, indem benutzerspeziďŹscher Einbettungen von Objekten gelernt werden. Wir evaluieren alle Modelle und Methoden in Benutzerstudien und demonstrieren ihren Nutzen hinsichtlich Erklärbarkeit und Nachvollziehbarkeit von Empfehlungsdiensten
Internet Localization of Multi-Party Relay Users: Inherent Friction Between Internet Services and User Privacy
Internet privacy is increasingly important on the modern Internet. Users are
looking to control the trail of data that they leave behind on the systems that
they interact with. Multi-Party Relay (MPR) architectures lower the traditional
barriers to adoption of privacy enhancing technologies on the Internet. MPRs
are unique from legacy architectures in that they are able to offer privacy
guarantees without paying significant performance penalties. Apple's iCloud
Private Relay is a recently deployed MPR service, creating the potential for
widespread consumer adoption of the architecture. However, many current
Internet-scale systems are designed based on assumptions that may no longer
hold for users of privacy enhancing systems like Private Relay. There are
inherent tensions between systems that rely on data about users -- estimated
location of a user based on their IP address, for example -- and the trend
towards a more private Internet.
This work studies a core function that is widely used to control network and
application behavior, IP geolocation, in the context of iCloud Private Relay
usage. We study the location accuracy of popular IP geolocation services
compared against the published location dataset that Apple publicly releases to
explicitly aid in geolocating PR users. We characterize geolocation service
performance across a number of dimensions, including different countries, IP
version, infrastructure provider, and time. Our findings lead us to conclude
that existing approaches to IP geolocation (e.g., frequently updated databases)
perform inadequately for users of the MPR architecture. For example, we find
median location errors >1,000 miles in some countries for IPv4 addresses using
IP2Location. Our findings lead us to conclude that new, privacy-focused,
techniques for inferring user location may be required as privacy becomes a
default user expectation on the Internet
Entanglements of digital technologies and Indigenous language work in the Northern Territory
This thesis addresses the question of what happens when digital language resources are developed and become entangled with different types of language work in Indigenous languages of Australia's Northern Territory. It explores three specific sociotechnical assemblages, defined as heterogeneous sets of social and technical resources functioning together for various purposes. The types of language work that emerged were the role of language in practices of documentation, pedagogy and identity-making. The three projects under consideration respond to different motivations: the Living Archive of Aboriginal Languages is a digital archive of endangered literature in languages of the Northern Territory, motivated by a concern for the fate of materials produced in bilingual education programs in remote schools. The Digital Language Shell is a resource for developing and mobilising curricula in Indigenous languages and cultures, motivated by a need for a low-cost and low-tech template for sharing content under Indigenous authority. The Bininj Kunwok online course is a specific implementation of the Digital Language Shell, teaching an Indigenous language of West Arnhem land in a university context. Each project was created by the author working collaboratively with different teams, to support various types of language work. This PhD by publication offers a set of seven academic papers, each focusing on different aspects of the projects, and written for distinct audiences. The methods entailed iterative inquiry, as I reflected on my work as project manager in developing these digital resources, first addressing the technical and practical considerations, then through the lenses of various academic disciplines, and finally in a meta-analysis of the various heterogeneous elements that make up the research. The thesis emerges as an assemblage of heterogeneities â projects, papers, concepts, academic references, and auto-ethnographic stories â that is in itself a sociotechnical assemblage
- âŚ