1,379 research outputs found
BCFA: Bespoke Control Flow Analysis for CFA at Scale
Many data-driven software engineering tasks such as discovering programming
patterns, mining API specifications, etc., perform source code analysis over
control flow graphs (CFGs) at scale. Analyzing millions of CFGs can be
expensive and performance of the analysis heavily depends on the underlying CFG
traversal strategy. State-of-the-art analysis frameworks use a fixed traversal
strategy. We argue that a single traversal strategy does not fit all kinds of
analyses and CFGs and propose bespoke control flow analysis (BCFA). Given a
control flow analysis (CFA) and a large number of CFGs, BCFA selects the most
efficient traversal strategy for each CFG. BCFA extracts a set of properties of
the CFA by analyzing the code of the CFA and combines it with properties of the
CFG, such as branching factor and cyclicity, for selecting the optimal
traversal strategy. We have implemented BCFA in Boa, and evaluated BCFA using a
set of representative static analyses that mainly involve traversing CFGs and
two large datasets containing 287 thousand and 162 million CFGs. Our results
show that BCFA can speedup the large scale analyses by 1%-28%. Further, BCFA
has low overheads; less than 0.2%, and low misprediction rate; less than 0.01%.Comment: 12 page
Usage-Driven Unified Model for User Profile and Data Source Profile Extraction
This thesis addresses a problem related to usage analysis in information retrieval
systems. Indeed, we exploit the history of search queries as support of analysis to
extract a profile model. The objective is to characterize the user and the data source
that interact in a system to allow different types of comparison (user-to-user, sourceto-
source, user-to-source). According to the study we conducted on the work done on
profile model, we concluded that the large majority of the contributions are strongly
related to the applications within they are proposed. As a result, the proposed
profile models are not reusable and suffer from several weaknesses. For instance,
these models do not consider the data source, they lack of semantic mechanisms and
they do not deal with scalability (in terms of complexity). Therefore, we propose
a generic model of user and data source profiles. The characteristics of this model
are the following. First, it is generic, being able to represent both the user and the
data source. Second, it enables to construct the profiles in an implicit way based on histories of search queries. Third, it defines the profile as a set of topics of interest,
each topic corresponding to a semantic cluster of keywords extracted by a specific
clustering algorithm. Finally, the profile is represented according to the vector space
model. The model is composed of several components organized in the form of a
framework, in which we assessed the complexity of each component.
The main components of the framework are:
• a method for keyword queries disambiguation
• a method for semantically representing search query logs in the form of a
taxonomy;
• a clustering algorithm that allows fast and efficient identification of topics of
interest as semantic clusters of keywords;
• a method to identify user and data source profiles according to the generic
model.
This framework enables in particular to perform various tasks related to usage-based
structuration of a distributed environment. As an example of application, the framework
is used to the discovery of user communities, and the categorization of data
sources. To validate the proposed framework, we conduct a series of experiments
on real logs from the search engine AOL search, which demonstrate the efficiency
of the disambiguation method in short queries, and show the relation between the
quality based clustering and the structure based clustering.Die Arbeit befasst sich mit der Nutzungsanalyse von Informationssuchsystemen.
Auf Basis vergangener Anfragen sollen Nutzungsprofile ermittelt werden. Diese Profile
charakterisieren die im Netz interagierenden Anwender und Datenquellen und
ermöglichen somit Vergleiche von Anwendern, Anwendern und Datenquellen wie
auch Vergleiche von Datenquellen. Die Arbeit am Profil-Modell und die damit verbundenen
Studien zeigten, dass praktisch alle Beiträge stark auf die entsprechende
Anwendung angepasst sind. Als Ergebnis sind die vorgeschlagenen Profil-Modelle
nicht wiederverwendbar; darüber hinaus weisen sie mehrere Schwächen auf. Die
Modelle sind zum Beispiel nicht fĂĽr Datenquellen einsetzbar, Mechanismen fĂĽr semantische
Analysen sind nicht vorhanden oder sie verfĂĽgen ĂĽbe keine adequate
Skalierbarkeit (Komplexität). Um das Ziel von Nutzerprofilen zu erreichen wurde
ein einheitliches Modell entwickelt. Dies ermöglicht die Modellierung von beiden Elementen:
Nutzerprofilen und Datenquellen. Ein solches Nutzerprofil wird als Menge
von Themenbereichen definiert, welche das Verhalten des Anwenders (Suchanfragen)
beziehungsweise die Inhalte der Datenquelle charakterisieren. Das Modell ermöglicht
die automatische Profilerstellung auf Basis der vergangenen Suchanfragen, welches
unmittelbar zur VerfĂĽgung steht. Jeder Themenbereich korrespondiert einem Cluster
von Schlüsselwörtern, die durch einen semantischen Clustering-Algorithmus extrahiert
werden. Das Modell umfasst mehrere Komponenten, welche als Framework
strukturiert sind. Die Komplexität jeder einzelner Komponente ist dabei festgehalten
worden. Die wichtigsten Komponenten sind die Folgenden:
• eine Methode zur Anfragen Begriffsklärung
• eine Methode zur semantischen Darstellung der Logs als Taxonomie
• einen Cluster-Algorithmus, der Themenbereiche (Anwender-Interessen,
Datenquellen-Inhalte) ĂĽber semantische Cluster der SchlĂĽsselbegriffe identifiziert
• eine Methode zur Berechnung des Nutzerprofils und des Profils der Datenquellen
ausgehend von einem einheitlichen Modell
Als Beispiel der vielfältigen Einsatzmöglichkeiten hinsichtlich Nutzerprofilen wurde
das Framework abschlieĂźend auf zwei Beispiel-Szenarien angewendet: die Ermittlung
von Anwender-Communities und die Kategorisierung von Datenquellen. Das
Framework wurde durch Experimente validiert, welche auf Suchanfrage-Logs von
AOL Search basieren. Die Effizienz der Verfahren wurde fĂĽr kleine Anfragen demonstriert
und zeigt die Beziehung zwischen dem Qualität-basiertem Clustering und dem
Struktur-basiertem Clustering.La problématique traitée dans la thèse s’inscrit dans le cadre de l’analyse d’usage
dans les systèmes de recherche d’information. En effet, nous nous intĂ©ressons Ă
l’utilisateur à travers l’historique de ses requêtes, utilisées comme support d’analyse
pour l’extraction d’un profil d’usage. L’objectif est de caractériser l’utilisateur et les
sources de données qui interagissent dans un réseau afin de permettre des comparaisons
utilisateur-utilisateur, source-source et source-utilisateur. Selon une Ă©tude que
nous avons menée sur les travaux existants sur les modèles de profilage, nous avons
conclu que la grande majorité des contributions sont fortement liés aux applications
dans lesquelles ils étaient proposés. En conséquence, les modèles de profils proposés
ne sont pas réutilisables et présentent plusieurs faiblesses. Par exemple, ces modèles
ne tiennent pas compte de la source de données, ils ne sont pas dotés de mécanismes
de traitement sémantique et ils ne tiennent pas compte du passage à l’échelle (en
termes de complexité). C’est pourquoi, nous proposons dans cette thèse un modèle
d’utilisateur et de source de données basé sur l’analyse d’usage. Les caractéristiques
de ce modèle sont les suivantes. Premièrement, il est générique, permettant
de représenter à la fois un utilisateur et une source de données. Deuxièmement,
il permet de construire le profil de manière implicite à partir de l’historique de requêtes
de recherche. Troisièmement, il définit le profil comme un ensemble de centres
d’intérêts, chaque intérêt correspondant à un cluster sémantique de mots-clés déterminé
par un algorithme de clustering spécifique. Et enfin, dans ce modèle le profil
est représenté dans un espace vectoriel. Les différents composants du modèle sont
organisés sous la forme d’un framework, la complexité de chaque composant y est
evaluée. Le framework propose :
• une methode pour la désambiguisation de requêtes ;
• une méthode pour la représentation sémantique des logs sous la forme d’une
taxonomie ;
• un algorithme de clustering qui permet l’identification rapide et efficace des centres d’intérêt représentés par des clusters sémantiques de mots clés ;
• une méthode pour le calcul du profil de l’utilisateur et du profil de la source
de données à partir du modèle générique.
Le framework proposé permet d’effectuer différentes tâches liées à la structuration
d’un environnement distribué d’un point de vue usage. Comme exemples
d’application, le framework est utilisé pour la découverte de communautés d’utilisateurs
et la catégorisation de sources de données. Pour la validation du framework,
une série d’expérimentations est menée en utilisant des logs du moteur de recherche
AOL-search, qui ont démontrées l’efficacité de la désambiguisation sur des requêtes
courtes, et qui ont permis d’identification de la relation entre le clustering basé sur
une fonction de qualité et le clustering basé sur la structure
Specification of knowledge acquisition and modeling of the process of the consensus
zhdanova2004aIn this deliverable, specification of knowledge acquisition and modeling of the process of consensus is provided
Intelligent Information Access to Linked Data - Weaving the Cultural Heritage Web
The subject of the dissertation is an information alignment experiment of two cultural heritage information systems (ALAP): The Perseus Digital Library and Arachne. In modern societies, information integration is gaining importance for many tasks such as business decision making or even catastrophe management. It is beyond doubt that the information available in digital form can offer users new ways of interaction. Also, in the humanities and cultural heritage communities, more and more information is being published online. But in many situations the way that information has been made publicly available is disruptive to the research process due to its heterogeneity and distribution. Therefore integrated information will be a key factor to pursue successful research, and the need for information alignment is widely recognized.
ALAP is an attempt to integrate information from Perseus and Arachne, not only on a schema level, but to also perform entity resolution. To that end, technical peculiarities and philosophical implications of the concepts of identity and co-reference are discussed. Multiple approaches to information integration and entity resolution are discussed and evaluated. The methodology that is used to implement ALAP is mainly rooted in the fields of information retrieval and knowledge discovery.
First, an exploratory analysis was performed on both information systems to get a first impression of the data. After that, (semi-)structured information from both systems was extracted and normalized. Then, a clustering algorithm was used to reduce the number of needed entity comparisons. Finally, a thorough matching was performed on the different clusters. ALAP helped with identifying challenges and highlighted the opportunities that arise during the attempt to align cultural heritage information systems
- …