    Git as an Encrypted Distributed Version Control System

    This thesis develops and presents a secure Git implementation, Git Virtual Vault (GV2), for users of Git to work on sensitive projects with repositories located in unsecure distributed environments, such as in cloud computing. This scenario is common within the Department of Defense, as much work is of a sensitive nature. In order to provide security to Git, additional functionality is added for confidentiality and integrity protection. This thesis examines existing Git encryption implementations and baselines their performance compared to unencrypted Git. Real-world Git repositories are examined to characterize typical Git usage and determine if the existing Git encryption implementations are capable of efficient performance with regards to typical Git usage. This research shows that the existing Git encryption implementations do not provide efficient performance. This research develops an improved secure Git implementation, GV2, with transparent authenticated encryption. The fundamental contribution of this research is developing GV2 to perform Git garbage collection on plaintext data before encrypting the data. The result is a secure Git implementation that is transparent to the user with only a minor performance penalty, compared to unencrypted Git

    Prototype of a tool for automatic generation of commit messages for Java applications

    Although version control systems allow developers to describe and explain the rationale behind code changes in commit messages, the state of practice indicates that most of the time such commit messages are either very short or even empty. In fact, in a recent study of 23K+ Java projects it has been found that only 10% of the messages are descriptive and over 66% of those messages contained fewer words as compared to a typical English sentence. However, accurate and complete commit messages summarizing software changes are important to support a number of development and maintenance tasks. This thesis presents an approach, coined as ChangeScribe, which is designed to generate commit messages automatically from change sets. ChangeScribe generates natural language commit messages by taking into account commit stereotype, the type of changes (e.g., files rename, changes done only to property files), as well as the impact set of the underlying changes. This work presents the evaluation of ChangeScribe in an evaluative survey involving 23 developers in which the participants analyzed automatically generated commit messages from real changes and compared them with commit messages written by the original developers of six open source systems. The results demonstrate that automatically generated messages by ChangeScribe are preferred in about 62% of the cases for large commits, and about 54% for small commitsResumen. Aunque los sistemas de control de versiones le permiten a los desarrolladores de software describir y explicar las razones por la cuales modificaron el código fuente utilizando un mensaje en el commit, en la práctica estos mensajes son muy cortos o incluso vacíos. De hecho, en recientes estudios de 23K+ de proyectos Java se ha encontrado que el 10% de los mensajes son descriptivos y alrededor del 66% de estos contienen pocas palabras comparado con el tamaño promedio de una oración escrita en el idioma inglés. Sin embargo, resumir los cambios en el software de una manera precisa y completa es muy importante para apoyar las tareas que se realizan en el desarrollo y mantenimiento de un software. Este trabajo presenta ChangeScribe un prototipo para generar mensajes de commit usando lenguaje natural y teniendo en cuenta el estereotipo del commit, el tipo de cambio (rename de un archivo, cambios a archivos de propiedades, etc ), y también el conjunto de impacto de los cambios realizados. De otro lado, presenta la evaluación de ChangeScribe en un estudio de usuarios que involucró 23 desarrolladores de software que analizaron los mensajes de commit generados automáticamente por ChangeScribe y los mensajes de commit escritos por los desarrolladores originales de seis sistemas open source. Los resultados demuestran que los mensajes generados de forma automática por ChangeScribe son preferidos en cerca del 62% de los casos en commits largos, y en cerca de 54% de los casos en commits cortos (pocas modificaciones).Maestrí

    Retention of Institutional Memory Via Knowledge Management: Perceptions Regarding the Effectiveness of Corporate Approaches Applied in Higher Education

    Research has shown that private industry has a better grasp on knowledge management concepts and practices than in the higher education arena. Given the internal and external challenges facing colleges and universities, the processes and systems associated with knowledge management could serve as a resource for performance improvement and greater levels of effectiveness and efficiency. This phenomenological study was conducted to determine the perceptions and perspectives of deans regarding the usefulness and value of implementing knowledge management best practices typically employed by organizations in the private sector. Four research questions guided this study: 1) What level of awareness exists of the impact of knowledge management in higher education administration? 2) What methods exist for capturing and sharing knowledge? 3) Can knowledge management strategies practiced in private industry translate successfully in the higher education arena? 4) What elements exist in the administration of higher education that either support or prevent the retention of institutional knowledge? Data was gathered in the form of a series of semi-structured interviews of past or present deans of public RU/VH institutions (Research University with Very High research activity as defined by the Carnegie Classification of Institutions of Higher Education) in the southern portion of the United States. Participants for this study were selected based on their leadership positions in the administration at the selected institution, each were interviewed, in part, to determine their awareness and perception of knowledge management. The following themes surfaced after data analysis was performed: 1) there is a general lack of awareness of the specific term, knowledge management; 2) deans understand the conceptual value of knowledge management and are open to employing its practices in their college, but are resistant to doing so as it relates to their job responsibilities; 3) a cultural misalignment exists between the higher education environment and private industry; 4) the human resource is a highly valued commodity in higher education; 5) knowledge management practices are siloed and limited in scope; and 6) obstacles exist that thwart the growth of knowledge management in higher education. Finally, recommendations, limitations, suggestions for future research, and conclusions are offered to encourage the expansion of this specific topic

    Supporting Development Decisions with Software Analytics

    Software practitioners make technical and business decisions based on the understanding they have of their software systems. This understanding is grounded in their own experiences, but can be augmented by studying various kinds of development artifacts, including source code, bug reports, version control meta-data, test cases, usage logs, etc. Unfortunately, the information contained in these artifacts is typically not organized in the way that is immediately useful to developers’ everyday decision making needs. To handle the large volumes of data, many practitioners and researchers have turned to analytics — that is, the use of analysis, data, and systematic reasoning for making decisions. The thesis of this dissertation is that by employing software analytics to various development tasks and activities, we can provide software practitioners better insights into their processes, systems, products, and users, to help them make more informed data-driven decisions. While quantitative analytics can help project managers understand the big picture of their systems, plan for its future, and monitor trends, qualitative analytics can enable developers to perform their daily tasks and activities more quickly by helping them better manage high volumes of information. To support this thesis, we provide three different examples of employing software analytics. First, we show how analysis of real-world usage data can be used to assess user dynamic behaviour and adoption trends of a software system by revealing valuable information on how software systems are used in practice. Second, we have created a lifecycle model that synthesizes knowledge from software development artifacts, such as reported issues, source code, discussions, community contributions, etc. Lifecycle models capture the dynamic nature of how various development artifacts change over time in an annotated graphical form that can be easily understood and communicated. We demonstrate how lifecycle models can be generated and present industrial case studies where we apply these models to assess the code review process of three different projects. Third, we present a developer-centric approach to issue tracking that aims to reduce information overload and improve developers’ situational awareness. Our approach is motivated by a grounded theory study of developer interviews, which suggests that customized views of a project’s repositories that are tailored to developer-specific tasks can help developers better track their progress and understand the surrounding technical context of their working environments. We have created a model of the kinds of information elements that developers feel are essential in completing their daily tasks, and from this model we have developed a prototype tool organized around developer-specific customized dashboards. The results of these three studies show that software analytics can inform evidence-based decisions related to user adoption of a software project, code review processes, and improved developers’ awareness on their daily tasks and activities

    The Ghost in the Machine: Traditional Archival Practice in the Design of Digital Repositories for Long-Term Preservation

    This research paper explores the ways in which traditional paper-based archival principles and practices, based on the requirements of a knowledge system built on physical forms (papyrus, parchment, paper), are being applied to the development of repositories designed explicitly for the long-term preservation of digital materials. Though debate remains active, the archival community has gradually coalesced around a set of high-level principles and practices generally agreed as representative of the core values of archival activity: the sanctity of evidence; the preservation imperative; the primacy of the record; respect des fonds, original order and provenance; and hierarchy in records and their collective description. These traditional archival principles and practices are defined, then translated into digital repository architecture designs through an analysis of the Open Archival Information Systems reference model (OAIS). Areas of active research on this subject are examined in a set of case studies

    The Third NASA Goddard Conference on Mass Storage Systems and Technologies

    This report contains copies of nearly all of the technical papers and viewgraphs presented at the Goddard Conference on Mass Storage Systems and Technologies held in October 1993. The conference served as an informational exchange forum for topics primarily relating to the ingestion and management of massive amounts of data and the attendant problems involved. Discussion topics include the necessary use of computers in the solution of today's infinitely complex problems, the need for greatly increased storage densities in both optical and magnetic recording media, currently popular storage media and magnetic media storage risk factors, data archiving standards including a talk on the current status of the IEEE Storage Systems Reference Model (RM). Additional topics addressed System performance, data storage system concepts, communications technologies, data distribution systems, data compression, and error detection and correction

    Towards ontological foundations of research information systems

    Despite continuous advancements in information system technologies it is still not simple to receive relevant answers to Science-related queries. Getting answers requires a gathering of information from heterogeneous systems, and the volume of responses that semantically do not match with the queried intensions overwhelms users. W3C initiatives with extensions such as the Semantic Web and the Linked Open Data Web introduced important technologies to overcome the issues of semantics and access by promoting standard representation formats – formal ontologies – for information integration. These are inherent in architectural system styles, where increased openness challenges the traditional closed-world and often adhocly designed systems. However, technology on its own is not meaningful and the information systems community is increasingly becoming aware of foundations and their importance with guiding system analyses and conceptual design processes towards sustainable and more integrative information systems. As a contribution, this work develops a formal ontology FERON – Field-extensible Research Ontology – following the foundations as introduced by Mario Bunge and applied to information systems design by Wand and Weber, i.e. Bunge- Wand-Weber (BWW). Nevertheless, FERON is not aimed at the modelling of an information system as such, but at the description of a perceived world – the substantial things – that an information system ought to be able to model. FERON is a formal description of the Research domain – a formal ontology according to latest technological standards. Language Technology was chosen as a subdomain to demonstrate its field extensibility. The formal FERON ontology results from a hybrid modelling approach; it was first described top-down based on a many years activity of the author and then fine-tuned bottom-up through a comprehensive analysis and re-use of openly available descriptions and standards. The entire FERON design process was accompanied by an awareness of architectural system levels and system implementation styles, but was at first aimed at a human domain understanding, which according to the General Definition of Information (GDI) is achievable through well-formed meaningful data.Trotz kontinuierlich verbesserter Informationssystemtechnologien ist es nicht einfach möglich, relevante Antworten auf forschungsverwandte Suchanfragen zu erhalten. Dies liegt unter anderem daran, dass Informationen in verschiedenen Systemen bereitgestellt werden, und dass die Beschreibung der bereitgestellten Informationen nicht mit den Beschreibungen der gestellten Fragen übereinstimmen. Neuere Technologien wie das Semantische Web oder Linked Open Data ermöglichen zwar verbesserte Beschreibungen und Zugriffe – jedoch sind die Technologien an sich auch nicht bedeutungsvoll. Weitergehende, fundierende Ansätze zur Beschreibung von Informationenen finden daher zunehmend Anerkennung und Zuspruch in der wissenschaftlichen Gemeinde, diese beinflussen konsequenterweise die Systemanalyse sowie das Systemdesign. Die vorliegende Arbeit entwickelt eine formale Ontologie einer Forschungswelt die disziplinenübergreifend skaliert, namentlich FERON – Field-extensible Research Ontology, basierend auf den Ansätzen der Bunge-Wand-Weber (BWW) Ontologie. Der Titel der Arbeit “Towards Ontological Foundations of Research Information Systems” übersetzt: „Zur ontologischen Fundierung von Forschungsinformationssystemen“. Im Titel ist ontologisch zuallererst im philosophischen Sinne zu verstehen, und nicht zu verwechseln mit der dann resultierenden Ontologie im technologischen Sinne einer formalen Beschreibung der wahrgenommenen Forschungswelt – namentlich FERON. Eine Klärung der Begriffe Ontologie, Konzept, Entität, Daten und Information zum Verständnis der vorliegenden Arbeit wird in Kapitel 2.5 versucht, ein Verständnis wurde als kritisch für die Qualität der resultierenden formalen Ontologie FERON, aber auch als hilfreich für den Leser vorweggenommen, insbesondere weil die genannten Begriffe über Disziplinen hinweg oftmals sehr unterschiedlich wahrgenommen werden. Die Analyse und Modellierung von FERON basiert auf der Bedeutung dieser grundlegenden Begriffe wie die philosophische und wissenschaftliche Literatur verschiedener Disziplinen sie belegt. Die vorliegende Arbeit entwickelt FERON, und modelliert eine Welt der Forschung in disziplinenübergreifender Weise mittels neuester technologischer Standards – formal in RDF/OWL. Die fachspezifische Erweiterbarkeit ist durch Eingliederung von Beschreibungen des Gebietes Sprachtechnologie demonstriert. Die Modellierung wurde durchgehend von der Theorie Mario Bunges begleitet, welche Wand und Weber für eine Anwendung während der Systemanalyse und Systemgestaltung interpretierten und welche im Kapitel 3.1.1 vorgestellt wird. Die Idee ist als Bunge-Wand-Weber Ontologie (BWW) zunehmend bekannt und demgemäße ontologische Ansichten sind teilweise in formalen Beschreibungssprachen und Werkzeugen eingebunden, und damit bei der Modellierung explizit nutzbar. Neben BWW werden kurz die Fundierungsansätze von DOLCE, SUMO und Cyc vorgestellt und deren Relevanz für FERON verdeutlicht. Eine fehlende Fundierung in der Disziplin Informationssysteme wurde lange Zeit als wesentliche Ursache für die vermisste wissenschaftliche Akzeptanz der Disziplin betrachtet; größtenteils wurden Informationssysteme pragmatisch und adhoc entwickelt und skalierten daher nicht konsistent. Zunehmend wird jedoch eine theoretische und insbesondere die ontologische Fundierung von Informationssystemen als wertvoll anerkannt – von der Idee bis hin zur Implementierung aber auch während der Umgestaltungsphasen. Konzepte fundierter Informationssysteme im funktional-technischen Sinne sind als modellgetriebene Architektur bekannt und werden hier durch die Ansätze von Zachmann und Scheer verdeutlicht. In der kurzen Geschichte IT-basierter Informationssysteme wurden phasenweise immer wieder strukturell unterschiedliche Modelle angewandt. Diese werden daher im Kapitel 3.2 Modellierungsgrammatiken untersucht und deren Unterschiede dargestellt – namentlich das Entity-Relationship-Modell, semantische Netzwerke, das relationale Modell, hierarchische Modelle und objekt-orientierte Modelle. Darüberhinaus sind insbesondere formale Ontologien durch die Web Standardisierungsaktivitäten und W3C Empfehlungen ein rasant wachsendes Segment, verstärkt durch politische Entscheidungen für offene Daten und implizierend offene Systeme. Im Vergleich zu traditionellen und weitestgehend geschlossenen sogenannten closed-world Systemen sind hinsichtlich der Modellierung bestimmte Aspekte zu beachten. Diese unterliegen im Gegensatz zu offenen Systemen dem Paradigma des kompletten Wissens und sind sozusagen vorschreibend; im System aktuell nicht vorhandene Information wird als nicht existent interpretiert. Dahingegen gehen offene open-world Systeme davon aus, dass nicht vorhandene Information aktuell unbekannt ist – und die bekannte Information nicht vorschreibt sondern beschreibt. Weitere Unterschiede die es bezüglich der Modellierung zu beachten gilt, befassen sich mit zeitlich geprägten Verknüpfungen – über sogenannte Links oder Relationships – aber auch mit Entitäten und deren Identitäten. Da FERON keine Ontologie eines Informationssystems selbst modelliert, sondern eine Welt für eine mögliche Umsetzung in einem Informationssystem bechreibt sind weitergehende Modellierungsaspekte in Kapitel 3.3 lediglich erklärt und es wird auf Beispiele verwiesen. In der vorliegenden Arbeit wird keine explizite Anwendung empfohlen, weil ein Informationssystem immer derjenigen Form entsprechen sollte, welche einer bestimmten Funktion folgt, und weil die Vorwegnahme von Funktionen eine Dimension darstellt die weit über das Maß der vorliegenden Arbeit hinaus geht. FERON beschreibt eine Welt der Forschung; vorhandene Modellierungsansätze von Forschungsinformationssystemem werden mit Kapitel 4.1 den Ansätzen verwandter Arten gegenübergestellt – nämlich, wissenschaftlichen Repositorien, Datenrepositorien, Digitalen Bibliotheken, Digitalen Archiven und Lehre Systemen. Die untersuchten Modelle offenbaren neben inhaltlichen Unterschieden auch die Verschiedenheit der Modellierungsansätze von z.B. Referenzmodellen gegenüber formalen Datenmodellen oder offenen Weltbeschreibungen, und damit auch die einhergehende Schwierigkeit von Integration. Insbesondere formale Ontologien erlauben über die traditionellen Ansätze hinweg, automatische Schlußfolgerungen und Beweisführungen, welche jedoch hier nicht weitergehend erörtert werden. FERON war von Anfang an für den menschlichen Leser konzipiert, wenn auch formal beschrieben. Der Modellierungsansatz in FERON ist hybrid und wird in Kapitel 7 erläutert. Eine hybride Modellierung war möglich durch eine mehr als zehn-jährige Erfahrung und Tätigkeit der Autorin in diesem Bereich, auch belegt durch zahlreiche Peer-Review Publikationen. Der erste Entwurf von FERON erfolgte demgemäß zuallererst im Top-Down Verfahren (Figure 29), bevor mittels umfassender Analyse (dokumentiert in den Kapiteln 5 und 6) von verfügbaren Domänenbeschreibungen sukszessive eine Bottom-Up Anpassung von FERON vorgenommen wurde (Figure 68), welche bereits standardisierte und bereits definierte Beschreibungen und Eigenschaften wenn möglich integrierte (Figure 67). FERON ist eine ontologisch fundierte, formale Beschreibung – eine formale Ontologie – einer Forschungswelt zur vereinfachten, konsistenten Umsetzung von standardisierten, integrativen Forschungsinformationssystemen oder Fachinformationssystemen. Substantielle Entitäten wurden grundsätzlich erkannt, und deren Eigenschaften sowie Verknüpfungen formal beschrieben (Kapitel 7): Ressource unterschieden nach Nicht-Informations-Ressource und Informations-Ressource. Erstere unterscheidet nach Agent (Person, Organisationseinheit), Aktivität (Methode, Projekt, Bildung, Ereignis), Förderung (Programm, Einkommen), Messung und Infrastruktur (Werkzeug, Dienst, Einrichtung), zweitere nach Publikation, Literatur, Produkt (Daten), Wissensorganisationssystem, auch bekannt als KOS (Knowledge Organisation System), wie in der im Dokument integrierten Graphik (Figure 1) demonstriert. Kapitel 7 präsentiert FERON und dessen formale Einbindung von übergreifenden Eigenschaften wie Sprache, Zeit, Geographie, zeitlich geprägte Verknüpfung, ontologische Verpflichtung, Namensraum, Klasse, Eigenschaft, funktionales Schema, Entität und Identität. Seine inherente Struktur erlaubt eine einfache Disziplinen- oder Domänenerweiterung. Die Sprachtechnologie (englisch: Language Technology – abgekürzt LT) wird als Gebiet zur Demonstration der Erweiterung von FERON formal eingebunden, und mit Kapitel 6 insbesondere seine substantiell fach-spezifischen Entitäten wie Methode, Projekt, Daten, Service, Infrastruktur, Messung, aber auch KOS untersucht. Eine Erweiterung der Ontologie FERON für explizit-funktionale Anforderungen an ein Informationssystem, oder für weitergehende disziplinen-spezifische Eigenschaften, z.B. einer linguistisch verbesserten Anwendung für sprachtechnologische Weiterverarbeitung, ist möglich, erfordert jedoch tiefergehendes Fachwissen. Ziel der Arbeit war es zuallererst, das Verständnis für die Domäne Forschung zu verbessern – mit weiterreichendem Blick auf eine allgemeine integrative system-technische Entwicklung zur Verbesserung von Informationszugriff und Informationsqualität. Daneben wurden historische, gesellschaftliche aber auch politische Faktoren beobachtet, welche helfen, die wachsenden Anforderungen jenseits der Technologie zu bewältigen. FERON ist als formales Model FERON.owl valide und wird mit der vorliegenden Arbeit sozusagen als Template zur weiteren Befüllung bereitgestellt. Darauf basierend sind formale Restriktionen sowie disziplinen-spezifische und terminologische Erweiterungen direkt möglich. Daten-Instanzen wie in den präsentierten Beispielen sind mittels FERON.pprj verfügbar

    Managing the bazaar: commercialization and peripheral participation in mature, community-led free/open source software projects

    The thesis investigates two fundamental dynamics of participation and collaboration in mature, community-led Free/Open Source (F/OS) software projects - commercialization and peripheral participation. The aim of the thesis is to examine whether the power relations that underlie the F/OS model of development are indicative of a new form of power relations supported by ICTs. Theoretically, the thesis is located within the Communities of Practice (CoP) literature and it draws upon Michel Foucault's ideas about the historical and relational character of power. It also mobilizes, to a lesser extent, Erving Goffman's notion of `face-work'. This framework supports a methodology that questions the rationality of how F/OS is organized and examines the relations between employed coders and volunteers, experienced and inexperienced coders, and programmers and nonprogrammers. The thesis examines discursive and structural dimensions of collaboration and employs quantitative and qualitative methods. Structural characteristics are considered in the light of arguments about embeddedness. The thesis contributes insights into how the gift economy is embedded in the exchange economy and the role of peripheral contributors. The analysis indicates that community-integrated paid developers have a key role in project development, maintaining the infrastructure aspects of the code base. The analysis suggests that programming and non-programming contributors are distinct in their make-up, priorities and rhythms of participation, and that learning plays an important role in controlling access. The results show that volunteers are important drivers of peripheral activities, such as translation and documentation. The term `autonomous peripherality' is used to capture the unique characteristics of these activities. These findings support the argument that centrality and peripherality are associated with the division of labour, which, in turn, is associated with employment relations and frameworks of institutional support. The thesis shows how the tensions produced by commercialization and peripheral participation are interwoven with values of meritocracy, ritual and strategic enactment of the idea of community as well as with tools and techniques developed to address the emergence of a set of problems specific to management and governance. These are characterized as `technologies of communities'. It is argued that the emerging topology of F/OS participation, seen as a `relational meshwork', is indicative of a redefinition of the relationship between sociality and economic production within mature, community-led F/OS projects

    Semantic discovery and reuse of business process patterns

    Patterns currently play an important role in modern information systems (IS) development and their use has mainly been restricted to the design and implementation phases of the development lifecycle. Given the increasing significance of business modelling in IS development, patterns have the potential of providing a viable solution for promoting reusability of recurrent generalized models in the very early stages of development. As a statement of research-in-progress this paper focuses on business process patterns and proposes an initial methodological framework for the discovery and reuse of business process patterns within the IS development lifecycle. The framework borrows ideas from the domain engineering literature and proposes the use of semantics to drive both the discovery of patterns as well as their reuse
