293 research outputs found

    Text Similarity Between Concepts Extracted from Source Code and Documentation

    Get PDF
    Context: Constant evolution in software systems often results in its documentation losing sync with the content of the source code. The traceability research field has often helped in the past with the aim to recover links between code and documentation, when the two fell out of sync. Objective: The aim of this paper is to compare the concepts contained within the source code of a system with those extracted from its documentation, in order to detect how similar these two sets are. If vastly different, the difference between the two sets might indicate a considerable ageing of the documentation, and a need to update it. Methods: In this paper we reduce the source code of 50 software systems to a set of key terms, each containing the concepts of one of the systems sampled. At the same time, we reduce the documentation of each system to another set of key terms. We then use four different approaches for set comparison to detect how the sets are similar. Results: Using the well known Jaccard index as the benchmark for the comparisons, we have discovered that the cosine distance has excellent comparative powers, and depending on the pre-training of the machine learning model. In particular, the SpaCy and the FastText embeddings offer up to 80% and 90% similarity scores. Conclusion: For most of the sampled systems, the source code and the documentation tend to contain very similar concepts. Given the accuracy for one pre-trained model (e.g., FastText), it becomes also evident that a few systems show a measurable drift between the concepts contained in the documentation and in the source code.</p

    Distributed, Low-Cost, Non-Expert Fine Dust Sensing with Smartphones

    Get PDF
    Diese Dissertation behandelt die Frage, wie mit kostengĂŒnstiger Sensorik FeinstĂ€ube in hoher zeitlicher und rĂ€umlicher Auflösung gemessen werden können. Dazu wird ein neues Sensorsystem auf Basis kostengĂŒnstiger off-the-shelf-Sensoren und Smartphones vorgestellt, entsprechende robuste Algorithmen zur Signalverarbeitung entwickelt und Erkenntnisse zur Interaktions-Gestaltung fĂŒr die Messung durch Laien prĂ€sentiert. AtmosphĂ€rische Aerosolpartikel stellen im globalen Maßstab ein gravierendes Problem fĂŒr die menschliche Gesundheit dar, welches sich in Atemwegs- und Herz-Kreislauf-Erkrankungen Ă€ußert und eine VerkĂŒrzung der Lebenserwartung verursacht. Bisher wird LuftqualitĂ€t ausschließlich anhand von Daten relativ weniger fester Messstellen beurteilt und mittels Modellen auf eine hohe rĂ€umliche Auflösung gebracht, so dass deren ReprĂ€sentativitĂ€t fĂŒr die flĂ€chendeckende Exposition der Bevölkerung ungeklĂ€rt bleibt. Es ist unmöglich, derartige rĂ€umliche Abbildungen mit den derzeitigen statischen Messnetzen zu bestimmen. Bei der gesundheitsbezogenen Bewertung von Schadstoffen geht der Trend daher stark zu rĂ€umlich differenzierenden Messungen. Ein vielversprechender Ansatz um eine hohe rĂ€umliche und zeitliche Abdeckung zu erreichen ist dabei Participatory Sensing, also die verteilte Messung durch Endanwender unter Zuhilfenahme ihrer persönlichen EndgerĂ€te. Insbesondere fĂŒr LuftqualitĂ€tsmessungen ergeben sich dabei eine Reihe von Herausforderungen - von neuer Sensorik, die kostengĂŒnstig und tragbar ist, ĂŒber robuste Algorithmen zur Signalauswertung und Kalibrierung bis hin zu Anwendungen, die Laien bei der korrekten AusfĂŒhrung von Messungen unterstĂŒtzen und ihre PrivatsphĂ€re schĂŒtzen. Diese Arbeit konzentriert sich auf das Anwendungsszenario Partizipatorischer Umweltmessungen, bei denen Smartphone-basierte Sensorik zum Messen der Umwelt eingesetzt wird und ĂŒblicherweise Laien die Messungen in relativ unkontrollierter Art und Weise ausfĂŒhren. Die HauptbeitrĂ€ge hierzu sind: 1. Systeme zum Erfassen von Feinstaub mit Smartphones (Low-cost Sensorik und neue Hardware): Ausgehend von frĂŒher Forschung zur Feinstaubmessung mit kostengĂŒnstiger off-the-shelf-Sensorik wurde ein Sensorkonzept entwickelt, bei dem die Feinstaub-Messung mit Hilfe eines passiven Aufsatzes auf einer Smartphone-Kamera durchgefĂŒhrt wird. Zur Beurteilung der Sensorperformance wurden teilweise Labor-Messungen mit kĂŒnstlich erzeugtem Staub und teilweise Feldevaluationen in Ko-Lokation mit offiziellen Messstationen des Landes durchgefĂŒhrt. 2. Algorithmen zur Signalverarbeitung und Auswertung: Im Zuge neuer Sensordesigns werden Kombinationen bekannter OpenCV-Bildverarbeitungsalgorithmen (Background-Subtraction, Contour Detection etc.) zur Bildanalyse eingesetzt. Der resultierende Algorithmus erlaubt im Gegensatz zur Auswertung von Lichtstreuungs-Summensignalen die direkte ZĂ€hlung von Partikeln anhand individueller Lichtspuren. Ein zweiter neuartiger Algorithmus nutzt aus, dass es bei solchen Prozessen ein signalabhĂ€ngiges Rauschen gibt, dessen VerhĂ€ltnis zum Mittelwert des Signals bekannt ist. Dadurch wird es möglich, Signale die von systematischen unbekannten Fehlern betroffen sind auf Basis ihres Rauschens zu analysieren und das "echte" Signal zu rekonstruieren. 3. Algorithmen zur verteilten Kalibrierung bei gleichzeitigem Schutz der PrivatsphĂ€re: Eine Herausforderung partizipatorischer Umweltmessungen ist die wiederkehrende Notwendigkeit der Sensorkalibrierung. Dies beruht zum einen auf der InstabilitĂ€t insbesondere kostengĂŒnstiger LuftqualitĂ€tssensorik und zum anderen auf der Problematik, dass Endbenutzern die Mittel fĂŒr eine Kalibrierung ĂŒblicherweise fehlen. Bestehende AnsĂ€tze zur sogenannten Cross-Kalibrierung von Sensoren, die sich in Ko-Lokation mit einer Referenzstation oder anderen Sensoren befinden, wurden auf Daten gĂŒnstiger Feinstaubsensorik angewendet sowie um Mechanismen erweitert, die eine Kalibrierung von Sensoren untereinander ohne Preisgabe privater Informationen (IdentitĂ€t, Ort) ermöglicht. 4. Mensch-Maschine-Interaktions-Gestaltungsrichtlinien fĂŒr Participatory Sensing: Auf Basis mehrerer kleiner explorativer Nutzerstudien wurde empirisch eine Taxonomie der Fehler erstellt, die Laien beim Messen von Umweltinformationen mit Smartphones machen. Davon ausgehend wurden mögliche Gegenmaßnahmen gesammelt und klassifiziert. In einer großen summativen Studie mit einer hohen Teilnehmerzahl wurde der Effekt verschiedener dieser Maßnahmen durch den Vergleich vier unterschiedlicher Varianten einer App zur partizipatorischen Messung von UmgebungslautstĂ€rke evaluiert. Die dabei gefundenen Erkenntnisse bilden die Basis fĂŒr Richtlinien zur Gestaltung effizienter Nutzerschnittstellen fĂŒr Participatory Sensing auf MobilgerĂ€ten. 5. Design Patterns fĂŒr Participatory Sensing Games auf MobilgerĂ€ten (Gamification): Ein weiterer erforschter Ansatz beschĂ€ftigt sich mit der Gamifizierung des Messprozesses um Nutzerfehler durch den Einsatz geeigneter Spielmechanismen zu minimieren. Dabei wird der Messprozess z.B. in ein Smartphone-Spiel (sog. Minigame) eingebettet, das im Hintergrund bei geeignetem Kontext die Messung durchfĂŒhrt. Zur Entwicklung dieses "Sensified Gaming" getauften Konzepts wurden Kernaufgaben im Participatory Sensing identifiziert und mit aus der Literatur zu sammelnden Spielmechanismen (Game Design Patterns) gegenĂŒbergestellt

    A Methodology for Natural Resources Analysis Appropriate for County Level Planning

    Get PDF
    In this thesis a methodology for developing an integrated cumulative analysis of sensitive natural resources was developed. Themes of natural resources-waterways, wetlands, forested lands, prime agricultural soils, and steep slopes-were brought together in a GIS system, in a grid format, in a manner so that each cell of the grid accumulated value according to the increasing presence of resource themes. For example, an area (30 meter x 30 meter grid cell) containing only one of the above themes is given a value of l, whereas an area containing slopes, streams, and forests might, after weighting factors, have a value of 5. The result is a map that demonstrates the cumulative value of sensitivity of a given area and its relative relation to the landscape under analysis. The methodology uses off-the-shelf GIS software and available GIS data sources, and is designed to require a minimum of technical and financial resources. This methodology is particularly useful for counties in Tennessee in meeting the requirements of Public Chapter 1101, the Growth Policy Act. The case study for this thesis reveals that much development does, in fact, occur in sensitive natural areas and that, therefore, this tool could be well utilized by planners to inform the public and to assist in the development of policy aimed toward the protection of sensitive areas from activities that would reduce their capacity to serve their natural functions

    Machine Learning of Scientific Events: Classification, Detection, and Verification

    Get PDF
    Classification and segmentation of objects using machine learning algorithms have been widely used in a large variety of scientific domains in the past few decades. With the exponential growth in the number of ground-based, air-borne, and space-borne observatories, Heliophysics has been taking full advantage of such algorithms in many automated tasks, and obtained valuable knowledge by detecting solar events and analyzing the big-picture patterns. Despite the fact that in many cases, the strengths of the general-purpose algorithms seem to be transferable to problems of scientific domains where scientific events are of interest, in practice there are some critical issues which I address in this dissertation. First, I discuss the four main categories of such issues and then in the proceeding chapters I present real-world examples and the different approaches I take for tackling them. In Chapter II, I take a classical path for classification of three solar events; Active Regions, Coronal Holes, and Quiet Suns. I optimize a set of ten image parameters and improve the classification performance by up to 36%. In Chapter III, in contrast, I utilize an automated feature extraction algorithm, i.e., a deep neural network, for detection and segmentation of another solar event, namely solar Filaments. Using an off-the-shelf algorithm, I overcome several of the issues of the existing detection module, while facing an important challenge; lack of an appropriate evaluation metric for verification of the segmentations. In Chapter IV, I introduce a novel metric to provide a more accurate verification especially for salient objects with fine structures. This metric, called Multi-Scale Intersection over Union (MIoU), is a fusion of two concepts; fractal dimension from Geometry, and Intersection over Union (IoU) which is a popular metric for segmentation verification. Through several experiments I examine the advantages of using MIoU over IoU, and I conclude this chapter by a follow-through on the segmentation results of the previously implemented filament detection module
    • 

    corecore