8 research outputs found

    Semi-Supervised Novelty Detection using SVM entire solution path

    Get PDF
    Very often, the only reliable information available to perform change detection is the description of some unchanged regions. Since sometimes these regions do not contain all the relevant information to identify their counterpart (the changes), we consider the use of unlabeled data to perform Semi-Supervised Novelty detection (SSND). SSND can be seen as an unbalanced classification problem solved using the Cost-Sensitive Support Vector Machine (CS-SVM), but this requires a heavy parameter search. We propose here to use entire solution path algorithms for the CS-SVM in order to facilitate and accelerate the parameter selection for SSND. Two algorithms are considered and evaluated. The first one is an extension of the CS-SVM algorithm that returns the entire solution path in a single optimization. This way, the optimization of a separate model for each hyperparameter set is avoided. The second forces the solution to be coherent through the solution path, thus producing classification boundaries that are nested (included in each other). We also present a low density criterion for selecting the optimal classification boundaries, thus avoiding the recourse to cross-validation that usually requires information about the ``change'' class. Experiments are performed on two multitemporal change detection datasets (flood and fire detection). Both algorithms tracing the solution path provide similar performances than the standard CS-SVM while being significantly faster. The low density criterion proposed achieves results that are close to the ones obtained by cross-validation, but without using information about the changes

    Hyperspectral Remote Sensing Data Analysis and Future Challenges

    Full text link

    Development and Applications of Machine Learning Methods for Hyperspectral Data

    Get PDF
    Die hyperspektrale Fernerkundung der Erde stĂŒtzt sich auf Daten passiver optischer Sensoren, die auf Plattformen wie Satelliten und unbemannten Luftfahrzeugen montiert sind. Hyperspektrale Daten umfassen Informationen zur IdentiïŹzierung von Materialien und zur Überwachung von Umweltvariablen wie Bodentextur, Bodenfeuchte, Chlorophyll a und Landbedeckung. Methoden zur Datenanalyse sind erforderlich, um Informationen aus hyperspektralen Daten zu erhalten. Ein leistungsstarkes Werkzeug bei der Analyse von Hyperspektraldaten ist das Maschinelle Lernen, eine Untergruppe von KĂŒnstlicher Intelligenz. Maschinelle Lernverfahren können nichtlineare Korrelationen lösen und sind bei steigenden Datenmengen skalierbar. Jeder Datensatz und jedes maschinelle Lernverfahren bringt neue Herausforderungen mit sich, die innovative Lösungen erfordern. Das Ziel dieser Arbeit ist die Entwicklung und Anwendung von maschinellen Lernverfahren auf hyperspektrale Fernerkundungsdaten. Im Rahmen dieser Arbeit werden Studien vorgestellt, die sich mit drei wesentlichen Herausforderungen befassen: (I) DatensĂ€tze, welche nur wenige Datenpunkte mit dazugehörigen Ausgabedaten enthalten, (II) das begrenzte Potential von nicht-tiefen maschinellen Lernverfahren auf hyperspektralen Daten und (III) Unterschiede zwischen den Verteilungen der Trainings- und TestdatensĂ€tzen. Die Studien zur Herausforderung (I) fĂŒhren zur Entwicklung und Veröffentlichung eines Frameworks von Selbstorganisierten Karten (SOMs) fĂŒr unĂŒberwachtes, ĂŒberwachtes und teilĂŒberwachtes Lernen. Die SOM wird auf einen hyperspektralen Datensatz in der (teil-)ĂŒberwachten Regression der Bodenfeuchte angewendet und ĂŒbertrifft ein Standardverfahren des maschinellen Lernens. Das SOM-Framework zeigt eine angemessene Leistung in der (teil-)ĂŒberwachten KlassiïŹkation der Landbedeckung. Es bietet zusĂ€tzliche Visualisierungsmöglichkeiten, um das VerstĂ€ndnis des zugrunde liegenden Datensatzes zu verbessern. In den Studien, die sich mit Herausforderung (II) befassen, werden drei innovative eindimensionale Convolutional Neural Network (CNN) Architekturen entwickelt. Die CNNs werden fĂŒr eine BodentexturklassiïŹkation auf einen frei verfĂŒgbaren hyperspektralen Datensatz angewendet. Ihre Leistung wird mit zwei bestehenden CNN-AnsĂ€tzen und einem Random Forest verglichen. Die beiden wichtigsten Erkenntnisse lassen sich wie folgt zusammenfassen: Erstens zeigen die CNN-AnsĂ€tze eine deutlich bessere Leistung als der angewandte nicht-tiefe Random Forest-Ansatz. Zweitens verbessert das HinzufĂŒgen von Informationen ĂŒber hyperspektrale Bandnummern zur Eingabeschicht eines CNNs die Leistung im Bezug auf die einzelnen Klassen. Die Studien ĂŒber die Herausforderung (III) basieren auf einem Datensatz, der auf fĂŒnf verschiedenen Messgebieten in Peru im Jahr 2019 erfasst wurde. Die Unterschiede zwischen den Messgebieten werden mit qualitativen Methoden und mit unĂŒberwachten maschinellen Lernverfahren, wie zum Beispiel Principal Component Analysis und Autoencoder, analysiert. Basierend auf den Ergebnissen wird eine ĂŒberwachte Regression der Bodenfeuchte bei verschiedenen Kombinationen von Messgebieten durchgefĂŒhrt. ZusĂ€tzlich wird der Datensatz mit Monte-Carlo-Methoden ergĂ€nzt, um die Auswirkungen der Verschiebung der Verteilungen des Datensatzes auf die Regression zu untersuchen. Der angewandte SOM-Regressor ist relativ robust gegenĂŒber dem Rauschen des Bodenfeuchtesensors und zeigt eine gute Leistung bei kleinen DatensĂ€tzen, wĂ€hrend der angewandte Random Forest auf dem gesamten Datensatz am besten funktioniert. Die Verschiebung der Verteilungen macht diese Regressionsaufgabe schwierig; einige Kombinationen von Messgebieten bilden einen deutlich sinnvolleren Trainingsdatensatz als andere. Insgesamt zeigen die vorgestellten Studien, die sich mit den drei grĂ¶ĂŸten Herausforderungen befassen, vielversprechende Ergebnisse. Die Arbeit gibt schließlich Hinweise darauf, wie die entwickelten maschinellen Lernverfahren in der zukĂŒnftigen Forschung weiter verbessert werden können

    Entwicklung eines automatisierten Wolkendetektions- und Wolkenklassifizierungsverfahrens mit Hilfe von Support Vector Machines angewendet auf METEOSAT-SEVIRI-Daten fĂŒr den Raum Deutschland

    Get PDF
    Wolken stellen im Klimasystem der Erde einen zentralen Faktor dar, nicht nur in Bezug auf die Niederschlagsverteilung, sondern auch in Verbindung mit Effekten auf StrahlungsvorgĂ€nge innerhalb der AtmosphĂ€re. Eine genaue AbschĂ€tzung der komplexen Wechselwirkungen innerhalb des Systems Erde-AtmosphĂ€re ist jedoch immer noch mit Problemen verbunden. Dies betrifft vor allem den vielfach diskutierten Klimawandel. Gerade durch die hohe zeitliche und rĂ€umliche VariabilitĂ€t von Wolken ist ein differenzierter Informationsgewinn ĂŒber diese von enormer Relevanz. Satellitendaten haben sich hier als Mittel der ersten Wahl herausgestellt. Dies gilt insbesondere fĂŒr geostationĂ€re Satelliten, die im Gegensatz zu polarumlaufenden Satelliten, bei vergleichbarer spektraler Information, eine höhere zeitliche Auflösung zur VerfĂŒgung stellen. GĂ€ngige Wolkenerkennungsverfahren beziehen sich vor allem auf SchwellenwertansĂ€tze und benötigen in der Regel Zusatzdaten ĂŒber den Zustand der AtmosphĂ€re. Die Schwierigkeit dieser Verfahren liegt bei der exakten Bestimmung des jeweiligen Schwellenwertes. Andere Bildverarbeitungsverfahren wie Neuronale Netze, Cluster-Analysen oder Support Vector Machines (SVM) wurden zwar schon experimentell durchgefĂŒhrt, jedoch meist nicht im Sinne einer automatisierten Anwendung auf zeitlich hoch aufgelöste Datenreihen. Ziel dieser Arbeit war demnach die Entwicklung einer Wolkendetektion bzw. Wolkenklassifizierung mit Hilfe von Support Vector Machines, angewendet auf METEOSAT-SEVIRI-Daten fĂŒr den Raum Deutschland. Die Umsetzung sollte hierbei auf der reinen Bildinformation (wolkenrelevante METEOSAT-KanĂ€le), ergĂ€nzt durch notwendige Trainingsdaten (Ground Truth), basieren. Support Vector Machines stellen in diesem Zusammenhang einen relativ modernen Klassifikator dar, der auch mit wenigen Trainingsdaten effektiv Klassifizierungsprobleme lösen kann. Die Anwendung auf das Gebiet Deutschland ist mit den vielfĂ€ltigen Wolkengegebenheiten in dieser Region begrĂŒndet. Eine effektive Wolkendetektion stellt durch die relativ nördliche Lage und den Einfluss des Nordatlantiks eine besondere Anforderung dar. Die grĂ¶ĂŸte Herausforderung bei einem Verfahren wie Support Vector Machines ist die exakte Auswahl reprĂ€sentativer Trainingsdaten auf deren Basis der Klassifikator lernt. Eine erste Idee war, zu diesem Zweck sogenannte Wetter-Kameras einzusetzen, die an vielen Standorten Teile des Himmels aufnehmen. RĂŒckwirkend stellte sich jedoch die Zusammenstellung eines aussagekrĂ€ftigen Datensatzes als schwierig heraus. Vielerorts werden die Aufnahmen nicht archiviert, wodurch letztendlich nur sechs Standorte fĂŒr das Jahr 2008 zur VerfĂŒgung standen, die aber dennoch innerhalb des Prozessierungsverfahrens Verwendung finden. Insgesamt wird der Trainingsdatenumfang durch die Anwendung bekannter Schwellenwertalgorithmen erweitert in dem Sinne, dass nur solche Pixel, die mit hoher Sicherheit einer Klasse angehören, einsetzbar sind. Neben der Erstellung einer Wolkenmaske erfolgt die weitere Abtrennung in vier Wolkenklassen, wobei zwischen Höhe und StrahlungsdurchlĂ€ssigkeit der Wolken unterschieden wird. Zur ÜberprĂŒfung der Detektion bzw. Klassifizierung wurde, neben dem Vergleich mit den Wolkenabtrennungsverfahren der Satellite Application Facility on support to Nowcasting and Very Short Range Forecasting (SAFNWC), eine Validierung mit synoptischen Beobachtungsdaten durchgefĂŒhrt. Dies bezieht sich jedoch nur auf die Wolkenmaske mit Hilfe der sogenannten Achtel-Skala. Anhand der Validierungsergebnisse und der Betrachtung des Wolkenbedeckungsgrades fĂŒr das Jahr 2008 wurde deutlich, dass mit einem automatisierten SVM-Wolkendetektionsverfahren bzw. -Wolkenklassifizierungsverfahren gute Ergebnisse erzielt werden können. Dies betrifft vor allem Situationen, in denen Wolken ausgeprĂ€gt bzw. im Vergleich mit wolkenfreien FlĂ€chen ausgeglichen vorkommen. Hochdruckwetterlagen mit umfangreichen wolkenfreien FlĂ€chen fĂŒhren dagegen zu einer verstĂ€rkten WolkenĂŒberschĂ€tzung durch den SVM-Klassifikator. DemgegenĂŒber kommt es bei der Anwendung der SAFNWC-Cloudmask (CMa) ohne zusĂ€tzliche Informationen aus Wettervorhersagemodellen zu einer UnterschĂ€tzung, deren AusprĂ€gung sich jedoch nicht auf bestimmte Wetterlagen zurĂŒckfĂŒhren lĂ€sst. Zudem konnte durch das Verfahren eine zeitliche und rĂ€umliche Differenzierung dargestellt werden, die sich in das allgemeine Wettergeschehen des Jahres 2008 einordnen lĂ€sst. Beispielsweise ließ sich anhand der objektiven Großwetterlagen-Klassifikation des Deutschen Wetterdienstes (DWD) eine zeitliche VerknĂŒpfung mit dem Wolkenbedeckungsgrad darstellen. Regionale Unterschiede zeigten sich vor allem in Bezug auf die Höhenlagen der Mittelgebirge, die im Allgemeinen auch höhere Bedeckungsgrade aufweisen. Im Gegensatz dazu sind Teile Nord- und SĂŒddeutschlands, sowie das Rheintal hĂ€ufig mit geringerer Bedeckung gekennzeichnet. Anhand der vorliegenden Arbeit konnte das Potential von Support Vector Machines, bezogen auf die automatisierte Anwendung einer Wolkendetektion, dargelegt werden. Obwohl es sich um ein sehr rechenintensives Verfahren handelt, lĂ€sst sich die gesamte Prozessierung inklusive Training fĂŒr jeden METEOSAT-Aufnahmezeitpunkt in einem adĂ€quaten zeitlichen Rahmen realisieren. Nach weiterer Optimierung, wĂ€re eine operationelle Anwendung durchaus vorstellbar.Development of an automated cloud detection and cloud classification algorithm using Support Vector Machines applied to METEOSAT SEVIRI data for the area of Germany Clouds are an important part of the earth's climate system, not only because of their connection to precipitation, but also due to their effects on radiation. The accurate estimation of the complex interactions within the earth-atmosphere-system is still a major challenge. Particularly if related to the issues of the continuously discussed climate change. Because of the high temporal and spatial variability in conjunction with clouds, gaining additional information is absolutely necessary. Satellite data presents itself as the first choice. Especially geostationary satellites embodying high temporal resolution and comparable spectral information, can meet the demands of effective cloud detection. Methods of continuous cloud detection are primarily based on threshold techniques and typically require additional data on the atmospheric state. Regarding these methods, determinating an appropriate threshold accurately, is still a problem to be solved. Other approaches of image analysis, like Neural Networks, Cluster-Analysis or Support Vector Machines (SVM), have indeed been carried out experimentally but mostly not in terms of an automated application for high temporal resolution data series. Therefore this study's aim is to develop a cloud detection and cloud classification, applied by using Support Vector Machines on METEOSAT-SEVIRI-data covering the area of Germany. The implementation should only rely on genuine image information (cloud-related METEOSAT-channels), supplemented by the required training data (ground truth). In this context, Support Vector Machines represent a comparatively modern classifier, which is able to solve classification problems effectively, even with only a small amount of training data. The choice of Germany as the main investigation area has been based on the multiple cloud variations and conditions found here. Especially the relatively northern location and the influence of the North Atlantic are challenging aspects regarding effective cloud detection. The main difficulty using Support Vector Machines is the precise selection of representative training data, by which the classifier learns. A first idea for this purpose has been the application of so-called webcams or weather cameras taking pictures of the sky in many places. Retrospectively, the compilation of a meaningful data set turned out to be difficult. In many places, images will not be stored, thus in the end, only six locations for the year 2008 were available. Although this is not enough for a proper classification, the data is used in the processing scheme. To get additional training data, the data set has been expanded through the use of known threshold algorithms. But only those pixels, having a high probability to belong to a certain class, were selected for training. After creating a cloud mask, the clouds were subdivided into four classes, distinguishing between height and radiation transparency. Besides comparing the results to the cloud products of the Satellite Application Facility on support to Nowcasting and Very Short Range Forecasting (SAFNWC), an accuracy assessment has been carried out. This validation procedure has been applied with the help of synoptic observations. However, this has only been done with the cloud mask, using the so-called octa-scale. Based on the validation results and the additional observation of the cloud cover for the year 2008, it was possible to show that accurate results can be achieved with an automated SVM-cloud-detection, respectively SVM-cloud-classification. This refers mainly to situations where you have a lot of clouds, or were clouds are equally distributed, compared to cloud free areas. In contrast, high-pressure weather conditions with extensive cloud free areas lead to increased overestimation of clouds by the SVM-classifier. But on the other side, the results of the SAFNWC-Cloudmask used without additional information from numerical weather prediction (NWP) reveal an underestimation of clouds. This underestimation cannot be reduced to certain weather conditions. In addition, a temporal and spatial differentiation of cloud cover could be shown for the year 2008. In this context, it was possible to link the results with the general weather patterns of 2008. For example, temporal variations have been presented by the connection between the cloud amount and the results of an objective weather type classification established by the German Meteorological Service (DWD). Regional differences were mainly in conjunction to the low mountain ranges, which are generally connected to high cloud coverage. On the other hand, parts of northern and southern Germany and the Rhine Valley are often combined with less coverage. With this work it was possible to demonstrate the potential of Support Vector Machines as an automated application of cloud detection on temporal high resolution data. Although it is a very computationally intensive procedure, the entire processing, including training of the classifier for each METEOSAT-timeslot, can be realized in an appropriate timeframe. After further optimization, an operational application would be quite conceivable

    Suivi écologique des prairies semi-naturelles : analyse statistique de séries temporelles denses d'images satellite à haute résolution spatiale

    Get PDF
    ID ProdINRA 415874Grasslands are a significant source of biodiversity in farmed landscapes that is important to monitor. New generation satellites such as Sentinel-2 offer new opportunities for grassland’s monitoring thanks to their combined high spatial and temporal resolutions. Conversely, the new type of data provided by these sensors involves big data and high dimensional issues because of the increasing number of pixels to process and the large number of spectro-temporal variables. This thesis explores the potential of the new generation satellites to monitor biodiversity and factors that influence biodiversity in semi-natural grasslands. Tools suitable for the statistical analysis of grasslands using dense satellite image time series (SITS) with high spatial resolution are provided. First, we show that the spectro-temporal response of grasslands is characterized by its variability within and among the grasslands. Then, for the statistical analysis, grasslands are modeled at the object level to be consistent with ecological models that represent grasslands at the field scale. We propose to model the distribution of pixels in a grassland by a Gaussian distribution. Following this modeling, similarity measures between two Gaussian distributions robust to the high dimension are developed for the classification of grasslands using dense SITS: the High-Dimensional Kullback-Leibler Divergence and the α-Gaussian Mean Kernel. The latter out-performs conventional methods used with Support Vector Machines for the classification of grasslands according to their management practices and to their age. Finally, indicators of grassland biodiversity issued from dense SITS are proposed through spectro-temporal heterogeneity measures derived from the unsupervised clustering of grasslands. Their correlation with the Shannon index is significant but low. The results suggest that the spectro-temporal variations measured from SITS at a spatial resolution of 10 meters covering the period when the practices occur are more related to the intensity of management practices than to the species diversity. Therefore, although the spatial and spectral properties of Sentinel-2 seem limited to assess the species diversity in grasslands directly, this satellite should make possible the continuous monitoring of factors influencing biodiversity in grasslands. In this thesis, we provided methods that account for the heterogeneity within grasslands and enable the use of all the spectral andtemporal information provided by new generation satellites.Les prairies reprĂ©sentent une source importante de biodiversitĂ© dans les paysages agricoles qu’il est important de surveiller. Les satellites de nouvelle gĂ©nĂ©ration tels que Sentinel-2 offrent de nouvelles opportunitĂ©s pour le suivi des prairies grĂące Ă  leurs hautes rĂ©solutions spatiale et temporelle combinĂ©es. Cependant, le nouveau type de donnĂ©es fourni par ces satellites implique des problĂšmes liĂ©s au big data et Ă  la grande dimension des donnĂ©es en raison du nombre croissant de pixels Ă  traiter et du nombre Ă©levĂ© de variables spectro-temporelles. Cette thĂšse explore le potentiel des satellites de nouvelle gĂ©nĂ©ration pour le suivi de la biodiversitĂ© et des facteurs qui influencent la biodiversitĂ© dans les prairies semi-naturelles. Des outils adaptĂ©s Ă  l’analyse statistique des prairies Ă  partir de sĂ©ries temporelles d’images satellites (STIS) denses Ă  haute rĂ©solution spatiale sont proposĂ©s. Tout d’abord, nous montrons que la rĂ©ponse spectro-temporelle des prairies est caractĂ©risĂ©e par sa variabilitĂ© au sein des prairies et parmi les prairies. Puis, pour les analyses statistiques, les prairies sont modĂ©lisĂ©es Ă  l’échelle de l’objet pour ĂȘtre cohĂ©rent avec les modĂšles Ă©cologiques qui reprĂ©sentent les prairies Ă  l’échelle de la parcelle. Nous proposons de modĂ©liser la distribution des pixels dans une prairie par une loi gaussienne. A partir de cette modĂ©lisation, des mesures de similaritĂ© entre deux lois gaussiennes robustes Ă  la grande dimension sont dĂ©veloppĂ©es pour la classification des prairies en utilisant des STIS denses: High-Dimensional Kullback-Leibler Divergence et α-Gaussian Mean Kernel. Cette derniĂšre est plus performante que les mĂ©thodes conventionnelles utilisĂ©es avec les machines Ă  vecteur de support (SVM) pour la classification du mode de gestion et de l’ñge des prairies. Enfin, des indicateurs de biodiversitĂ© des prairies issus de STIS denses sont proposĂ©s Ă  travers des mesures d’hĂ©tĂ©rogĂ©nĂ©itĂ© spectro-temporelle dĂ©rivĂ©es du clustering non supervisĂ© des prairies. Leur corrĂ©lation avec l’indice de Shannon est significative mais faible. Les rĂ©sultats suggĂšrent que les variations spectro-temporelles mesurĂ©es Ă  partir de STIS Ă  10 mĂštres de rĂ©solution spatiale et qui couvrent la pĂ©riode oĂč ont lieu les pratiques agricoles sont plus liĂ©es Ă  l’intensitĂ© des pratiques qu’à la diversitĂ© en espĂšces. Ainsi, bien que les propriĂ©tĂ©s spatiales et temporelles de Sentinel-2 semblent limitĂ©es pour estimer directement la diversitĂ© en espĂšces des prairies, ce satellite devrait permettre le suivi continu des facteurs influençant la biodiversitĂ© dans les prairies. Dans cette thĂšse, nous avons proposĂ© des mĂ©thodes qui prennent en compte l’hĂ©tĂ©rogĂ©nĂ©itĂ© au sein des prairies et qui permettent l’utilisation de toute l’information spectrale et temporelle fournie par les satellites de nouvelle gĂ©nĂ©ration
    corecore