13 research outputs found
Big Earth Data and Machine Learning for Sustainable and Resilient Agriculture
Big streams of Earth images from satellites or other platforms (e.g., drones
and mobile phones) are becoming increasingly available at low or no cost and
with enhanced spatial and temporal resolution. This thesis recognizes the
unprecedented opportunities offered by the high quality and open access Earth
observation data of our times and introduces novel machine learning and big
data methods to properly exploit them towards developing applications for
sustainable and resilient agriculture. The thesis addresses three distinct
thematic areas, i.e., the monitoring of the Common Agricultural Policy (CAP),
the monitoring of food security and applications for smart and resilient
agriculture. The methodological innovations of the developments related to the
three thematic areas address the following issues: i) the processing of big
Earth Observation (EO) data, ii) the scarcity of annotated data for machine
learning model training and iii) the gap between machine learning outputs and
actionable advice.
This thesis demonstrated how big data technologies such as data cubes,
distributed learning, linked open data and semantic enrichment can be used to
exploit the data deluge and extract knowledge to address real user needs.
Furthermore, this thesis argues for the importance of semi-supervised and
unsupervised machine learning models that circumvent the ever-present challenge
of scarce annotations and thus allow for model generalization in space and
time. Specifically, it is shown how merely few ground truth data are needed to
generate high quality crop type maps and crop phenology estimations. Finally,
this thesis argues there is considerable distance in value between model
inferences and decision making in real-world scenarios and thereby showcases
the power of causal and interpretable machine learning in bridging this gap.Comment: Phd thesi
Personalizing Sustainable Agriculture with Causal Machine Learning
To fight climate change and accommodate the increasing population, global
crop production has to be strengthened. To achieve the "sustainable
intensification" of agriculture, transforming it from carbon emitter to carbon
sink is a priority, and understanding the environmental impact of agricultural
management practices is a fundamental prerequisite to that. At the same time,
the global agricultural landscape is deeply heterogeneous, with differences in
climate, soil, and land use inducing variations in how agricultural systems
respond to farmer actions. The "personalization" of sustainable agriculture
with the provision of locally adapted management advice is thus a necessary
condition for the efficient uplift of green metrics, and an integral
development in imminent policies. Here, we formulate personalized sustainable
agriculture as a Conditional Average Treatment Effect estimation task and use
Causal Machine Learning for tackling it. Leveraging climate data, land use
information and employing Double Machine Learning, we estimate the
heterogeneous effect of sustainable practices on the field-level Soil Organic
Carbon content in Lithuania. We thus provide a data-driven perspective for
targeting sustainable practices and effectively expanding the global carbon
sink.Comment: Accepted for publication and spotlight presentation at Tackling
Climate Change with Machine Learning: workshop at NeurIPS 202
Cloud gap-filling with deep learning for improved grassland monitoring
Uninterrupted optical image time series are crucial for the timely monitoring
of agricultural land changes. However, the continuity of such time series is
often disrupted by clouds. In response to this challenge, we propose a deep
learning method that integrates cloud-free optical (Sentinel-2) observations
and weather-independent (Sentinel-1) Synthetic Aperture Radar (SAR) data, using
a combined Convolutional Neural Network (CNN)-Recurrent Neural Network (RNN)
architecture to generate continuous Normalized Difference Vegetation Index
(NDVI) time series. We emphasize the significance of observation continuity by
assessing the impact of the generated time series on the detection of grassland
mowing events. We focus on Lithuania, a country characterized by extensive
cloud coverage, and compare our approach with alternative interpolation
techniques (i.e., linear, Akima, quadratic). Our method surpasses these
techniques, with an average MAE of 0.024 and R^2 of 0.92. It not only improves
the accuracy of event detection tasks by employing a continuous time series,
but also effectively filters out sudden shifts and noise originating from
cloudy observations that cloud masks often fail to detect
Evaluating Digital Tools for Sustainable Agriculture using Causal Inference
In contrast to the rapid digitalization of several industries, agriculture
suffers from low adoption of climate-smart farming tools. Even though AI-driven
digital agriculture can offer high-performing predictive functionalities, it
lacks tangible quantitative evidence on its benefits to the farmers. Field
experiments can derive such evidence, but are often costly and time consuming.
To this end, we propose an observational causal inference framework for the
empirical evaluation of the impact of digital tools on target farm performance
indicators. This way, we can increase farmers' trust by enhancing the
transparency of the digital agriculture market, and in turn accelerate the
adoption of technologies that aim to increase productivity and secure a
sustainable and resilient agriculture against a changing climate. As a case
study, we perform an empirical evaluation of a recommendation system for
optimal cotton sowing, which was used by a farmers' cooperative during the
growing season of 2021. We leverage agricultural knowledge to develop a causal
graph of the farm system, we use the back-door criterion to identify the impact
of recommendations on the yield and subsequently estimate it using several
methods on observational data. The results show that a field sown according to
our recommendations enjoyed a significant increase in yield (12% to 17%).Comment: Accepted for publication and spotlight presentation at Tackling
Climate Change with Machine Learning: workshop at NeurIPS 202
Causality and Explainability for Trustworthy Integrated Pest Management
Pesticides serve as a common tool in agricultural pest control but
significantly contribute to the climate crisis. To combat this, Integrated Pest
Management (IPM) stands as a climate-smart alternative. Despite its potential,
IPM faces low adoption rates due to farmers' skepticism about its
effectiveness. To address this challenge, we introduce an advanced data
analysis framework tailored to enhance IPM adoption. Our framework provides i)
robust pest population predictions across diverse environments with invariant
and causal learning, ii) interpretable pest presence predictions using
transparent models, iii) actionable advice through counterfactual explanations
for in-season IPM interventions, iv) field-specific treatment effect
estimations, and v) assessments of the effectiveness of our advice using causal
inference. By incorporating these features, our framework aims to alleviate
skepticism and encourage wider adoption of IPM practices among farmers.Comment: Accepted at NeurIPS 2023 Workshop on Tackling Climate Change with
Machine Learning: Blending New and Existing Knowledge System
Scalable Parcel-Based Crop Identification Scheme Using Sentinel-2 Data Time-Series for the Monitoring of the Common Agricultural Policy
This work investigates a Sentinel-2 based crop identification methodology for the monitoring of the Common Agricultural Policy’s (CAP) Cross Compliance (CC) and Greening obligations. In this regard, we implemented and evaluated a parcel-based supervised classification scheme to produce accurate crop type mapping in a smallholder agricultural zone in Navarra, Spain. The scheme makes use of supervised classifiers Support Vector Machines (SVMs) and Random Forest (RF) to discriminate among the various crop types, based on a large variable space of Sentinel-2 imagery and Vegetation Index (VI) time-series. The classifiers are separately applied at three different levels of crop nomenclature hierarchy, comparing their performance with respect to accuracy and execution time. SVM provides optimal performance and proves significantly superior to RF for the lowest level of the nomenclature, resulting in 0.87 Cohen’s kappa coefficient. Experiments were carried out to assess the importance of input variables, where top contributors are the Near Infrared (NIR), vegetation red-edge, and Short-Wave Infrared (SWIR) multispectral bands, and the Normalized Difference Vegetation (NDVI) and Plant Senescence Reflectance (PSRI) indices, sensed during advanced crop phenology stages. The scheme is finally applied to a Lansat-8 OLI based equivalent variable space, offering 0.70 Cohen’s kappa coefficient for the SVM classification, highlighting the superior performance of Sentinel-2 for this type of application. This is credited to Sentinel-2’s spatial, spectral, and temporal characteristics
Αξιοποίηση μεθόδων μηχανικής μάθησης και μεγάλων δεδομένων παρατήρησης της Γης για την προώθηση βιώσιμης και ανθεκτικής γεωργίας
More than a tenth of the global population does not have access to sufficient quantities of affordable, nutritious food. At the same time, the food demand is expected to increase between 35-56\% over the period 2010-2050, which will require the intensification of agriculture. On the other hand, climate change calls for the employment of agricultural practices that will secure resilience and sustainability. There is, therefore, an urgent need for producing more, while changing our methods to account for future changes. In this regard, the large scale and frequent monitoring of agricultural land can provide significant insights for timely decision making based on evidence. Big streams of Earth images from satellites or other platforms (e.g., drones and mobile phones) are becoming increasingly available at low or no cost and with enhanced spatial and temporal resolution. This thesis recognizes the unprecedented opportunities offered by the high quality and open access Earth observation data of our times and introduces novel machine learning and big data methods to properly exploit them towards developing applications for sustainable and resilient agriculture. The thesis addresses three distinct thematic areas, i.e., the monitoring of the Common Agricultural Policy (CAP), the monitoring of food security and applications for smart and resilient agriculture. The methodological innovations of the developments related to the three thematic areas address the following issues: i) the processing of big Earth Observation (EO) data, ii) the scarcity of annotated data for machine learning model training and iii) the gap between machine learning outputs and actionable advice.The first contribution of this thesis is the Agriculture Monitoring Data Cube (ADC) that offers an automated, modular, end-to-end, cloud-based framework for handling big satellite data (Sentinel-1 and Sentinel-2) based on the Open Data Cube (ODC). ADC provides a set of powerful tools on top of the cube, including i) the generation of analysis-ready feature spaces of big satellite data to feed downstream machine learning tasks and ii) the support of Satellite Image Time-Series (SITS) analysis via services pertinent to the monitoring of the CAP, e.g., detecting trends and events, monitoring the growth status and more. The second contribution of this thesis is a scalable and transferable machine learning method for multi-crop classification. The method uses the farmers’ declarations, as part of their subsidy applications in the CAP, in order to train the crop classification model. The method is extended by applying semantic enrichment on the crop type maps, increasing the value of knowledge extracted towards making decisions in operational scenarios of the paying agencies of the CAP. Specifically, a smart sampling method was developed to select parcels of potential wrong declaration (i.e., the farmers do not cultivate what they declared). This method provides actionable advice to the inspectors of the CAP paying agencies, early in the year, according to their operating model requirements. Freely available satellite data, such as Sentinel-1 and Sentinel-2 data, used in the methods described above, cannot always provide confident crop type predictions in areas characterized by extended cloud coverage and/or small farm sizes. For this reason, ancillary sources of EO data are required. Towards this direction the space-to-ground paradigm is introduced, bringing together street-level and satellite images in an analysis-ready dataset, encouraging the community to experiment with fusion machine learning techniques for enhanced crop classification results. In this spirit, a preliminary late fusion approach was developed, where street-level image crop classification results were combined with the satellite based crop type maps. Another crop classification method is developed to classify paddy rice in South Korea. In this case, the focus is on weakly supervised learning as for South Korea there are not any available annotations. A pseudo-labeling approach is introduced using merely a confined number of labels that come from a small part of the country. Then the pseudo-labels are used to train a paddy rice classification model that generalizes to the entire country of South Korea. The nationwide classification required the processing of TBs of Sentinel images that would have been impossible in conventional machines. For this reason, a distributed implementation of the model was deployed using SPARK in a High Performance Data Analytics (HPDA) environment. Finally, this thesis introduces two methods for phenology estimation in cotton fields. This is important work towards timely farm interventions that will secure the quality and volume of the yield and even increase it. Phenology ground observations are scarce in time and space, for this reason both methods focus on utilizing only few labels. In the first method, a semi-supervised approach is developed that uses a handful of labels to generate thousands of pseudo-labels that in turn train multiple supervised crop phenology classification models. The second method takes it a step further and develops a fuzzy clustering approach that not only estimates phenology in an unsupervised way but additionally predicts the transitional states between phenological stages using the membership score of fuzzy c-means. The aforementioned contributions refer to detection methods, e.g., crop classification, phenology estimation. Although this work is important and addresses big data and machine learning issues associated with the large-scale and timely monitoring of agricultural land, there is still work to be done to reach actionable advice for the policy maker and the farmer. In this regard, causal and interpretable machine learning have been identified as key enablers to bridge this gap. Two methods have been developed to showcase preliminary results towards this direction. The first method uses interpretable machine learning to estimate the onset of pest harmfulness in cotton fields. The interpretability of the model allows for i) the rapid adoption of the application by the farmer and ii) the combination of the data-driven predictions with the empirical knowledge of the farmer, thus potentially increasing the value of the model outputs. The second method uses causal machine learning to assess agricultural land suitability for applying specific cultivation practices. In more detail, the heterogeneous impact of crop rotation and landscape crop diversity on Net Primary Productivity (NPP) was estimated, accounting for historical crop and environmental data. The results showed that the effect of crop rotation was insignificant, while landscape crop diversity had a small negative effect on NPP. Finally, considerable effect heterogeneity in space was observed for both practices. All in all, this thesis showed that big EO data are a powerful tool for the large-scale and timely monitoring of agricultural land towards food security and climate resilience. In this context, it was demonstrated how big data technologies such as data cubes, distributed learning, linked open data and semantic enrichment can be used to exploit the data deluge and extract knowledge to address real user needs. Furthermore, this thesis argues for the importance of semi-supervised and unsupervised machine learning models that circumvent the ever-present challenge of scarce annotations and thus allow for model generalization in space and time. Specifically, it is shown how merely few ground truth data are needed to generate high quality crop type maps and crop phenology estimations. Finally, this thesis argues there is considerable distance in value between model inferences and decision making in real-world scenarios and thereby showcases the power of causal and interpretable machine learning in bridging this gap.Οι απαιτήσεις για σίτιση θα αυξηθούν 35-56% κατά την περίοδο 2010-2050 και ήδη 10% του παγκόσμιου πληθυσμού δεν έχει πρόσβαση σε επαρκή τροφή. Ενώ η αύξηση της ζήτησης για τροφή απαιτεί την εντατικοποίηση της γεωργίας, η κλιματική αλλαγή απαιτεί την εφαρμογή καλλιεργητικών πρακτικών που θα εξασφαλίσουν την ανθεκτικότητα και τη βιωσιμότητα της. Ως εκ τούτου υπάρχει άμεση ανάγκη για μεγαλύτερη παραγωγή, αλλάζοντας παράλληλα τις μεθόδους μας, συνυπολογίζοντας μελλοντικές αλλαγές. Υπό αυτό το πρίσμα, η μεγάλης κλίμακας και τακτική παρακολούθηση της γεωργικής γης δύναται να προσφέρει σημαντικές πληροφορίες για την έγκαιρη λήψη αποφάσεων βάσει στοιχείων.Μεγάλες ροές από εικόνες παρατήρησης της Γης είτε από δορυφόρους είτε από άλλες πλατφόρμες (για παράδειγμα drones και κινητά τηλέφωνα) γίνονται ολοένα και περισσότερο διαθέσιμες με χαμηλό ή και μηδενικό κόστος και σε καλύτερη χωρική και χρονική ανάλυση. Η παρούσα διατριβή αναγνωρίζει τις άνευ προηγουμένου ευκαιρίες που προσφέρουν τα υψηλής ανάλυσης και ανοικτής πρόσβασης δεδομένα παρατήρησης της Γης της εποχής μας και υλοποιεί νέες μεθόδους μηχανικής μάθησης και επεξεργασίας μεγάλων δεδομένων για την κατάλληλη αξιοποίησή τους με σκοπό τη ανάπτυξη εφαρμογών για βιώσιμη και ανθεκτική γεωργία. Η διατριβή πραγματεύεται τρεις διακριτούς θεματι κούς τομείς, δηλαδή την παρακολούθηση της Κοινής Αγροτικής Πολιτικής (ΚΑΠ), την παρακολούθηση της επισιτιστικής ασφάλειας και τις εφαρμογές ευφυούς γεωργίας. Οι μεθοδολογικές καινοτομίες, της παρούσας διατριβής, που σχετίζονται με τις τρεις θεματικές περιοχές αντιμετωπίζουν τα ακόλουθα ζητήματα: ι) την επεξεργασία μεγάλων δεδομένων παρατήρησης της Γης, ιι) την έλλειψη επισημειωμένων δεδομένων για εκπαίδευση μοντέλων μηχανικής μάθησης και ιιι) το χάσμα μεταξύ των αποτελεσμάτων της μηχανικής μάθησης και των πρακτικών συμβουλών. Η πρώτη συνεισφορά της διατριβής αυτής είναι ο κύβος δεδομένων (data cube) για την παρακολούθησης γεωργίας (ADC), ο οποίος προσφέρει ένα πλήρως αυτοματοποιημένο πλαίσιο για την διαχείριση των μεγάλων δορυφορικών δεδομένων (Sentinel-1, Sentinel-2), βασισμένο στο Open Data Cube (ODC) . Ο ADC παρέχει ένα σύνολο ισχυρών εργαλείων που επιτρέπουν α) την δημιουργία χώρων χαρακτηριστικών μεγάλων δορυφορικών δεδομένων για την τροφοδοσία μοντέλων μηχανικής μάθησης και β) την υποστήριξη της ανάλυσης χρονοσειρών δορυφορικών εικόνων μέσω υπηρεσιών που σχετίζονται με την παρακολούθηση της ΚΑΠ (π.χ. ανίχνευση τάσεων και γεγονότων, παρακολούθηση της ανάπτυξης κτλ). Η δεύτερη συνεισφορά της διατριβής είναι μια επεκτάσιμη και μεταφέρσιμη μέθοδος μηχανικής μάθησης για την ταξινόμηση πολλαπλών καλλιεργειών. Η μέθοδος αυτή κάνει χρήση των δηλώσεων των αγροτών, ως μέρος των αιτήσεων επιδότησης για την ΚΑΠ, προκειμένου να εκπαιδεύσει τα μοντέλα. Η μέθοδος επεκτείνεται με τον σημασιολογικό εμπλουτισμό στους χάρτες καλλιεργειών στοχεύοντας στην ενίσχυση της εξαγόμενης γνώσης και τη λήψη αποφάσεων σε επιχειρησιακά σενάρια των οργανισμών πληρωμών της ΚΑΠ. Συγκεκριμένα, αναπτύχθηκε μια έξυπνη μέθοδος δειγματοληψίας ώστε να επιλέγονται πιθανώς λανθασμένες δηλώσεις (δηλαδή οι παραγωγοί δεν καλλιεργούν αυτό που δηλώνουν). Αυτή η μέθοδος παρέχει πρακτικές συμβουλές στους επιθεωρητές των οργανισμών πληρωμών της ΚΑΠ νωρίς μέσα στο έτος βάσει των απαιτήσεων των επιχειρησιακών διαδικασιών. Τα ελεύθερα διαθέσιμα δορυφορικά δεδομένα, όπως αυτά από τους δορυφόρους Sentinel που χρησιμοποιήθηκαν στις μεθόδους που περιγράφηκαν παραπάνω, δεν μπορούν να εγγυηθούν έγκυρες αποφάσεις σε περιοχές με υψηλή νεφοκάλυψη ή/και σε αγροτεμάχια με μικρό μέγεθος. Συνεπώς χρειαζόμαστε συμπληρωματικές πηγές δεδομένων παρατήρησης της Γης. Σε αυτή την κατεύθυνση αναπτύχθηκε ένα ανοιχτό σύνολο δεδομένων που συνδυάζει δορυφορικές εικόνες και street-level εικόνες, επιτρέποντας στην κοινότητα να πειραματιστεί με μοντέλα μηχανικής μάθησης για να ενισχύσει τα αποτελέσματα ταξινόμησης καλλιεργειών που χρησιμοποιούν μόνο δορυφορικές εικόνες. Σε αυτό το πνεύμα, αναπτύχθηκε μια προκαταρκτική προσέγγιση συνδυασμού των δορυφορικών και street-level εικόνων.Επίσης αναπτύχθηκε μέθοδος ταξινόμησης των ορυζώνων στη Νότια Κορέα. Στην περίπτωση αυτή, εστιάσαμε στην μερικώς επιβλεπόμενη μάθηση, καθώς για τη Νότια Κορέα δεν υπάρχουν διαθέσιμα επισημειωμένα δεδομένα, όπως στην περίπτωση της ΚΑΠ. ΄Ετσι, αναπτύχθηκε μία ημι-επιβλεπόμενη προσέγγιση που χρησιμοποιεί περιορισμένο αριθμό επισημειωμένων δεδομένων από ένα μικρό μόνο τμήμα της χώρας για να δημιουργήσει ψευδείς επισημειώσεις (προβλέψεις μοντέλου ομαδοποίησης) για την εκπαίδευση ενός μοντέλου επιβλεπόμενης ταξινόμησης ρυζιού που γενικεύεται σε ολόκληρη τη χώρα της Νότιας Κορέας. Η εθνικής κλίμακας ταξινόμηση απαιτούσε την επεξεργασία TB δεδομένων από εικόνες Sentinel που ήταν αδύνατη σε συμβατικά μηχανήματα. Ως εκ τούτου, εφαρμόστηκε μια κατανεμημένη υλοποίηση του μοντέλου (σε SPARK) σε περιβάλλον ανάλυσης δεδομένων υψηλής απόδοσης (HPDA). Τέλος, η παρούσα διατριβή παρουσιάζει δύο νέες μεθόδους για την εκτίμηση της φαινολογίας σε καλλιέργειες βαμβακιού. Η δουλειά αυτή καθίσταται σημαντική για την έγκαιρη επέμβασης στο χωράφι που θα διασφαλίσει την ποιότητα και τον όγκο της παραγωγής. Οι επίγειες παρατηρήσεις της φαινολογίας είναι ελλιπείς στο χρόνο και στον χώρο και για το λόγο αυτό και οι δύο μέθοδοι επικεντρώνονται στη χρήση μόνο λίγων επισημειωμένων δεδομένων. Στην πρώτη μέθοδο, αναπτύχθηκε ένα μοντέλο το οποίο χρησιμοποιεί ελάχιστα επισημειωμένα δεδομένα απο μία μόνο περιοχή για να δημιουργήσει χιλιάδες ψευδείς επισημειώσεις (προβλέψεις του μοντέλου στην γύρω περιοχή) που χρησιμοποιούνται για να εκπαιδεύσουν επιβλεπόμενα μοντέλα ταξινόμησης που μπορούν να γενικεύσουν στον χώρο. Η δεύτερη μέθοδος αναπτύσσει μια προσέγγιση ασαφούς ομαδοποίησης που όχι μόνο εκτιμά τη φαινολογία με μη επιβλεπόμενο τρόπο αλλά προβλέπει επιπλέον τις μεταβατικές καταστάσεις μεταξύ φαινολογικών σταδίων χρησιμοποιώντας τη πιθανότητα μιας οντότητας να ανήκει σε μια συγκεκριμένη ομάδα, όπως αυτή υπολογίζεται από τοναλγόριθμο fuzzy c-means.Οι προαναφερθείσες συνεισφορές αναφέρονται σε μεθόδους ανίχνευσης/εντοπισμού, π.χ. ταξινόμηση καλλιεργειών και εκτίμηση φαινολογίας. Παρόλο που η εργασία αυτή είναι σημαντική και δίνει απαντήσεις σε ζητήματα διαχείρισης μεγάλων δεδομένων και μηχανικής μάθησης σχετιζόμενα με την μεγάλης κλίμακας και έγκαιρη παρακολούθηση της γεωργικής γης, υπάρχει χώρος βελτίωσης ώστε να φτάσουμε σε πρακτικές και χρήσι-μες συμβουλές τόσο για τον υπεύθυνο χάραξης πολιτικής όσο και για τον αγρότη. Από αυτή την άποψη, η αιτιώδης και η ερμηνεύσιμη μηχανική μάθηση (causal, intepretable machine learning) έχουν αναγνωριστεί ως κατάλληλες μέθοδοι για τη γεφύρωση αυτού του χάσματος. Προς αυτή την κατεύθυνση αναπτύχθηκαν δύο μεθοδολογίες για την επίδειξη προκαταρκτικών αποτελεσμάτων. Η πρώτη χρησιμοποιεί ερμηνεύσιμη μηχανική μάθησηστοχεύοντας στην εκτίμηση της έναρξης της βλαβερότητας του πράσινου σκουληκιού στο βαμβάκι. Η ερμηνεία του μοντέλου επιτρέπει την ταχεία δράση από τους αγρότες, καθώς εμπιστεύονται την εκτίμηση. Επίσης μπορούν να συνδυάσουν τα αποτελέσματα με την εμπειρική τους γνώση. Η δεύτερη μέθοδος χρησιμοποιεί αιτιώδη μηχανική μάθηση για να αξιολογήσει την καταλληλόλητα της γεωργικής γης για την εφαρμογή συγκεκριμένων καλλιεργητικών πρακτικών. Πιο συγκεκριμένα αξιολογείται ο αντίκτυπος της εναλλαγής των καλλιεργειών και της χωρικής διαφοροποίησης των καλλιεργειών στην ρύθμιση του κλίματος. Τα αποτελέσματα έδειξαν πως ο αντίκτυπος της εναλλαγής των καλλιεργειών δεν ήταν σημαντικός αλλά η χωρική διαφοροποίηση των καλλιεργειών είχε μία μικρή αρνητική επίδραση στην ρύθμιση του κλίματος.Αυτή η διατριβή έδειξε ότι τα μεγάλα τηλεπισκοπικά δεδομένα είναι ένα ισχυρό εργαλείο για την έγκαιρη και μεγάλης κλίμακας παρακολούθηση της γεωργικής γης. Συγκεκριμένα, η παρούσα εργασία επέδειξε πως τεχνολογίες επεξεργασίας μεγάλων δεδομένων, όπως κύβοι δεδομένων, κατανεμημένη μάθηση, συνδεδεμένα ανοιχτά δεδομένα και σημασιολογικός εμπλουτισμός, μπορούν να χρησιμοποιηθούν για να εξάγουν την απαραίτητη γνώση από μεγάλα δορυφορικά δεδομένα και να λύσουν πραγματικές ανάγκες χρηστών. Επιπροσθέτως, η διατριβή υποστηρίζει την σημασία των μοντέλων ημι επιβλεπόμενης και μη επιβλεπόμενης μάθησης που ξεπερνούν το πανταχού παρόν πρόβλημα της έλλειψης επισημειωμένων δεδομένων. Επιδείχτηκε πως με ελάχιστα ή και χωρίς επισημειωμένα δεδομένα μπορούν να παραχθούν χάρτες καλλιεργειών και εκτιμήσεις φαινολογίας υψηλής ποιότητας. Τέλος, η διατριβή εντοπίζει πως υπάρχει απόσταση μεταξύ των αποτελεσμάτων των μοντέλων μηχανικής μάθησης και την λήψη αποφάσεων βάσει αυτών σε επιχειρησιακά σενάρια. Σε αυτή την κατεύθυνση, επιδεικνύεται η ισχύς της αιτιώδους και ερμηνεύσιμης μηχανικής μάθησης στην γεφύρωση του χάσματος μεταξύ εκτίμησης και πρακτικής συμβουλής
Assessing the Added Value of Sentinel-1 PolSAR Data for Crop Classification
Crop classification is an important remote sensing task with many applications, e.g., food security monitoring, ecosystem service mapping, climate change impact assessment, etc. This work focuses on mapping 10 crop types at the field level in an agricultural region located in the Spanish province of Navarre. For this, multi-temporal Synthetic Aperture Radar Polarimetric (PolSAR) Sentinel-1 imagery and multi-spectral Sentinel-2 data were jointly used. We applied the Cloude–Pottier polarimetric decomposition on PolSAR data to compute 23 polarimetric indicators and extracted vegetation indices from Sentinel-2 time-series to generate a big feature space of 818 features. In order to assess the relevance of the different features for the crop mapping task, we run a number of scenarios using a Support Vector Machines (SVM) classifier. The model that was trained using only the polarimetric data demonstrates a very promising performance, achieving an overall accuracy over 82%. A genetic algorithm was also implemented as a feature selection method for deriving an optimal feature subset. To showcase the positive effect of using polarimetric data over areas suffering from cloud coverage, we contaminated the original Sentinel-2 time-series with simulated cloud masks. By incorporating the genetic algorithm, we derived a high informative feature subset of 120 optical and polarimetric features, as the corresponding classification model increased the overall accuracy by 5% compared to the model trained only with Sentinel-2 features. The feature importance analysis indicated that apart from the Sentinel-2 spectral bands and vegetation indices, several polarimetric parameters, such as Shannon entropy, second eigenvalue and normalised Shannon entropy are of high value in identifying crops. In summary, the findings of our study highlight the significant contribution of Sentinel-1 PolSAR data in crop classification in areas with frequent cloud coverage and the effectiveness of the genetic algorithm in discovering the most informative features
Fuzzy clustering for the within-season estimation of cotton phenology.
Crop phenology is crucial information for crop yield estimation and agricultural management. Traditionally, phenology has been observed from the ground; however Earth observation, weather and soil data have been used to capture the physiological growth of crops. In this work, we propose a new approach for the within-season phenology estimation for cotton at the field level. For this, we exploit a variety of Earth observation vegetation indices (derived from Sentinel-2) and numerical simulations of atmospheric and soil parameters. Our method is unsupervised to address the ever-present problem of sparse and scarce ground truth data that makes most supervised alternatives impractical in real-world scenarios. We applied fuzzy c-means clustering to identify the principal phenological stages of cotton and then used the cluster membership weights to further predict the transitional phases between adjacent stages. In order to evaluate our models, we collected 1,285 crop growth ground observations in Orchomenos, Greece. We introduced a new collection protocol, assigning up to two phenology labels that represent the primary and secondary growth stage in the field and thus indicate when stages are transitioning. Our model was tested against a baseline model that allowed to isolate the random agreement and evaluate its true competence. The results showed that our model considerably outperforms the baseline one, which is promising considering the unsupervised nature of the approach. The limitations and the relevant future work are thoroughly discussed. The ground observations are formatted in an ready-to-use dataset and will be available at https://github.com/Agri-Hub/cotton-phenology-dataset upon publication