433 research outputs found

    Finding spectral features for the early identification of biotic stress in plants

    Get PDF
    Early detection of biotic stress in plants is vital for precision crop protection, but hard to achieve. Prediction of plant diseases or weeds at an early stage has significant influence on the extent and effectiveness of crop protection measures. The precise measure depends on specific weeds and plant diseases and their economic thresholds. Weeds and plant diseases at an early stage, however, are difficult to identify. Non-invasive optical sensors with high resolution are promising for early detection of biotic stress. The data of these sensors, e.g. hyperspectral or fluorescence signatures, contain relevant information about the occurrence of pathogens. Shape parameters, derived from bispectral images, have enormous potential for an early identification of weeds in crops. The analysis of this high dimensional data for an identification of weeds and pathogens as early as possible is demanding as the sensor signal is affected by many influencing factors. Nevertheless, advanced methods of machine learning facilitate the interpretation of these signals. Whereas traditional statistics estimate the posterior probability of the class by probability distribution, machine learning methods provide algorithms for optimising prediction accuracy by the discriminant function. Machine learning methods with robust training algorithms play a key role in handling non-linear classification problems. This thesis presents an approach which integrates modern sensor techniques and advanced machine learning methods for an early detection and differentiation of plant diseases and weeds. Support vector machines (SVMs) equipped with non-linear kernels prove as effective and robust classifiers. Furthermore, it is shown that even a presymptomatic identification based on the combination of spectral vegetation indices is realised. Using well-established data analysis methods of this scientific field, this has not achieved so far. Identifying disease specific features from the underlying original high dimensional sensor data selection is conducted. The high dimensionality of data affords a careful selection of relevant and non-redundant features depending on classification problem and feature properties. In the case of fluorescence signatures an extraction of new features is necessary. In this context modelling of signal noise by an analytical description of the spectral signature improves the accuracy of classification substantially. In the case of weed discrimination accuracy is improved by exploiting the hierarchy of weed species. This thesis outlines the potential of SVMs, feature construction and feature selection for precision crop protection. A problem-specific extraction and selection of relevant features, in combination with task-oriented classification methods, is essential for robust identification of pathogens and weeds as early as possible.FrĂŒherkennung von biotischem Pflanzenstress ist fĂŒr den PrĂ€zisionspflanzenschutz wesentlich, aber schwierig zu erreichen. Die Vorhersage von Pflanzenkrankheiten und UnkrĂ€utern in einem frĂŒhen Entwicklungsstadium hat signifikanten Einfluss auf das Ausmaß und die EffektivitĂ€t einer Pflanzenschutzmaßnahme. Aufgrund der AbhĂ€ngigkeit einer Maßnahme von der Art der Pflanzenkrankheit oder des Unkrauts und ihrer ökonomischer Schadschwelle ist eine prĂ€zise Identifizierung der Schadursache essentiell, aber gerade im FrĂŒhstadium durch die Ähnlichkeit der Schadbilder problematisch. Nicht-invasive optische Sensoren mit hoher Auflösung sind vielversprechend fĂŒr eine FrĂŒherkennung von biotischem Pflanzenstress. Daten dieser Sensoren, beispielsweise Hyperspektral- oder Fluoreszenzspektren, enthalten relevante Informationen ĂŒber das Auftreten von Pathogenen; Formparameter, abgeleitet aus bispektralen Bildern, zeigen großes Potential fĂŒr die FrĂŒherkennung von UnkrĂ€utern in Kulturpflanzen. Die Analyse dieser hochdimensionalen Sensordaten unter BerĂŒcksichtigung vielfĂ€ltiger Faktoren ist eine anspruchsvolle Herausforderung. Moderne Methoden des maschinellen Lernens bieten hier zielfĂŒhrende Möglichkeiten. WĂ€hrend die traditionelle Statistik die a-posteriori Wahrscheinlichkeit der Klasse basierend auf Wahrscheinlichkeitsverteilungen schĂ€tzt, verwenden maschinelle Lernverfahren Algorithmen fĂŒr eine Optimierung der Vorhersagegenauigkeit auf Basis diskriminierender Funktionen. Grundlage zur Bearbeitung dieser nicht-linearen Klassi kationsprobleme sind robuste maschinelle Lernverfahren. Die vorliegende Dissertationsschrift zeigt, dass die Integration moderner Sensortechnik mit fortgeschrittenen Methoden des maschinellen Lernens eine Erkennung und Differenzierung von Pflanzenkrankheiten und UnkrĂ€utern ermöglicht. Einen wesentlichen Beitrag fĂŒr eine effektive und robuste Klassifikation leisten Support Vektor Maschinen (SVMs) mit nicht-linearen Kernels. Weiterhin wird gezeigt, dass SVMs auf Basis spektraler Vegetationsindizes die Detektion von Pflanzenkrankheiten noch vor Auftreten visuell wahrnehmbarer Symptome ermöglichen. Dies wurde mit bekannten Verfahren noch nicht erreicht. Zur Identifikation krankheitsspezifischer Merkmale aus den zugrunde liegenden originĂ€ren hochdimensionalen Sensordaten wurden Merkmale konstruiert und selektiert. Die Selektion ist sowohl vom Klassifikationsproblem als auch von den Eigenschaften der Merkmale abhĂ€ngig. Im Fall von Fluoreszenzspektren war eine Extraktion von neuen Merkmalen notwendig. In diesem Zusammenhang trĂ€gt die Modellierung des Signalrauschens durch eine analytische Beschreibung der spektralen Signatur zur deutlichen Verbesserung der Klassifikationsgenauigkeit bei. Im Fall der Differenzierung von unterschiedlichen UnkrĂ€utern erhöht die Ausnutzung der Hierarchie der Unkrautarten die Genauigkeit signifikant. Diese Arbeit zeigt das Potential von Support Vektor Maschinen, Merkmalskonstruktion und Selektion fĂŒr den PrĂ€zisionspflanzenschutz. Eine problemspezifische Extraktion und Selektion relevanter Merkmale in Verbindung mit sachbezogenen Klassifikationsmethoden ermöglichen eine robuste Identifikation von Pathogenen und UnkrĂ€utern zu einem sehr frĂŒhen Zeitpunkt

    Localized Regression

    Get PDF
    The main problem with localized discriminant techniques is the curse of dimensionality, which seems to restrict their use to the case of few variables. This restriction does not hold if localization is combined with a reduction of dimension. In particular it is shown that localization yields powerful classifiers even in higher dimensions if localization is combined with locally adaptive selection of predictors. A robust localized logistic regression (LLR) method is developed for which all tuning parameters are chosen dataÂĄadaptively. In an extended simulation study we evaluate the potential of the proposed procedure for various types of data and compare it to other classification procedures. In addition we demonstrate that automatic choice of localization, predictor selection and penalty parameters based on cross validation is working well. Finally the method is applied to real data sets and its real world performance is compared to alternative procedures

    Data mining of many-attribute data : investigating the interaction between feature selection strategy and statistical features of datasets

    Get PDF
    In many datasets, there is a very large number of attributes (e.g. many thousands). Such datasets can cause many problems for machine learning methods. Various feature selection (FS) strategies have been developed to address these problems. The idea of an FS strategy is to reduce the number of features in a dataset (e.g. from many thousands to a few hundred) so that machine learning and/or statistical analysis can be done much more quickly and effectively. Obviously, FS strategies attempt to select the features that are most important, considering the machine learning task to be done. The work presented in this dissertation concerns the comparison between several popular feature selection strategies, and, in particular, investigation of the interaction between feature selection strategy and simple statistical features of the dataset. The basic hypothesis, not investigated before, is that the correct choice of FS strategy for a particular dataset should be based on a simple (at least) statistical analysis of the dataset. First, we examined the performance of several strategies on a selection of datasets. Strategies examined were: four widely-used FS strategies (Correlation, Relief F, Evolutionary Algorithm, no-feature-selection), several feature bias (FB) strategies (in which the machine learning method considers all features, but makes use of bias values suggested by the FB strategy), and also combinations of FS and FB strategies. The results showed us that FB methods displayed strong capability on some datasets and that combined strategies were also often successful. Examining these results, we noted that patterns of performance were not immediately understandable. This led to the above hypothesis (one of the main contributions of the thesis) that statistical features of the dataset are an important consideration when choosing an FS strategy. We then investigated this hypothesis with several further experiments. Analysis of the results revealed that a simple statistical feature of a dataset, that can be easily pre-calculated, has a clear relationship with the performance Silang Luo PHD-06-2009 Page 2 of certain FS methods, and a similar relationship with differences in performance between certain pairs of FS strategies. In particular, Correlation based FS is a very widely-used FS technique based on the basic hypothesis that good feature sets contain features that are highly correlated with the class, yet uncorrelated with each other. By analysing the outcome of several FS strategies on different artificial datasets, the experiments suggest that CFS is never the best choice for poorly correlated data. Finally, considering several methods, we suggest tentative guidelines for choosing an FS strategy based on simply calculated measures of the dataset

    Information Extraction and Modeling from Remote Sensing Images: Application to the Enhancement of Digital Elevation Models

    Get PDF
    To deal with high complexity data such as remote sensing images presenting metric resolution over large areas, an innovative, fast and robust image processing system is presented. The modeling of increasing level of information is used to extract, represent and link image features to semantic content. The potential of the proposed techniques is demonstrated with an application to enhance and regularize digital elevation models based on information collected from RS images

    Virtual screening of potential bioactive substances using the support vector machine approach

    Get PDF
    Die vorliegende Dissertation stellt eine kumulative Arbeit dar, die in insgesamt acht wissenschaftlichen Publikationen (fĂŒnf publiziert, zwei eingerichtet und eine in Vorbereitung) dargelegt ist. In diesem Forschungsprojekt wurden Anwendungen von maschinellem Lernen fĂŒr das virtuelle Screening von MolekĂŒldatenbanken durchgefĂŒhrt. Das Ziel war primĂ€r die EinfĂŒhrung und ÜberprĂŒfung des Support-Vector-Machine (SVM) Ansatzes fĂŒr das virtuelle Screening nach potentiellen Wirkstoffkandidaten. In der Einleitung der Arbeit ist die Rolle des virtuellen Screenings im Wirkstoffdesign beschrieben. Methoden des virtuellen Screenings können fast in jedem Bereich der gesamten pharmazeutischen Forschung angewendet werden. Maschinelles Lernen kann einen Einsatz finden von der Auswahl der ersten MolekĂŒle, der Optimierung der Leitstrukturen bis hin zur Vorhersage von ADMET (Absorption, Distribution, Metabolism, Toxicity) Eigenschaften. In Abschnitt 4.2 werden möglichen Verfahren dargestellt, die zur Beschreibung von chemischen Strukturen eingesetzt werden können, um diese Strukturen in ein Format zu bringen (Deskriptoren), das man als Eingabe fĂŒr maschinelle Lernverfahren wie Neuronale Netze oder SVM nutzen kann. Der Fokus ist dabei auf diejenigen Verfahren gerichtet, die in der vorliegenden Arbeit verwendet wurden. Die meisten Methoden berechnen Deskriptoren, die nur auf der zweidimensionalen (2D) Struktur basieren. Standard-Beispiele hierfĂŒr sind physikochemische Eigenschaften, Atom- und Bindungsanzahl etc. (Abschnitt 4.2.1). CATS Deskriptoren, ein topologisches Pharmakophorkonzept, sind ebenfalls 2D-basiert (Abschnitt 4.2.2). Ein anderer Typ von Deskriptoren beschreibt Eigenschaften, die aus einem dreidimensionalen (3D) MolekĂŒlmodell abgeleitet werden. Der Erfolg dieser Beschreibung hangt sehr stark davon ab, wie reprĂ€sentativ die 3D-Konformation ist, die fĂŒr die Berechnung des Deskriptors angewendet wurde. Eine weitere Beschreibung, die wir in unserer Arbeit eingesetzt haben, waren Fingerprints. In unserem Fall waren die verwendeten Fingerprints ungeeignet zum Trainieren von Neuronale Netzen, da der Fingerprintvektor zu viele Dimensionen (~ 10 hoch 5) hatte. Im Gegensatz dazu hat das Training von SVM mit Fingerprints funktioniert. SVM hat den Vorteil im Vergleich zu anderen Methoden, dass sie in sehr hochdimensionalen RĂ€umen gut klassifizieren kann. Dieser Zusammenhang zwischen SVM und Fingerprints war eine Neuheit, und wurde von uns erstmalig in die Chemieinformatik eingefĂŒhrt. In Abschnitt 4.3 fokussiere ich mich auf die SVM-Methode. FĂŒr fast alle Klassifikationsaufgaben in dieser Arbeit wurde der SVM-Ansatz verwendet. Ein Schwerpunkt der Dissertation lag auf der SVM-Methode. Wegen PlatzbeschrĂ€nkungen wurde in den beigefĂŒgten Veröffentlichungen auf eine detaillierte Beschreibung der SVM verzichtet. Aus diesem Grund wird in Abschnitt 4.3 eine vollstĂ€ndige EinfĂŒhrung in SVM gegeben. Darin enthalten ist eine vollstĂ€ndige Diskussion der SVM Theorie: optimale HyperflĂ€che, Soft-Margin-HyperflĂ€che, quadratische Programmierung als Technik, um diese optimale HyperflĂ€che zu finden. Abschnitt 4.3 enthĂ€lt auch eine Diskussion von Kernel-Funktionen, welche die genaue Form der optimalen HyperflĂ€che bestimmen. In Abschnitt 4.4 ist eine Einleitung in verschiede Methoden gegeben, die wir fĂŒr die Auswahl von Deskriptoren genutzt haben. In diesem Abschnitt wird der Unterschied zwischen einer „Filter“- und der „Wrapper“-basierten Auswahl von Deskriptoren herausgearbeitet. In Veröffentlichung 3 (Abschnitt 7.3) haben wir die Vorteile und Nachteile von Filter- und Wrapper-basierten Methoden im virtuellen Screening vergleichend dargestellt. Abschnitt 7 besteht aus den Publikationen, die unsere Forschungsergebnisse enthalten. Unsere erste Publikation (Veröffentlichung 1) war ein Übersichtsartikel (Abschnitt 7.1). In diesem Artikel haben wir einen GesamtĂŒberblick der Anwendungen von SVM in der Bio- und Chemieinformatik gegeben. Wir diskutieren Anwendungen von SVM fĂŒr die Gen-Chip-Analyse, die DNASequenzanalyse und die Vorhersage von Proteinstrukturen und Proteininteraktionen. Wir haben auch Beispiele beschrieben, wo SVM fĂŒr die Vorhersage der Lokalisation von Proteinen in der Zelle genutzt wurden. Es wird dabei deutlich, dass SVM im Bereich des virtuellen Screenings noch nicht verbreitet war. Um den Einsatz von SVM als Hauptmethode unserer Forschung zu begrĂŒnden, haben wir in unserer nĂ€chsten Publikation (Veröffentlichung 2) (Abschnitt 7.2) einen detaillierten Vergleich zwischen SVM und verschiedenen neuronalen Netzen, die sich als eine Standardmethode im virtuellen Screening etabliert haben, durchgefĂŒhrt. Verglichen wurde die Trennung von wirstoffartigen und nicht-wirkstoffartigen MolekĂŒlen („Druglikeness“-Vorhersage). Die SVM konnte 82% aller MolekĂŒle richtig klassifizieren. Die Klassifizierung war zudem robuster als mit dreilagigen feedforward-ANN bei der Verwendung verschiedener Anzahlen an Hidden-Neuronen. In diesem Projekt haben wir verschiedene Deskriptoren zur Beschreibung der MolekĂŒle berechnet: Ghose-Crippen Fragmentdeskriptoren [86], physikochemische Eigenschaften [9] und topologische Pharmacophore (CATS) [10]. Die Entwicklung von weiteren Verfahren, die auf dem SVM-Konzept aufbauen, haben wir in den Publikationen in den Abschnitten 7.3 und 7.8 beschrieben. Veröffentlichung 3 stellt die Entwicklung einer neuen SVM-basierten Methode zur Auswahl von relevanten Deskriptoren fĂŒr eine bestimmte AktivitĂ€t dar. Eingesetzt wurden die gleichen Deskriptoren wie in dem oben beschriebenen Projekt. Als charakteristische MolekĂŒlgruppen haben wir verschiedene Untermengen der COBRA Datenbank ausgewĂ€hlt: 195 Thrombin Inhibitoren, 226 Kinase Inhibitoren und 227 Faktor Xa Inhibitoren. Es ist uns gelungen, die Anzahl der Deskriptoren von ursprĂŒnglich 407 auf ungefĂ€hr 50 zu verringern ohne signifikant an Klassifizierungsgenauigkeit zu verlieren. Unsere Methode haben wir mit einer Standardmethode fĂŒr diese Anwendung verglichen, der Kolmogorov-Smirnov Statistik. Die SVM-basierte Methode erwies sich hierbei in jedem betrachteten Fall als besser als die Vergleichsmethoden hinsichtlich der Vorhersagegenauigkeit bei der gleichen Anzahl an Deskriptoren. Eine ausfĂŒhrliche Beschreibung ist in Abschnitt 4.4 gegeben. Dort sind auch verschiedene „Wrapper“ fĂŒr die Deskriptoren-Auswahl beschrieben. Veröffentlichung 8 beschreibt die Anwendung von aktivem Lernen mit SVM. Die Idee des aktiven Lernens liegt in der Auswahl von MolekĂŒlen fĂŒr das Lernverfahren aus dem Bereich an der Grenze der verschiedenen zu unterscheidenden MolekĂŒlklassen. Auf diese Weise kann die lokale Klassifikation verbessert werden. Die folgenden Gruppen von MolekĂŒle wurden genutzt: ACE (Angiotensin converting enzyme), COX2 (Cyclooxygenase 2), CRF (Corticotropin releasing factor) Antagonisten, DPP (Dipeptidylpeptidase) IV, HIV (Human immunodeficiency virus) protease, Nuclear Receptors, NK (Neurokinin receptors), PPAR (peroxisome proliferator-activated receptor), Thrombin, GPCR und Matrix Metalloproteinasen. Aktives Lernen konnte die LeistungsfĂ€higkeit des virtuellen Screenings verbessern, wie sich in dieser retrospektiven Studie zeigte. Es bleibt abzuwarten, ob sich das Verfahren durchsetzen wird, denn trotzt des Gewinns an Vorhersagegenauigkeit ist es aufgrund des mehrfachen SVMTrainings aufwĂ€ndig. Die Publikationen aus den Abschnitten 7.5, 7.6 und 7.7 (Veröffentlichungen 5-7) zeigen praktische Anwendungen unserer SVM-Methoden im Wirkstoffdesign in Kombination mit anderen Verfahren, wie der Ähnlichkeitssuche und neuronalen Netzen zur Eigenschaftsvorhersage. In zwei FĂ€llen haben wir mit dem Verfahren neuartige Liganden fĂŒr COX-2 (cyclooxygenase 2) und dopamine D3/D2 Rezeptoren gefunden. Wir konnten somit klar zeigen, dass SVM-Methoden fĂŒr das virtuelle Screening von Substanzdatensammlungen sinnvoll eingesetzt werden können. Es wurde im Rahmen der Arbeit auch ein schnelles Verfahren zur Erzeugung großer kombinatorischer MolekĂŒlbibliotheken entwickelt, welches auf der SMILES Notation aufbaut. Im frĂŒhen Stadium des Wirstoffdesigns ist es wichtig, eine möglichst „diverse“ Gruppe von MolekĂŒlen zu testen. Es gibt verschiedene etablierte Methoden, die eine solche Untermenge auswĂ€hlen können. Wir haben eine neue Methode entwickelt, die genauer als die bekannte MaxMin-Methode sein sollte. Als erster Schritt wurde die „Probability Density Estimation“ (PDE) fĂŒr die verfĂŒgbaren MolekĂŒle berechnet. [78] DafĂŒr haben wir jedes MolekĂŒl mit Deskriptoren beschrieben und die PDE im N-dimensionalen Deskriptorraum berechnet. Die MolekĂŒle wurde mit dem Metropolis Algorithmus ausgewĂ€hlt. [87] Die Idee liegt darin, wenige MolekĂŒle aus den Bereichen mit hoher Dichte auszuwĂ€hlen und mehr MolekĂŒle aus den Bereichen mit niedriger Dichte. Die erhaltenen Ergebnisse wiesen jedoch auf zwei Nachteile hin. Erstens wurden MolekĂŒle mit unrealistischen Deskriptorwerten ausgewĂ€hlt und zweitens war unser Algorithmus zu langsam. Dieser Aspekt der Arbeit wurde daher nicht weiter verfolgt. In Veröffentlichung 6 (Abschnitt 7.6) haben wir in Zusammenarbeit mit der Molecular-Modeling Gruppe von Aventis-Pharma Deutschland (Frankfurt) einen SVM-basierten ADME Filter zur FrĂŒherkennung von CYP 2C9 Liganden entwickelt. Dieser nichtlineare SVM-Filter erreichte eine signifikant höhere Vorhersagegenauigkeit (q2 = 0.48) als ein auf den gleichen Daten entwickelten PLS-Modell (q2 = 0.34). Es wurden hierbei Dreipunkt-Pharmakophordeskriptoren eingesetzt, die auf einem dreidimensionalen MolekĂŒlmodell aufbauen. Eines der wichtigen Probleme im computerbasierten Wirkstoffdesign ist die Auswahl einer geeigneten Konformation fĂŒr ein MolekĂŒl. Wir haben versucht, SVM auf dieses Problem anzuwenden. Der Trainingdatensatz wurde dazu mit jeweils mehreren Konformationen pro MolekĂŒl angereichert und ein SVM Modell gerechnet. Es wurden anschließend die Konformationen mit den am schlechtesten vorhergesagten IC50 Wert aussortiert. Die verbliebenen gemĂ€ĂŸ dem SVM-Modell bevorzugten Konformationen waren jedoch unrealistisch. Dieses Ergebnis zeigt Grenzen des SVM-Ansatzes auf. Wir glauben jedoch, dass weitere Forschung auf diesem Gebiet zu besseren Ergebnissen fĂŒhren kann

    A Classification Framework for Imbalanced Data

    Get PDF
    As information technology advances, the demands for developing a reliable and highly accurate predictive model from many domains are increasing. Traditional classification algorithms can be limited in their performance on highly imbalanced data sets. In this dissertation, we study two common problems when training data is imbalanced, and propose effective algorithms to solve them. Firstly, we investigate the problem in building a multi-class classification model from imbalanced class distribution. We develop an effective technique to improve the performance of the model by formulating the problem as a multi-class SVM with an objective to maximize G-mean value. A ramp loss function is used to simplify and solve the problem. Experimental results on multiple real-world datasets confirm that our new method can effectively solve the multi-class classification problem when the datasets are highly imbalanced. Secondly, we explore the problem in learning a global classification model from distributed data sources with privacy constraints. In this problem, not only data sources have different class distributions but combining data into one central data is also prohibited. We propose a privacy-preserving framework for building a global SVM from distributed data sources. Our new framework avoid constructing a global kernel matrix by mapping non-linear inputs to a linear feature space and then solve a distributed linear SVM from these virtual points. Our method can solve both imbalance and privacy problems while achieving the same level of accuracy as regular SVM. Finally, we extend our framework to handle high-dimensional data by utilizing Generalized Multiple Kernel Learning to select a sparse combination of features and kernels. This new model produces a smaller set of features, but yields much higher accuracy
    • 

    corecore