Machine learning under concept drift for industrial data using Python

Abstract

Künstliche Intelligenz und Machine Learning sind Begriffe, welche in den letzten Jahren nicht zuletzt aufgrund rasant wachsender Rechnerleistungen immer mehr in den Fokus von Industrie und Forschung gerückt sind. Dabei ist für die Industrie vor allem der Informationsgewinn aus Daten von Interesse. Die Validität der Analyse aus historischen Daten ist jedoch in einer sich immer schneller wandelnden Welt fraglich. Die Vorhersagen von Maschinen aus nicht aktuellen Daten können obsolet sein, weil sich deren Kontext geändert hat. Diese Arbeit befasst sich daher mit dem maschinellen Lernen unter Concept Drift. Die Analyse wird mit zwei realen Datensätzen aus der Industrie, unter Simulation eines verteilten Systems, durchgeführt. Es werden dazu verschiedene Regressoren (Polynomregression, Decision Trees, Random Forests und Neuronale Netze) implementiert und die Vorhersagegenauigkeit untereinander verglichen. Bei den Regressoren werden die Einstellungsparameter sowie die Vorhersage- und Trainingszeit variiert. Das Ergebnis zeigt, dass die polynomialen Regressoren den Random Forests, Regression Trees und neuronalen Netzen in der Vorhersagegenauigkeit und Agilität unterlegen sind. Die Vorhersagegenauigkeit nimmt für alle Regressoren ab, wenn die Vorhersagedauer erhöht wird. Random Forests sind gegenüber Regression Trees weniger ausreißerempfindlich. Es lässt sich aus den Ergebnissen nicht erschlieÿen, dass ein Forest genauere Vorhersagen macht als ein Regression Tree, obwohl der Forest als Ensemble agiert. Machine Learning erfährt in den vergangenen Jahren zurecht vermehrt Beachtung in der Forschung und Industrie. Random Forests sind ein effizientes Instrument zur Erfassung von Daten mit unbekannter Verteilung und zur Schätzung von unbekannten Parametern und somit eine echte Alternative zu klassischen Regressionen und neuronalen Netzen

    Similar works

    Full text

    thumbnail-image

    Available Versions