Data-driven decision support for product change management : Making explainable classifications of product change requests at Scania using machine learning methods

Abstract

Decision making is a big part of our day-to-day lives, both personal and professional. A good decision support can provide a decision process with high quality, efficiency and consistency. In recent years, machine learning has shown outstanding capacity for making complex processes understandable and provide decision support. But what good is this decision support if it is not trusted? Our work tries to improve the usage of machine learning models by making their results more understandable and trustworthy. In this thesis, we investigate the decisions in the Product Development (PD) process at Scania. Two important steps in the PD process is to prioritize a Product Change Request (PCR) and decide if it should be realized or not. Our main objective is to build machine learning models that can be incorporated in this process and help with the decision making. In order to choose the most suitable model, different machine learning models are trained on historical data. The model with the best performance is chosen and can be used to make predictions on new PCRs. The model that performed best when deciding the priority of a given PCR was Extreme Gradient Boosting (XGB), which achieved a F1 score of 46.6% and an accuracy of 48.0%. However, we found that the data was not suitable for making classifications regarding the priorities. The model that performed the best when deciding if a PCR should be realized or not was the random forest, which achieved a F1 score of 67.4% and an accuracy of 79.4%. We found that better classifications could be made regarding if a PCR should be realized or not when additional data was added to the model, and we therefore recommend changes to the collection and storage of data. The random forest achieved a F1 score of 73.5% and an accuracy of 83.8% with the additional data from attachments. We also explain and visualize how the random forest makes its classification and how each feature from the PCRs affect the classification. This is important in order to improve the trust in the decision support provided by the model. Att ta beslut är en stor del av våra dagliga liv, både personligt och professionellt. Ett bra beslutsstöd kan skapa en beslutsprocess med hög kvalitet, effektivitet och stabilitet. Under de senaste åren har maskininlärning blivit ett viktigt verktyg för att förstå komplexa processer och skapa beslutsstöd. Men vilken nytta gör detta beslutsstöd om människor inte litar på det? Vårt arbete försöker att hantera detta problem och göra resultaten från maskininlärningsmodeller mer förståeliga och tillförlitliga. I den här rapporten undersöker vi besluten som tas i processen för produktutveckling hos Scania. Två viktiga steg i denna process är att prioritera föreslagna produktförändringar och att bestämma ifall dessa ska genomföras eller inte. Vårt huvudmål är att bygga maskininlärningsmodeller som kan användas i denna process och hjälpa till vid beslutstagandet. För att kunna välja den lämpligaste modellen så tränas olika maskininlärningsmodeller på historiska data. Modellen som presterar bäst väljs och kan användas för att förutsäga besluten för nya föreslagna produktförändringar. Den modell som lyckades bäst med att förutsäga vilken prioritet som en föreslagen produktförändring ska ha var Extreme Gradient Boosting (XGB) som uppnådde ett F1-score på 46,6% och en träffsäkerhet på 48,0%. Vi såg däremot att den data som fanns inte var lämplig för att göra klassificeringar gällande prioriteringen. Den modell som lyckades bäst med att bestämma ifall en föreslagen produktförändring borde genomföras eller inte var random forest, som uppnådde ett F1-score på 67,4% och en träffsäkerhet på 79,4%. Vi visar att bättre klassificeringar kan göras gällande om en föreslagen produktförändring ska genomföras eller inte när mer data läggs till i modellen, och vi kan därmed föreslå förändringar av insamlingen och lagringen av data. Random forest uppnådde ett F1-score på 73,5% och en träffsäkerhet på 83,8% med data insamlat från bilagor. Vi förklarar och visar även hur random forest gör sin klassificering och hur varje faktor från den föreslagna produktförändringen påverkar klassificeringen. Detta är viktigt för att kunna öka förtroendet för det beslutsstöd som modellen ger

    Similar works