This dissertation aims at improving uncertainty assessment for hydrosystem models subject to uncertainty in model structure, parameters, and forcing terms. In order to explicitly account for conceptual uncertainty (the uncertainty in model choice), Bayesian model averaging (BMA) is used as an integrated modeling framework. BMA is a formal statistical approach that rests on Bayesian probability theory. Weights are assigned to a set of alternative conceptual models based on their individual goodness-of-fit against observed data and the principle of parsimony. With these weights, model ranking, model selection or model averaging can be performed. The conceptual uncertainty within the set of considered models can be quantified as so-called between-model variance. A major obstacle to the wide-spread use of BMA lies in the computational challenge to evaluate BMA weights accurately and efficiently. The first part of this dissertation addresses this challenge by assessing and comparing different methods to evaluate the BMA equations, considering both mathematical approximations and numerical schemes (Schöniger et al., 2014). Results of two synthetic test cases and of a hydrological case study show that the choice of evaluation method substantially influences the accuracy of the obtained weights and, consequently, the final model ranking and model-averaged results. If correctly evaluated, BMA weights point the modeler to an optimal trade-off between model performance and complexity. To determine which level of complexity can be justified by the available calibration data, the complexity component of the Bayesian trade-off is isolated from its performance counterpart in the second part of this dissertation. This model justifiability analysis (Schöniger et al., 2015a) is demonstrated on model selection between groundwater models of vastly different complexity. The third part of this dissertation addresses the question of whether model weights are reliable under uncertain model input or calibration data. The proposed sensitivity analysis allows to assess the related confidence in model ranking (Schöniger et al., 2015b). The impact of noisy calibration data on model ranking is investigated in an application to soil-plant model selection. Results show that model weights can be highly sensitive to the outcome of random measurement errors, which compromises the significance of model ranking. The findings from this dissertation also have important implications for the population and extension of the model set, for further model improvement, and for optimal design of experiments toward maximum confidence in model ranking. Overall, new statistical tools for model evaluation and uncertainty assessment are proposed, which are expected to be useful for a broad range of applications both in science and in practice.Diese Dissertation hat zum Ziel, die Quantifizierung von Unsicherheiten bei der Modellierung von Hydrosystemen mit unsicherer Modellstruktur, unsicheren Parametern und unsicheren Eingangsdaten zu verbessern. Um explizit auch die Unsicherheit in der Modellwahl berücksichtigen zu können, wird Bayessche Modellmittelung (BMA) zur integralen Modellierung verwendet. BMA ist ein formaler statistischer Ansatz, der auf der Bayesschen Wahrscheinlichkeitstheorie beruht. Für ein Ensemble von alternativen Modellen werden Gewichte anhand der individuellen Kalibrierungsgüte und des Parsimonie-Prinzips bestimmt. Mit diesen Gewichten kann Modellranking, Modellwahl und Modellmittelung betrieben werden. Die konzeptionelle Unsicherheit innerhalb des Modellensembles kann als “zwischen-Modell-Varianz” quantifiziert werden. Ein großes Hindernis, das der weitverbreiteten Anwendung von BMA zur integrierten Modellierung und Unsicherheitsabschätzung im Wege steht, liegt in der technischen Herausforderung, BMA-Gewichte exakt und effizient zu bestimmen. Der erste Teil dieser Arbeit geht diese Herausforderung an mit einem Vergleich von verschiedenen Methoden zur Auswertung der BMA-Gleichungen unter Berücksichtigung sowohl mathematischer Annäherungen als auch numerischer Verfahren (Schöniger et al., 2014). Die Ergebnisse zweier synthetischer Fallstudien und eines hydrologischen Anwendungsfalls zeigen, dass die Wahl des Auswerteverfahrens die Genauigkeit der ermittelten Gewichte wesentlich beeinflusst und damit auch das daraus folgende Modellranking und die modellgemittelten Ergebnisse. Sofern korrekt berechnet, zeigen die BMA-Gewichte einen optimalen Kompromiss zwischen Modellgüte und Komplexität auf. Um herauszufinden, welcher Komplexitätsgrad durch den vorhandenen Kalibrierungsdatensatz gerechtfertigt werden kann, wird im zweiten Teil der Arbeit die Komplexitätskomponente des Bayesschen Kompromisses von der Gütekomponente getrennt. Diese Modellrechtfertigungsanalyse (Schöniger et al., 2015a) wird anhand der Modellwahl zwischen sehr unterschiedlich komplexen Grundwassermodellen demonstriert. Der dritteTeil der Arbeit befasst sich mit der Frage, ob die Modellgewichte unter unsicheren Modelleingangs- oder Kalibrierungsdaten zuverlässig sind. Die vorgeschlagene Sensitivitätsanalyse dient dazu, das zulässige Vertrauen in das resultierende Modellranking richtig einzuschätzen (Schöniger et al., 2015b). Die Auswirkungen von verrauschten Kalibrierungsdaten auf das Modellranking werden anhand eines Fallbeispiels zur Boden-Pflanzen-Modellwahl untersucht. Die Ergebnisse zeigen, dass Modellgewichte sehr empfindlich auf den zufälligen Messfehler reagieren können, was die Aussagekraft des Modellrankings beeinträchtigt. Die Erkenntnisse aus dieser Dissertation haben außerdem Bedeutung für die Auswahl und Erweiterung des Modellensembles, für die Modellweiterentwicklung und für die optimale Datenerhebung im Sinne eines maximal zuverlässigen Modellrankings. Insgesamt werden neue statistische Instrumente zur Modellbewertung und Unsicherheitsanalyse vorgeschlagen, die für ein breites Anwendungsspektrum sowohl in der Wissenschaft als auch in der Praxis nützlich sein werden