Méthodes d'analyse de données et modèles bayésiens appliqués au contexte des inégalités socio-territoriales de santé et des expositions environnementales
The purpose of this thesis is to improve the knowledge about and apply data mining techniques and some Bayesian model in the field of social and environmental health inequalities. On the neighborhood scale on the Paris, Marseille, Lyon and Lille metropolitan areas, the health event studied is infant mortality. We try to explain its risk with socio-economic data retrieved from the national census and environmental exposures such as air pollution, noise, proximity to traffic, green spaces and industries. The thesis is composed of two parts. The data mining part details the development of a procedure of creation of multidimensional socio-economic indices and of an R package that implements it, followed by the creation of a cumulative exposure index. In this part, data mining techniques are used to synthesize information and provide composite indicators amenable for direct usage by stakeholders or in the framework of epidemiological studies. The second part is about Bayesian models. It explains the "BYM" model. This model allows to take into account the spatial dimension of the data when estimating mortality risks. In both cases, the methods are exposed and several results of their usage in the above-mentioned context are presented. We also show the value of the socio-economic index procedure, as well as the existence of social inequalities of infant mortality in the studied metropolitan areas.Cette thèse a pour but d'améliorer les connaissances concernant les techniques d'analyse de données et certains modèles bayésiens dans le domaine de l'étude des inégalités sociales et environnementales de santé. À l'échelle géographique de l'IRIS sur les agglomérations de Paris, Marseille, Lyon et Lille, l'événement sanitaire étudié est la mortalité infantile dont on cherchera à expliquer le risque avec des données socio-économiques issues du recensement et des expositions environnementales comme la pollution de l'air, les niveaux de bruit et la proximité aux industries polluantes, au trafic automobile ou aux espaces verts. Deux volets principaux composent cette thèse. Le volet analyse de données détaille la mise au point d'une procédure de création d'indices socio-économiques multidimensionnels et la conception d'un package R l'implémentant, puis la création d'un indice de multi-expositions environnementales. Pour cela, on utilise des techniques d'analyse de données pour synthétiser l'information et fournir des indicateurs composites utilisables directement par les décideurs publics ou dans le cadre d'études épidémiologiques. Le second volet concerne les modèles bayésiens et explique le modèle " BYM ". Celui-ci permet de prendre en compte les aspects spatiaux des données et est mis en œuvre pour estimer le risque de mortalité infantile. Dans les deux cas, les méthodes sont présentées et différents résultats de leur utilisation dans le contexte ci-dessus exposés. On montre notamment l'intérêt de la procédure de création d'indices socio-économiques et de multi-expositions, ainsi que l'existence d'inégalités sociales de mortalité infantile dans les agglomérations étudiées