thesis

Validación y medida de rendimiento de modelos bayesianos para interpretación forense

Abstract

En este trabajo se propone una técnica para medir la robustez de un modelo probabilístico de interpretación forense. El proceso forense consiste en la comparación de muestras de origen desconocido con otras de origen conocido con el fin de ayudar a un juez a tomar una decisión en un juicio tras obtener el valor incriminatorio de dicha comparación. Para poder ofrecer un apoyo eficaz, el perito forense se basará en las evidencias y utilizará modelos para obtener ratios de verosimilitudes. Sin embargo, para no caer en grandes errores, puesto que no tenemos todo el conjunto de datos posible, solo una muestra de la población, es necesario estudiar el rendimiento de estos modelos y lo robustos que son al variar la cantidad y calidad de los datos. Para la realización de este proyecto se ha utilizado una base de datos de 62 vidrios con 11346 comparaciones entre ellos, de los cuales solo 3782 serán entre muestras de igual fuente y el resto entre muestras de diferentes fuentes. A partir de esta base de datos y de medidas que muestran el rendimiento, como las curvas de entropía cruzada empírica (ECE), se propone el uso de intervalos de confianza para medir la robustez. Para obtener esos intervalos se han propuesto dos técnicas diferentes: Bootstrap y Subset Bootstrap, con una diferencia fundamental: mientras que la primera solo se puede utilizar con datos independientes entre sí, en el Subset Bootsrap, se pueden tener grupos de datos dependientes unos de otros, de manera que, dentro de cada grupo habrá datos dependientes entre sí e independientes con el resto de datos de otros grupos. Así, variando la cantidad de datos de las muestras que se utilizan en estas técnicas se obtendrán los intervalos de confianza. En concreto, con la base de datos que se ha utilizado en nuestros experimentos, puesto que se trata de datos que son dependientes entre sí, la técnica ideal será el Subset Bootstrap. Con Bootstrap se obtendrán unos intervalos menores pero, se estarán subestimando estos márgenes, puesto que se ha considerado que todos los datos son independientes cuando no lo son. Con Subset Bootstrap, se supondrá esa dependencia entre datos, dando lugar a unos intervalos mayores y más fiables. Esto es debido a que los datos dependientes contienen menos información intrínseca sobre la distribución, y por lo tanto cualquier estadística medida en este conjunto de datos tendrá mayor incertidumbre

    Similar works