En este trabajo se propone una técnica para medir la robustez de un modelo probabilístico
de interpretación forense.
El proceso forense consiste en la comparación de muestras de origen desconocido con otras
de origen conocido con el fin de ayudar a un juez a tomar una decisión en un juicio tras obtener
el valor incriminatorio de dicha comparación.
Para poder ofrecer un apoyo eficaz, el perito forense se basará en las evidencias y utilizará
modelos para obtener ratios de verosimilitudes. Sin embargo, para no caer en grandes errores,
puesto que no tenemos todo el conjunto de datos posible, solo una muestra de la población, es
necesario estudiar el rendimiento de estos modelos y lo robustos que son al variar la cantidad y
calidad de los datos.
Para la realización de este proyecto se ha utilizado una base de datos de 62 vidrios con
11346 comparaciones entre ellos, de los cuales solo 3782 serán entre muestras de igual fuente y
el resto entre muestras de diferentes fuentes. A partir de esta base de datos y de medidas que
muestran el rendimiento, como las curvas de entropía cruzada empírica (ECE), se propone el
uso de intervalos de confianza para medir la robustez.
Para obtener esos intervalos se han propuesto dos técnicas diferentes: Bootstrap y Subset
Bootstrap, con una diferencia fundamental: mientras que la primera solo se puede utilizar con
datos independientes entre sí, en el Subset Bootsrap, se pueden tener grupos de datos dependientes
unos de otros, de manera que, dentro de cada grupo habrá datos dependientes entre sí
e independientes con el resto de datos de otros grupos. Así, variando la cantidad de datos de
las muestras que se utilizan en estas técnicas se obtendrán los intervalos de confianza.
En concreto, con la base de datos que se ha utilizado en nuestros experimentos, puesto que
se trata de datos que son dependientes entre sí, la técnica ideal será el Subset Bootstrap. Con
Bootstrap se obtendrán unos intervalos menores pero, se estarán subestimando estos márgenes,
puesto que se ha considerado que todos los datos son independientes cuando no lo son. Con
Subset Bootstrap, se supondrá esa dependencia entre datos, dando lugar a unos intervalos
mayores y más fiables. Esto es debido a que los datos dependientes contienen menos información
intrínseca sobre la distribución, y por lo tanto cualquier estadística medida en este conjunto de
datos tendrá mayor incertidumbre