Detección y segmentación en imágenes con datos sintéticos

Abstract

Tesis Doctoral inédita leída en la Universidad Autónoma de Madrid, Escuela Politécnica Superior, Departamento de Tecnología Electrónica y de las Comunicaciones. Fecha de Lectura: 07-02-2025Esta Tesis tiene embargado el acceso al texto completo hasta el 07-08-2026En esta tesis presentamos contribuciones en el campo de segmentación semántica con un foco en el uso de datos sintéticos para entrenar modelos robustos y generalizables para su aplicación. Nuestra investigación explora múltiples aproximaciones, incluyendo combinaciones de modelos, funciones de pérdida y algoritmos diseñados para aliviar los costes de entreno en términos de recursos computacionales y de datos. Además, nos centramos en problemas intrínsecos de segmentación semántica como desbalanceo de clases, robustez de modelos y generalización a objetos no vistos durante entreno. La tesis se organiza en tres principales áreas de contribución. En primer lugar, proponemos técnicas para reducir los costes computacionales en el entrenamiento de modelos de segmentación semántica. Introducimos una estrategia de etiquetado suave que optimiza el rendimiento del modelo a resoluciones reducidas, logrando resultados comparables al estado del arte, pero con un uso significativamente menor de recursos. En segundo lugar, abordamos los requisitos de datos mediante el uso de datos sintéticos, presentando métodos para entrenar modelos con acceso limitado o nulo a datos reales etiquetados. Esto incluye soluciones para mitigar el desbalanceo de clases mediante el uso de ponderación adaptativa, mejorando significativamente la precisión del modelo incluso sin datos del mundo real. Finalmente, abordamos el problema inherente al entrenamiento con datos sintéticos: predicciones de baja entropía, incluso para categorías de objetos no vistas durante el entrenamiento. Este comportamiento compromete la fiabilidad de los modelos en entornos reales, donde se espera cierta incertidumbre. Para resolver esta limitación, proponemos el primer marco de adaptación de dominio no supervisado que permite a los modelos generalizar a clases no vistas. Al integrar modelos de visión-lenguaje con datos sintéticos, superamos los resultados de referencia anteriores, reduciendo a su vez la dependencia de grandes conjuntos de datos etiquetados. Los métodos propuestos son validados mediante una exhaustiva experimentación en múltiples conjuntos de datos, demostrando un rendimiento superior a las aproximaciones existentes tanto en segmentación semántica como panóptica. Esta investigación abre el camino hacia un entrenamiento más accesible, eficaz y flexible de modelos, contribuyendo al futuro de las aplicaciones que dependen del razonamiento visual. Todos los codigos estan disponibles en GitHubIt was supported by the Autonomous Univiersity of Madrid FPI grant programme and by the SEGA-CV (TED2021-131643A-I00) and the HVD (PID2021125051OB-I00) projects of the Ministerio de Ciencia e Innovación of the Spanish Governmen

Similar works

Full text

thumbnail-image

Biblos-e Archivo

redirect
Last time updated on 17/04/2025

This paper was published in Biblos-e Archivo.

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.