Tesis Doctoral inédita leída en la Universidad Autónoma de Madrid, Escuela Politécnica Superior, Departamento de Tecnología Electrónica y de las Comunicaciones. Fecha de Lectura: 07-02-2025Esta Tesis tiene embargado el acceso al texto completo hasta el 07-08-2026En esta tesis presentamos contribuciones en el campo de segmentación semántica con un foco
en el uso de datos sintéticos para entrenar modelos robustos y generalizables para su aplicación.
Nuestra investigación explora múltiples aproximaciones, incluyendo combinaciones de modelos,
funciones de pérdida y algoritmos diseñados para aliviar los costes de entreno en términos
de recursos computacionales y de datos. Además, nos centramos en problemas intrínsecos de
segmentación semántica como desbalanceo de clases, robustez de modelos y generalización a
objetos no vistos durante entreno.
La tesis se organiza en tres principales áreas de contribución. En primer lugar, proponemos
técnicas para reducir los costes computacionales en el entrenamiento de modelos de segmentación
semántica. Introducimos una estrategia de etiquetado suave que optimiza el rendimiento del
modelo a resoluciones reducidas, logrando resultados comparables al estado del arte, pero con un
uso significativamente menor de recursos. En segundo lugar, abordamos los requisitos de datos
mediante el uso de datos sintéticos, presentando métodos para entrenar modelos con acceso
limitado o nulo a datos reales etiquetados. Esto incluye soluciones para mitigar el desbalanceo
de clases mediante el uso de ponderación adaptativa, mejorando significativamente la precisión
del modelo incluso sin datos del mundo real. Finalmente, abordamos el problema inherente
al entrenamiento con datos sintéticos: predicciones de baja entropía, incluso para categorías
de objetos no vistas durante el entrenamiento. Este comportamiento compromete la fiabilidad
de los modelos en entornos reales, donde se espera cierta incertidumbre. Para resolver esta
limitación, proponemos el primer marco de adaptación de dominio no supervisado que permite
a los modelos generalizar a clases no vistas. Al integrar modelos de visión-lenguaje con datos
sintéticos, superamos los resultados de referencia anteriores, reduciendo a su vez la dependencia
de grandes conjuntos de datos etiquetados.
Los métodos propuestos son validados mediante una exhaustiva experimentación en múltiples
conjuntos de datos, demostrando un rendimiento superior a las aproximaciones existentes
tanto en segmentación semántica como panóptica. Esta investigación abre el camino hacia un
entrenamiento más accesible, eficaz y flexible de modelos, contribuyendo al futuro de las aplicaciones
que dependen del razonamiento visual. Todos los codigos estan disponibles en GitHubIt was supported by the Autonomous Univiersity of Madrid FPI grant programme and by the SEGA-CV (TED2021-131643A-I00) and the HVD (PID2021125051OB-I00) projects of the Ministerio de Ciencia e Innovación of the Spanish Governmen
Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.