5 research outputs found
Towards automatic construction of diverse, high-quality image dataset
University of Technology Sydney. Faculty of Engineering and Information Technology.The availability of labeled image datasets has been shown critical for high-level image understanding, which continuously drives the progress of feature designing and models developing. However, the process of manual labeling is both time-consuming and labor-intensive. To reduce the cost of manual annotation, there has been increased research interest in automatically constructing image datasets by exploiting web images. Datasets constructed by existing methods tend to suffer from the disadvantage of low accuracy and low diversity. These datasets tend to have a weak domain adaptation ability, which is known as the “dataset bias problem”.
This research aims at automatically collect accurate and diverse images for given queries from the Web, and construct a domain robust image dataset. Thus, within this thesis, various methods are developed and presented to address the following research challenges. The first is the retrieved web images are usually noisy, how to remove noise and construct a relatively high accuracy dataset. The second is the collected web images are often associated with low diversity, how to address the dataset bias problem and construct a domain robust dataset.
In Chapter 3, a framework is presented to address the problem of polysemy in the process of constructing a high accuracy dataset. Visual polysemy means that a word has several semantic (text) senses that are visually (image) distinct. Solving polysemy can help to choose appropriate visual senses for sense-specific images collection, thereby improving the accuracy of the collected images. Unlike previous methods which leveraged the human-developed knowledge such as Wikipedia or dictionaries to handle polysemy, we propose to automate the process of discovering and distinguishing multiple visual senses from untagged corpora to solve the problem of polysemy.
In Chapter 4, a domain robust framework is presented for image dataset construction. To address the dataset bias problem, our framework mainly consists of three stages. Specifically, we first obtain the candidate query expansions by searching in the Google Books Ngram Corpus. Then, by treating word-word (semantic) and visual-visual distance (visual) as features from two different views, we formulate noisy query expansions pruning as a multi-view learning problem. Finally, by treating each selected query expansion as a “bag” and the images therein as “instances”, we formulate image selection and noise removal as a multi-instance learning problem. In this way, images from different distributions can be kept while noise is filtered out.
Chapter 5 details a method for noisy images removing and accurate images selecting. The accuracy of selected images is limited by two issues: the noisy query expansions which are not filtered out and the error index of image search engine. To deal with the noisy query expansions, we divide them into two types and propose to remove noise from visual consistency and relevancy respectively. To handle noise induced by error index, we classify the noisy images into three categories and filter out noise by different mechanisms separately.
Chapter 6 proposes an approach for enhancing classifier learning by using the collected web images. Different from previous works, our approach, while improving the accuracy and robustness of the classifier, greatly reduces the time and labor dependence. Specifically, we proposed a new instance-level MIL model to select a subset of training images from each selected privileged information and simultaneously learn the optimal classifiers based on the selected images.
Chapter 7 concludes the thesis and outlines the scope of future work
Visión computacional en la industria de la construcción: identificación de equipos de seguridad en obras mediante el uso de deep learning
La industria de la construcción es uno de los sectores que expone la vida de los operarios
en constante peligro debido a las condiciones laborales que esta demanda como el trabajo
en alturas, manejo de maquinaria pesada, entre otros. El uso de equipos de protección
colectiva y personal es una medida de seguridad para resguardar la vida de los operarios
frente a caídas, colisiones, entre otros accidentes. No obstante, en campo existen actitudes
inapropiadas por parte del personal de obra pues estos tienden a retirarse los equipos de
seguridad, debido a la disconformidad que produce su peso, el cambio de temperatura, entre
otros factores. En efecto, actualmente el control de estos comportamientos es exhaustivo,
pues involucra monitorear múltiples actividades proactivamente a lo largo de la jornada
laboral.
Este estudio propone evaluar la efectividad de la tecnología deep learning en
automatizar el reconocimiento de estos equipos de seguridad para comunicar a los
supervisores de campos sobre el uso inapropiado de estos objetos y, de esta manera,
controlar los accidentes de obra. En consecuencia, se desarrolló una base de datos que
comprende imágenes de equipos de seguridad en obra bajo diferentes condiciones visuales:
variedad de intraclase (posturas, color, contexturas, estaturas, etc.), intensidades de
iluminación, oclusiones, aglomeraciones, entre otros efectos. Este entregable se justifica
debido a que en comparación con la literatura se analizó una mayor variedad de equipos de
seguridad y se empleó para entrenar y evaluar tres algoritmos más recurridos en la
bibliografía (VGG-16, Resnet-18 y Inception-V3), debido al desempeño de sus resultados.
Específicamente, el performance del prototipo Inception-V3 alcanzó un valor de 84% en
accuracy empleando el set de datos de escala regular. Este desempeño indica que las
metodologías en aprendizaje profundo pueden contribuir a monitorear equipos de seguridad
de obra al disponer de mayor datos, seleccionando modelos más sofisticados y siguiendo las recomendaciones en este documento para evitar confusiones en la clasificación de
objetos.
Asimismo, existen dos contribuciones adicionales. En primer lugar, se realizó un
resumen del estado del arte sobre las aplicaciones actuales de la visión computacional en
el sector construcción con el objetivo de orientar a otros proyectos a seleccionar un tema
de estudio, identificar los logros alcanzados, responder a las limitaciones encontradas y
reconocer buenas prácticas. En segundo lugar, el set de base de datos desarrollado presenta
una mayor variedad de tipos de EPP’s y EPC’s, respecto a la literatura, y está disponible a
solicitud con el objetivo de estandarizar la existencia de un set de datos propio para el sector
construcción y facilitar la aplicación de la visión computacional en esta industria