5 research outputs found

    Towards automatic construction of diverse, high-quality image dataset

    Full text link
    University of Technology Sydney. Faculty of Engineering and Information Technology.The availability of labeled image datasets has been shown critical for high-level image understanding, which continuously drives the progress of feature designing and models developing. However, the process of manual labeling is both time-consuming and labor-intensive. To reduce the cost of manual annotation, there has been increased research interest in automatically constructing image datasets by exploiting web images. Datasets constructed by existing methods tend to suffer from the disadvantage of low accuracy and low diversity. These datasets tend to have a weak domain adaptation ability, which is known as the “dataset bias problem”. This research aims at automatically collect accurate and diverse images for given queries from the Web, and construct a domain robust image dataset. Thus, within this thesis, various methods are developed and presented to address the following research challenges. The first is the retrieved web images are usually noisy, how to remove noise and construct a relatively high accuracy dataset. The second is the collected web images are often associated with low diversity, how to address the dataset bias problem and construct a domain robust dataset. In Chapter 3, a framework is presented to address the problem of polysemy in the process of constructing a high accuracy dataset. Visual polysemy means that a word has several semantic (text) senses that are visually (image) distinct. Solving polysemy can help to choose appropriate visual senses for sense-specific images collection, thereby improving the accuracy of the collected images. Unlike previous methods which leveraged the human-developed knowledge such as Wikipedia or dictionaries to handle polysemy, we propose to automate the process of discovering and distinguishing multiple visual senses from untagged corpora to solve the problem of polysemy. In Chapter 4, a domain robust framework is presented for image dataset construction. To address the dataset bias problem, our framework mainly consists of three stages. Specifically, we first obtain the candidate query expansions by searching in the Google Books Ngram Corpus. Then, by treating word-word (semantic) and visual-visual distance (visual) as features from two different views, we formulate noisy query expansions pruning as a multi-view learning problem. Finally, by treating each selected query expansion as a “bag” and the images therein as “instances”, we formulate image selection and noise removal as a multi-instance learning problem. In this way, images from different distributions can be kept while noise is filtered out. Chapter 5 details a method for noisy images removing and accurate images selecting. The accuracy of selected images is limited by two issues: the noisy query expansions which are not filtered out and the error index of image search engine. To deal with the noisy query expansions, we divide them into two types and propose to remove noise from visual consistency and relevancy respectively. To handle noise induced by error index, we classify the noisy images into three categories and filter out noise by different mechanisms separately. Chapter 6 proposes an approach for enhancing classifier learning by using the collected web images. Different from previous works, our approach, while improving the accuracy and robustness of the classifier, greatly reduces the time and labor dependence. Specifically, we proposed a new instance-level MIL model to select a subset of training images from each selected privileged information and simultaneously learn the optimal classifiers based on the selected images. Chapter 7 concludes the thesis and outlines the scope of future work

    Visión computacional en la industria de la construcción: identificación de equipos de seguridad en obras mediante el uso de deep learning

    Get PDF
    La industria de la construcción es uno de los sectores que expone la vida de los operarios en constante peligro debido a las condiciones laborales que esta demanda como el trabajo en alturas, manejo de maquinaria pesada, entre otros. El uso de equipos de protección colectiva y personal es una medida de seguridad para resguardar la vida de los operarios frente a caídas, colisiones, entre otros accidentes. No obstante, en campo existen actitudes inapropiadas por parte del personal de obra pues estos tienden a retirarse los equipos de seguridad, debido a la disconformidad que produce su peso, el cambio de temperatura, entre otros factores. En efecto, actualmente el control de estos comportamientos es exhaustivo, pues involucra monitorear múltiples actividades proactivamente a lo largo de la jornada laboral. Este estudio propone evaluar la efectividad de la tecnología deep learning en automatizar el reconocimiento de estos equipos de seguridad para comunicar a los supervisores de campos sobre el uso inapropiado de estos objetos y, de esta manera, controlar los accidentes de obra. En consecuencia, se desarrolló una base de datos que comprende imágenes de equipos de seguridad en obra bajo diferentes condiciones visuales: variedad de intraclase (posturas, color, contexturas, estaturas, etc.), intensidades de iluminación, oclusiones, aglomeraciones, entre otros efectos. Este entregable se justifica debido a que en comparación con la literatura se analizó una mayor variedad de equipos de seguridad y se empleó para entrenar y evaluar tres algoritmos más recurridos en la bibliografía (VGG-16, Resnet-18 y Inception-V3), debido al desempeño de sus resultados. Específicamente, el performance del prototipo Inception-V3 alcanzó un valor de 84% en accuracy empleando el set de datos de escala regular. Este desempeño indica que las metodologías en aprendizaje profundo pueden contribuir a monitorear equipos de seguridad de obra al disponer de mayor datos, seleccionando modelos más sofisticados y siguiendo las recomendaciones en este documento para evitar confusiones en la clasificación de objetos. Asimismo, existen dos contribuciones adicionales. En primer lugar, se realizó un resumen del estado del arte sobre las aplicaciones actuales de la visión computacional en el sector construcción con el objetivo de orientar a otros proyectos a seleccionar un tema de estudio, identificar los logros alcanzados, responder a las limitaciones encontradas y reconocer buenas prácticas. En segundo lugar, el set de base de datos desarrollado presenta una mayor variedad de tipos de EPP’s y EPC’s, respecto a la literatura, y está disponible a solicitud con el objetivo de estandarizar la existencia de un set de datos propio para el sector construcción y facilitar la aplicación de la visión computacional en esta industria
    corecore