1,412 research outputs found

    Handwriting-Based Gender Classification Using End-to-End Deep Neural Networks

    Full text link
    Handwriting-based gender classification is a well-researched problem that has been approached mainly by traditional machine learning techniques. In this paper, we propose a novel deep learning-based approach for this task. Specifically, we present a convolutional neural network (CNN), which performs automatic feature extraction from a given handwritten image, followed by classification of the writer's gender. Also, we introduce a new dataset of labeled handwritten samples, in Hebrew and English, of 405 participants. Comparing the gender classification accuracy on this dataset against human examiners, our results show that the proposed deep learning-based approach is substantially more accurate than that of humans

    Three dimensional quantitative textural analysis of nickel sulphide ore using X-ray computed tomography and grey level co-occurrence matrices on drill core

    Get PDF
    Alongside the global trend to mine and process lower grade and more mineralogically complex ores, there has been an increased awareness of the prevalence of ore heterogeneity. Ore texture - the interrelationship of minerals comprising a rock, has been identified as one of the primary geometallurgical indicators of ore variability. It is well known that a relationship exists between ore texture and the resultant metallurgical performance (ore hardness, throughput, liberation, grade, recovery). Consequently, there exists a need to rapidly, routinely, cost effectively, and reliably quantify ore texture and its variability prior to mining. This information can thereafter be incorporated into the geometallurgical block model and used for decision making informing mine planning, plant operation and optimisation, forecasting, and mine closure. The ability to rapidly, routinely, cost effectively and reliably quantify ore texture remains an ongoing challenge. In this study, the use of 3D X-ray computed tomography (XCT) is proposed as an innovative solution to non-destructively image the internal structure of drill core. Thereafter, an established, discipline independent two dimensional (2D) image analysis technique known as grey level co-occurrence matrices (GLCM) is specially adapted into three dimensions (3D) to quantify ore texture using XCT grey level volumes of drill core

    Identification and quantification of the alveolar compartment by confocal laser endomicroscopy in patients with interstitial lung diseases

    Get PDF
    Tese de mestrado integrado, Engenharia Biomédica e Biofísica (Biofísica Médica e Fisiologia de Sistemas), Universidade de Lisboa, Faculdade de Ciências, 2018Doenças Intersticiais Pulmonares (DIP) é um termo que inclui mais de 200 doenças que afectam o parênquima pulmonar, partilhando manifestações clínicas, radiográficas e patológicas semelhantes. Este conjunto de doenças é bastante heterogéneo, apresentando cada tipo de DIP em diferente grau os elementos de inflamação e fibrose: enquanto a inflamação é reflectida pelo aumento de células inflamatórias e presença de nódulos ou edema, a fibrose reflecte-se pelas fibras adicionais de colagénio e elastina. Identificar o tipo de DIP de um doente é um processo difícil, sendo a Discussão Multidisciplinar o actual método de diagnóstico "gold standard": vários médicos especialistas compõem uma equipa multidisciplinar que vai ter em conta os dados clínicos, radiológicos e patológicos disponíveis para chegar a uma conclusão. Estes dados incluem imagens de tomografia computorizada de alta resolução (TCAR), a descrição da lavagem broncoalveolar e, quando possível, dados de biópsias. Apesar do esforço e competência da equipa multidisciplinar, 10% dos pacientes são categorizados como inclassificáveis devido a dados inadequados ou discrepância entre os dados existentes. A maior causa para DIP inclassificáveis é a ausência de dados histopatológicos associada aos riscos das biópsias cirúrgicas. É muito importante determinar a DIP específica de um doente, dadas as suas implicações no tratamento e gestão do mesmo. É particularmente crítica a distinção entre doentes com Fibrose Pulmonar Idiopática (FPI) e doentes sem FPI, dado que há terapias anti-fibróticas – como o Pirfenidone – indicadas para FPI que são extremamente dispendiosas, exigindo certeza no diagnóstico antes de serem prescritas. Além disso, o tratamento com agentes imunossupressores pode funcionar com o grupo dos não-FPI mas aumenta a morte e hospitalizações nos doentes com FPI. A discussão multidisciplinar pode beneficiar da informação adicional oferecida pelo Confocal Laser Endomicroscopy (CLE), uma técnica de imagiologia que torna possível visualizar os alvéolos pulmonares com resolução microscópica de forma minimamente invasiva, através de uma broncoscopia. O laser do CLE tem um comprimento de onda de 488 nm que permite observar a autofluorescência das fibras de elastina. Há evidências de que a quantidade de fibras de elastina é aumentada e a arquitectura destas fibras é alterada na presença de fibrose pulmonar, a qual está associada a algumas doenças intersticiais pulmonares incluindo a fibrose pulmonar idiopática. Até à data, os vídeos de Confocal Laser Endomicroscopy são, na maioria dos casos, analisados apenas visualmente, e pouca informação objectiva e consistente foi conseguida destes vídeos em doentes de DIP. No entanto, é possível obter informação mais relevante dos mesmos, convertendo-os em frames, pré-processando as imagens e extraindo atributos numéricos. Neste projecto, foram obtidas imagens dos alvéolos pulmonares de doentes de DIP através de CLE. O principal objectivo do projecto é melhorar a técnica de CLE e aumentar a sua usabilidade para que no futuro possa contribuir para facilitar a estratificação de doentes com DIP e eventualmente reduzir o número de biópsias pulmonares nestes doentes. Como mencionado, o instrumento de Confocal Laser Endomicroscopy emite uma luz laser azul de 488nm, a qual é reflectida no tecido e reorientada para o sistema de detecção pela mesma lente, passando por um pequeno orifício (pinhole). Isto permite que a luz focada seja recolhida e que feixes provenientes de planos fora de foco sejam excluídos, originando uma resolução microscópica que permite imagens ao nível celular. Quando o CLE é aplicado a imagem pulmonar, é possível observar as paredes alveolares pela autofluorescência natural presente nas fibras de elastina. No estudo clínico subjacente a este estudo, o protocolo de CLE foi aplicado a 20 pacientes, embora 8 tenham sido posteriormente excluídos da análise. Os vídeos de CLE obtidos sofreram duas selecções: uma com base na região onde uma biópsia (usada como referência) foi tirada e outra com base na qualidade técnica das imagens. Depois, os dados foram pré-processados: geraram-se imagens mosaico com um campo de visão alargado e, paralelamente converteram-se as sequências de vídeo em frames. A qualidade da imagem foi melhorada, filtrando o ruído electrónico para que posteriormente pudesse ser aplicada a análise de imagem. Esta análise extraiu valores numéricos que reflectem o estado do espaço alveolar, nomeadamente, variáveis de textura e medições relacionadas com as fibras de elastina. As imagens de CLE obtidas mostraram-se muito interessantes. A resolução é superior à tomografia computorizada de alta resolução e a tridimensionalidade acrescenta informação às biópsias. O facto de permitir feedback em tempo real e observar ao vivo os movimentos naturais da respiração contribui para a análise do estado do doente. A análise de textura feita às imagens serviu-se de um algoritmo de extracção de variáveis de Haralick a partir de uma Gray-Level Co-occurence Matrix (GLCM). Foram extraídas as variáveis de textura Momento Angular Secundário (Energia), Entropia, Momento de Diferença Inversa, Contraste, Variação e Correlação. O algoritmo de Ridge Detection (detecção de linhas) identificou a maior parte das fibras de elastina detectáveis por um observador humano e mediu o Número de Fibras, o seu Comprimento e Largura e o Número de Junções entre fibras, permitindo também calcular a Soma dos Comprimentos de todas as fibras. Estes algoritmos devolveram valores consistentes num processo mais eficiente comparado com um observador humano, conseguindo avaliar em poucos segundos múltiplas variáveis para todo o conjunto de dados. As medições relacionadas com as fibras de elastina pretendiam ajudar a identificar os doentes fibróticos. Era esperado que as fibras dos doentes fibróticos fossem mais largas, mas isso não se observou. Também se previa que este grupo de doentes apresentasse maior número de fibras e junções, mas não houve uma diferença significativa entre grupos. No entanto, quando o grupo fibrótico foi segregado, o número de fibras e junções parece separar a fibrose moderada da fibrose severa. Este resultado é interessante na medida em que sugere que a monitorização do número de fibras/junções com CLE pode potencialmente ser usado como medida de eficácia de medicação anti-fibrótica. Em relação às variáveis de textura, esperava-se que os doentes fibróticos apresentassem valores mais elevados de Entropia, Contraste e Variância e valores inferiores de Momento de Diferença Inversa, dado que o seu tecido pulmonar deveria corresponder a imagens mais complexas e heterogéneas com mais arestas presentes. No entanto, ainda não foi possível estabelecer diferenças significativas entre grupos. Apesar dos resultados com o conjunto de dados usado não ter demonstrado correlações fortes entre as conclusões do CLE e da TCAR/histopatologia, os valores das variáveis em si já contribuem para o estudo das DIP, nomeadamente da sua fisiologia. De facto, a amostra de doentes deste estudo era reduzida, mas com uma amostra maior, espera-se que algumas das varáveis se correlacionem com outras técnicas usadas no diagnóstico e permitam segregar os pacientes em grupos e eventualmente aplicar classificação de dados. Neste momento, é possível especular que algumas variáveis seriam melhores candidatas para um classificador, nomeadamente os Números de Fibras e Junções, a Soma dos Comprimentos das fibras e as variáveis de Haralick Entropia e Energia. O projecto apresentado nesta dissertação foi desenvolvido através de um estágio de 6 meses no departamento de Pneumologia no Academic Medical Center em Amsterdão, Países Baixos. No Academic Medical Center (AMC), fui acompanhada pelos estudantes de doutoramento Lizzy Wijmans - médica - e Paul Brinkman - engenheiro biomédico - e supervisionada pelo Dr. Jouke Annema, MD, PhD, Professor de endoscopia pulmonar. Este grupo de investigação do AMC está focado em técnicas inovadoras de imagiologia do sistema pulmonar e teve a oportunidade de reunir com a empresa MKT –que produz a tecnologia de Confocal Laser Endomicroscopy –, o que enriqueceu a discussão aqui apresentada. Do Departamento de Física da Faculdade de Ciências da Universidade de Lisboa, fui orientada pelo Prof. Nuno Matela.Interstitial Lung Diseases (ILD) is a heterogeneous group of more than 200 diseases which affect the lung parenchyma. To identify the type of ILD a patient suffers from is a difficult process, and 10% of the patients are categorized as unclassifiable, mostly due to the absence of histopathological data associated with the risks of lung biopsies. The patient specific diagnosis is important because of its implications to the patient treatment and management, being particularly relevant to identify lung fibrosis. The Confocal Laser Endomicroscopy (CLE) can add information to this process. CLE allows to image the lung tissue with a micrometer resolution in a minimally invasive way, through a bronchoscopy. The elastin fibers from the lung alveoli are visible with this technique due to their autofluorescence. Since there is evidence that the amount of elastin fibers increases, and their architecture is altered in lung fibrosis, CLE should be used to extract values reflecting this condition. Thus, the main goal of this project was to improve the CLE technique and increase its usability, by extracting numerical values from the images which would reflect the state of the alveolar space, particularly the elastin fibers. The ILD patients recruited for the study had their lung alveoli imaged with CLE. The CLE movies were selected, pre-processed – were converted into frames, had their image quality enhanced and some mosaics were obtained – and then analyzed. The ridge detection algorithm detected most fibers recognized by a human observer. It allowed the measurement of the Number of Detected Fibers, their Length and Width, the Number of Junctions between fibers and to calculate the Sum from all Fibers’ Lengths. The Gray-Level Co-occurrence Matrix allowed the extraction of the Haralick texture features: Angular Second Moment (Energy), Entropy, Inverse Difference Moment, Contrast, Variance and Correlation. These algorithms produced consistent and unbiased numerical features, in an efficient process which can analyze the entire data set in a few seconds. Regarding the fiber related measurements, it was expected for the fibrotic patients to have wider fibers and a higher number of fibers and junctions. In terms of texture variables, it was expected from the fibrotic patients to present higher values of Entropy, Contrast and Variance, and lower values of Inverse Difference Moment, given their lung tissue should correspond to more complex and heterogeneous images with more ridges present. Due to the small sample size, it was still not possible to stratify patients with this data set. Nevertheless, the measurements presented here already contribute to the study of ILD, helping to understand the disease physiology. It is hoped that in the future, these measurements will aid the diagnosis process specially in those cases when patients cannot undergo a surgical biopsy. Additionally, CLE could potentially be used as an anti-fibrotic medication efficiency measurement tool

    Text-detection and -recognition from natural images

    Get PDF
    Text detection and recognition from images could have numerous functional applications for document analysis, such as assistance for visually impaired people; recognition of vehicle license plates; evaluation of articles containing tables, street signs, maps, and diagrams; keyword-based image exploration; document retrieval; recognition of parts within industrial automation; content-based extraction; object recognition; address block location; and text-based video indexing. This research exploited the advantages of artificial intelligence (AI) to detect and recognise text from natural images. Machine learning and deep learning were used to accomplish this task.In this research, we conducted an in-depth literature review on the current detection and recognition methods used by researchers to identify the existing challenges, wherein the differences in text resulting from disparity in alignment, style, size, and orientation combined with low image contrast and a complex background make automatic text extraction a considerably challenging and problematic task. Therefore, the state-of-the-art suggested approaches obtain low detection rates (often less than 80%) and recognition rates (often less than 60%). This has led to the development of new approaches. The aim of the study was to develop a robust text detection and recognition method from natural images with high accuracy and recall, which would be used as the target of the experiments. This method could detect all the text in the scene images, despite certain specific features associated with the text pattern. Furthermore, we aimed to find a solution to the two main problems concerning arbitrarily shaped text (horizontal, multi-oriented, and curved text) detection and recognition in a low-resolution scene and with various scales and of different sizes.In this research, we propose a methodology to handle the problem of text detection by using novel combination and selection features to deal with the classification algorithms of the text/non-text regions. The text-region candidates were extracted from the grey-scale images by using the MSER technique. A machine learning-based method was then applied to refine and validate the initial detection. The effectiveness of the features based on the aspect ratio, GLCM, LBP, and HOG descriptors was investigated. The text-region classifiers of MLP, SVM, and RF were trained using selections of these features and their combinations. The publicly available datasets ICDAR 2003 and ICDAR 2011 were used to evaluate the proposed method. This method achieved the state-of-the-art performance by using machine learning methodologies on both databases, and the improvements were significant in terms of Precision, Recall, and F-measure. The F-measure for ICDAR 2003 and ICDAR 2011 was 81% and 84%, respectively. The results showed that the use of a suitable feature combination and selection approach could significantly increase the accuracy of the algorithms.A new dataset has been proposed to fill the gap of character-level annotation and the availability of text in different orientations and of curved text. The proposed dataset was created particularly for deep learning methods which require a massive completed and varying range of training data. The proposed dataset includes 2,100 images annotated at the character and word levels to obtain 38,500 samples of English characters and 12,500 words. Furthermore, an augmentation tool has been proposed to support the proposed dataset. The missing of object detection augmentation tool encroach to proposed tool which has the ability to update the position of bounding boxes after applying transformations on images. This technique helps to increase the number of samples in the dataset and reduce the time of annotations where no annotation is required. The final part of the thesis presents a novel approach for text spotting, which is a new framework for an end-to-end character detection and recognition system designed using an improved SSD convolutional neural network, wherein layers are added to the SSD networks and the aspect ratio of the characters is considered because it is different from that of the other objects. Compared with the other methods considered, the proposed method could detect and recognise characters by training the end-to-end model completely. The performance of the proposed method was better on the proposed dataset; it was 90.34. Furthermore, the F-measure of the method’s accuracy on ICDAR 2015, ICDAR 2013, and SVT was 84.5, 91.9, and 54.8, respectively. On ICDAR13, the method achieved the second-best accuracy. The proposed method could spot text in arbitrarily shaped (horizontal, oriented, and curved) scene text.</div
    • …
    corecore