1,902 research outputs found

    An exploration of methodologies to improve semi-supervised hierarchical clustering with knowledge-based constraints

    Get PDF
    Clustering algorithms with constraints (also known as semi-supervised clustering algorithms) have been introduced to the field of machine learning as a significant variant to the conventional unsupervised clustering learning algorithms. They have been demonstrated to achieve better performance due to integrating prior knowledge during the clustering process, that enables uncovering relevant useful information from the data being clustered. However, the research conducted within the context of developing semi-supervised hierarchical clustering techniques are still an open and active investigation area. Majority of current semi-supervised clustering algorithms are developed as partitional clustering (PC) methods and only few research efforts have been made on developing semi-supervised hierarchical clustering methods. The aim of this research is to enhance hierarchical clustering (HC) algorithms based on prior knowledge, by adopting novel methodologies. [Continues.

    A Review of Codebook Models in Patch-Based Visual Object Recognition

    No full text
    The codebook model-based approach, while ignoring any structural aspect in vision, nonetheless provides state-of-the-art performances on current datasets. The key role of a visual codebook is to provide a way to map the low-level features into a fixed-length vector in histogram space to which standard classifiers can be directly applied. The discriminative power of such a visual codebook determines the quality of the codebook model, whereas the size of the codebook controls the complexity of the model. Thus, the construction of a codebook is an important step which is usually done by cluster analysis. However, clustering is a process that retains regions of high density in a distribution and it follows that the resulting codebook need not have discriminant properties. This is also recognised as a computational bottleneck of such systems. In our recent work, we proposed a resource-allocating codebook, to constructing a discriminant codebook in a one-pass design procedure that slightly outperforms more traditional approaches at drastically reduced computing times. In this review we survey several approaches that have been proposed over the last decade with their use of feature detectors, descriptors, codebook construction schemes, choice of classifiers in recognising objects, and datasets that were used in evaluating the proposed methods

    Data Patterns Discovery Using Unsupervised Learning

    Get PDF
    Self-care activities classification poses significant challenges in identifying children’s unique functional abilities and needs within the exceptional children healthcare system. The accuracy of diagnosing a child\u27s self-care problem, such as toileting or dressing, is highly influenced by an occupational therapists’ experience and time constraints. Thus, there is a need for objective means to detect and predict in advance the self-care problems of children with physical and motor disabilities. We use clustering to discover interesting information from self-care problems, perform automatic classification of binary data, and discover outliers. The advantages are twofold: the advancement of knowledge on identifying self-care problems in children and comprehensive experimental results on clustering binary healthcare data. By using various distances and linkage methods, resampling techniques of imbalanced data, and feature selection preprocessing in a clustering framework, we find associations among patients and an Adjusted Rand Index (ARI) of 76.26\

    An Unsupervised Cluster: Learning Water Customer Behavior Using Variation of Information on a Reconstructed Phase Space

    Get PDF
    The unsupervised clustering algorithm described in this dissertation addresses the need to divide a population of water utility customers into groups based on their similarities and differences, using only the measured flow data collected by water meters. After clustering, the groups represent customers with similar consumption behavior patterns and provide insight into ‘normal’ and ‘unusual’ customer behavior patterns. This research focuses upon individually metered water utility customers and includes both residential and commercial customer accounts serviced by utilities within North America. The contributions of this dissertation not only represent a novel academic work, but also solve a practical problem for the utility industry. This dissertation introduces a method of agglomerative clustering using information theoretic distance measures on Gaussian mixture models within a reconstructed phase space. The clustering method accommodates a utility’s limited human, financial, computational, and environmental resources. The proposed weighted variation of information distance measure for comparing Gaussian mixture models places emphasis upon those behaviors whose statistical distributions are more compact over those behaviors with large variation and contributes a novel addition to existing comparison options

    Modelling the head and neck region for microwave imaging of cervical lymph nodes

    Get PDF
    Tese de mestrado integrado, Engenharia BiomĂ©dica e BiofĂ­sica (RadiaçÔes em DiagnĂłstico e Terapia), Universidade de Lisboa, Faculdade de CiĂȘncias, 2020O termo “cancro da cabeça e pescoço” refere-se a um qualquer tipo de cancro com inĂ­cio nas cĂ©lulas epiteliais das cavidades oral e nasal, seios perinasais, glĂąndulas salivares, faringe e laringe. Estes tumores malignos apresentaram, em 2018, uma incidĂȘncia mundial de cerca de 887.659 novos casos e taxa de mortalidade superior a 51%. Aproximadamente 80% dos novos casos diagnosticados nesse ano revelaram a proliferação de cĂ©lulas cancerĂ­genas dos tumores para outras regiĂ”es do corpo atravĂ©s dos vasos sanguĂ­neos e linfĂĄticos das redondezas. De forma a determinar o estado de desenvolvimento do cancro e as terapias a serem seguidas, Ă© fundamental a avaliação dos primeiros gĂąnglios linfĂĄticos que recebem a drenagem do tumor primĂĄrio – os gĂąnglios sentinela – e que, por isso, apresentam maior probabilidade de se tornarem os primeiros alvos das cĂ©lulas tumorais. GĂąnglios sentinela saudĂĄveis implicam uma menor probabilidade de surgirem metĂĄstases, isto Ă©, novos focos tumorais decorrentes da disseminação do cancro para outros ĂłrgĂŁos. O procedimento standard que permite o diagnĂłstico dos gĂąnglios linfĂĄticos cervicais, gĂąnglios que se encontram na regiĂŁo da cabeça e pescoço, e o estadiamento do cancro consiste na remoção cirĂșrgica destes gĂąnglios e subsequente histopatologia. Para alĂ©m de ser um procedimento invasivo, a excisĂŁo cirĂșrgica dos gĂąnglios linfĂĄticos representa perigos tanto para a saĂșde mental e fĂ­sica dos pacientes, como para a sua qualidade de vida. Dores, aparĂȘncia fĂ­sica deformada (devido a cicatrizes), perda da fala ou da capacidade de deglutição sĂŁo algumas das repercussĂ”es que poderĂŁo advir da remoção de gĂąnglios linfĂĄticos da regiĂŁo da cabeça e pescoço. Adicionalmente, o risco de infeção e linfedema – acumulação de linfa nos tecidos intersticiais – aumenta significativamente com a remoção de uma grande quantidade de gĂąnglios linfĂĄticos saudĂĄveis. TambĂ©m os encargos para os sistemas de saĂșde sĂŁo elevados devido Ă  necessidade de monitorização destes pacientes e subsequentes terapias e cuidados associados Ă  morbilidade, como Ă© o caso da drenagem linfĂĄtica manual e da fisioterapia. O desenvolvimento de novas tecnologias de imagem da cabeça e pescoço requer o uso de modelos realistas que simulem o comportamento e propriedades dos tecidos biolĂłgicos. A imagem mĂ©dica por micro-ondas Ă© uma tĂ©cnica promissora e nĂŁo invasiva que utiliza radiação nĂŁo ionizante, isto Ă©, sinais com frequĂȘncias na gama das micro-ondas cujo comportamento depende do contraste dielĂ©trico entre os diferentes tecidos atravessados, pelo que Ă© possĂ­vel identificar regiĂ”es ou estruturas de interesse e, consequentemente, complementar o diagnĂłstico. No entanto, devido Ă s suas caracterĂ­sticas, este tipo de modalidade apenas poderĂĄ ser utilizado para a avaliação de regiĂ”es anatĂłmicas pouco profundas. Estudos indicam que os gĂąnglios linfĂĄticos com cĂ©lulas tumorais possuem propriedades dielĂ©tricas distintas dos gĂąnglios linfĂĄticos saudĂĄveis. Por esta razĂŁo e juntamente pelo facto da sua localização pouco profunda, consideramos que os gĂąnglios linfĂĄticos da regiĂŁo da cabeça e pescoço constituem um excelente candidato para a utilização de imagem mĂ©dica por radar na frequĂȘncia das micro-ondas como ferramenta de diagnĂłstico. AtĂ© Ă  data, nĂŁo foram efetuados estudos de desenvolvimento de modelos da regiĂŁo da cabeça e pescoço focados em representar realisticamente os gĂąnglios linfĂĄticos cervicais. Por este motivo, este projeto consistiu no desenvolvimento de dois geradores de fantomas tridimensionais da regiĂŁo da cabeça e pescoço – um gerador de fantomas numĂ©ricos simples (gerador I) e um gerador de fantomas numĂ©ricos mais complexos e anatomicamente realistas, que foi derivado de imagens de ressonĂąncia magnĂ©tica e que inclui as propriedades dielĂ©tricas realistas dos tecidos biolĂłgicos (gerador II). Ambos os geradores permitem obter fantomas com diferentes nĂ­veis de complexidade e assim acompanhar diferentes fases no processo de desenvolvimento de equipamentos mĂ©dicos de imagiologia por micro-ondas. Todos os fantomas gerados, e principalmente os fantomas anatomicamente realistas, poderĂŁo ser mais tarde impressos a trĂȘs dimensĂ”es. O processo de construção do gerador I compreendeu a modelação da regiĂŁo da cabeça e pescoço em concordĂąncia com a anatomia humana e distribuição dos principais tecidos, e a criação de uma interface para a personalização dos modelos (por exemplo, a inclusĂŁo ou remoção de alguns tecidos Ă© dependente do propĂłsito para o qual cada modelo Ă© gerado). O estudo minucioso desta regiĂŁo levou Ă  inclusĂŁo de tecidos Ăłsseos, musculares e adiposos, pele e gĂąnglios linfĂĄticos nos modelos. Apesar destes fantomas serem bastante simples, sĂŁo essenciais para o inĂ­cio do processo de desenvolvimento de dispositivos de imagem mĂ©dica por micro-ondas dedicados ao diagnĂłstico dos gĂąnglios linfĂĄticos cervicais. O processo de construção do gerador II foi fracionado em 3 grandes etapas devido ao seu elevado grau de complexidade. A primeira etapa consistiu na criação de uma pipeline que permitiu o processamento das imagens de ressonĂąncia magnĂ©tica. Esta pipeline incluiu: a normalização dos dados, a subtração do background com recurso a mĂĄscaras binĂĄrias manualmente construĂ­das, o tratamento das imagens atravĂ©s do uso de filtros lineares (como por exemplo, filtros passa-baixo ideal, Gaussiano e Butterworth) e nĂŁo-lineares (por exemplo, o filtro mediana), e o uso de algoritmos nĂŁo supervisionados de machine learning para a segmentação dos vĂĄrios tecidos biolĂłgicos presentes na regiĂŁo cervical, tais como o K-means, Agglomerative Hierarchical Clustering, DBSCAN e BIRCH. Visto que cada algoritmo nĂŁo supervisionado de machine learning anteriormente referido requer diferentes hiperparĂąmetros, Ă© necessĂĄrio proceder a um estudo pormenorizado que permita a compreensĂŁo do modo de funcionamento de cada algoritmo individualmente e a sua interação / performance com o tipo de dados tratados neste projeto (isto Ă©, dados de exames de ressonĂąncias magnĂ©ticas) com vista a escolher empiricamente o leque de valores de cada hiperparĂąmetro que deve ser considerado, e ainda as combinaçÔes que devem ser testadas. ApĂłs esta fase, segue-se a avaliação da combinação de hiperparĂąmetros que resulta na melhor segmentação das estruturas anatĂłmicas. Para esta avaliação sĂŁo consideradas duas metodologias que foram combinadas: a utilização de mĂ©tricas que permitam avaliar a qualidade do clustering (como por exemplo, o Silhoeutte Coefficient, o Ă­ndice de Davies-Bouldin e o Ă­ndice de Calinski-Harabasz) e ainda a inspeção visual. A segunda etapa foi dedicada Ă  introdução manual de algumas estruturas, como a pele e os gĂąnglios linfĂĄticos, que nĂŁo foram segmentadas pelos algoritmos de machine learning devido Ă  sua fina espessura e pequena dimensĂŁo, respetivamente. Finalmente, a Ășltima etapa consistiu na atribuição das propriedades dielĂ©tricas, para uma frequĂȘncia prĂ©-definida, aos tecidos biolĂłgicos atravĂ©s do Modelo de Cole-Cole de quatro pĂłlos. Tal como no gerador I, foi criada uma interface que permitiu ao utilizador decidir que caracterĂ­sticas pretende incluir no fantoma, tais como: os tecidos a incluir (tecido adiposo, tecido muscular, pele e / ou gĂąnglios linfĂĄticos), relativamente aos gĂąnglios linfĂĄticos o utilizador poderĂĄ ainda determinar o seu nĂșmero, dimensĂ”es, localização em nĂ­veis e estado clĂ­nico (saudĂĄvel ou metastizado) e finalmente, o valor de frequĂȘncia para o qual pretende obter as propriedades dielĂ©tricas (permitividade relativa e condutividade) de cada tecido biolĂłgico. Este projeto resultou no desenvolvimento de um gerador de modelos realistas da regiĂŁo da cabeça e pescoço com foco nos gĂąnglios linfĂĄticos cervicais, que permite a inserção de tecidos biolĂłgicos, tais como o tecidos muscular e adiposo, pele e gĂąnglios linfĂĄticos e aos quais atribui as propriedades dielĂ©tricas para uma determinada frequĂȘncia na gama de micro-ondas. Estes modelos computacionais resultantes do gerador II, e que poderĂŁo ser mais tarde impressos em 3D, podem vir a ter grande impacto no processo de desenvolvimento de dispositivos mĂ©dicos de imagem por micro-ondas que visam diagnosticar gĂąnglios linfĂĄticos cervicais, e consequentemente, contribuir para um processo nĂŁo invasivo de estadiamento do cancro da cabeça e pescoço.Head and neck cancer is a broad term referring to any epithelial malignancies arising in the paranasal sinuses, nasal and oral cavities, salivary glands, pharynx, and larynx. In 2018, approximately 80% of the newly diagnosed head and neck cancer cases resulted in tumour cells spreading to neighbouring lymph and blood vessels. In order to determine cancer staging and decide which follow-up exams and therapy to follow, physicians excise and assess the Lymph Nodes (LNs) closest to the primary site of the head and neck tumour – the sentinel nodes – which are the ones with highest probability of being targeted by cancer cells. The standard procedure to diagnose the Cervical Lymph Nodes (CLNs), i.e. lymph nodes within the head and neck region, and determine the cancer staging frequently involves their surgical removal and subsequent histopathology. Besides being invasive, the removal of the lymph nodes also has negative impact on patients’ quality of life, it can be health threatening, and it is costly to healthcare systems due to the patients’ needs for follow-up treatments/cares. Anatomically realistic phantoms are required to develop novel technologies tailored to image head and neck regions. Medical MicroWave Imaging (MWI) is a promising non-invasive approach which uses non-ionizing radiation to screen shallow body regions, therefore cervical lymph nodes are excellent candidates to this imaging modality. In this project, a three-dimensional (3D) numerical phantom generator (generator I) and a Magnetic Resonance Imaging (MRI)-derived anthropomorphic phantom generator (generator II) of the head and neck region were developed to create phantoms with different levels of complexity and realism, which can be later 3D printed to test medical MWI devices. The process of designing the numerical phantom generator included the modelling of the head and neck regions according to their anatomy and the distribution of their main tissues, and the creation of an interface which allowed the users to personalise the model (e.g. include or remove certain tissues, depending on the purpose of each generated model). To build the anthropomorphic phantom generator, the modelling process included the creation of a pipeline of data processing steps to be applied to MRIs of the head and neck, followed by the development of algorithms to introduce additional tissues to the models, such as skin and lymph nodes, and finally, the assignment of the dielectric properties to the biological tissues. Similarly, this generator allowed users to decide the features they wish to include in the phantoms. This project resulted in the creation of a generator of 3D anatomically realistic head and neck phantoms which allows the inclusion of biological tissues such as skin, muscle tissue, adipose tissue, and LNs, and assigns state-of-the-art dielectric properties to the tissues. These phantoms may have a great impact in the development process of MWI devices aimed at screening and diagnosing CLNs, and consequently, contribute to a non-invasive staging of the head and neck cancer

    Steganographer Identification

    Full text link
    Conventional steganalysis detects the presence of steganography within single objects. In the real-world, we may face a complex scenario that one or some of multiple users called actors are guilty of using steganography, which is typically defined as the Steganographer Identification Problem (SIP). One might use the conventional steganalysis algorithms to separate stego objects from cover objects and then identify the guilty actors. However, the guilty actors may be lost due to a number of false alarms. To deal with the SIP, most of the state-of-the-arts use unsupervised learning based approaches. In their solutions, each actor holds multiple digital objects, from which a set of feature vectors can be extracted. The well-defined distances between these feature sets are determined to measure the similarity between the corresponding actors. By applying clustering or outlier detection, the most suspicious actor(s) will be judged as the steganographer(s). Though the SIP needs further study, the existing works have good ability to identify the steganographer(s) when non-adaptive steganographic embedding was applied. In this chapter, we will present foundational concepts and review advanced methodologies in SIP. This chapter is self-contained and intended as a tutorial introducing the SIP in the context of media steganography.Comment: A tutorial with 30 page

    Text Classification Aided by Clustering: a Literature Review

    Get PDF
    • 

    corecore