14 research outputs found

    Uma abordagem de agrupamento baseada na técnica de divisão e conquista e floresta de caminhos ótimos

    Get PDF
    Orientador: Alexandre Xavier FalcãoDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: O agrupamento de dados é um dos principais desafios em problemas de Ciência de Dados. Apesar do seu progresso científico em quase um século de existência, algoritmos de agrupamento ainda falham na identificação de grupos (clusters) naturalmente relacionados com a semântica do problema. Ademais, os avanços das tecnologias de aquisição, comunicação, e armazenamento de dados acrescentam desafios cruciais com o aumento considerável de dados, os quais não são tratados pela maioria das técnicas. Essas questões são endereçadas neste trabalho através da proposta de uma abordagem de divisão e conquista para uma técnica de agrupamento única em encontrar um grupo por domo da função de densidade de probabilidade dos dados --- o algoritmo de agrupamento por floresta de caminhos ótimos (OPF - Optimum-Path Forest). Nesta técnica, amostras são interpretadas como nós de um grafo cujos arcos conectam os kk-vizinhos mais próximos no espaço de características. Os nós são ponderados pela sua densidade de probabilidade e um mapa de conexidade é maximizado de modo que cada máximo da função densidade de probabilidade se torna a raiz de uma árvore de caminhos ótimos (grupo). O melhor valor de kk é estimado por otimização em um intervalo de valores dependente da aplicação. O problema com este método é que um número alto de amostras torna o algoritmo inviável, devido ao espaço de memória necessário para armazenar o grafo e o tempo computacional para encontrar o melhor valor de kk. Visto que as soluções existentes levam a resultados ineficazes, este trabalho revisita o problema através da proposta de uma abordagem de divisão e conquista com dois níveis. No primeiro nível, o conjunto de dados é dividido em subconjuntos (blocos) menores e as amostras pertencentes a cada bloco são agrupadas pelo algoritmo OPF. Em seguida, as amostras representativas de cada grupo (mais especificamente as raízes da floresta de caminhos ótimos) são levadas ao segundo nível, onde elas são agrupadas novamente. Finalmente, os rótulos de grupo obtidos no segundo nível são transferidos para todas as amostras do conjunto de dados através de seus representantes do primeiro nível. Nesta abordagem, todas as amostras, ou pelo menos muitas delas, podem ser usadas no processo de aprendizado não supervisionado, sem afetar a eficácia do agrupamento e, portanto, o procedimento é menos susceptível a perda de informação relevante ao agrupamento. Os resultados mostram agrupamentos satisfatórios em dois cenários, segmentação de imagem e agrupamento de dados arbitrários, tendo como base a comparação com abordagens populares. No primeiro cenário, a abordagem proposta atinge os melhores resultados em todas as bases de imagem testadas. No segundo cenário, os resultados são similares aos obtidos por uma versão otimizada do método original de agrupamento por floresta de caminhos ótimosAbstract: Data clustering is one of the main challenges when solving Data Science problems. Despite its progress over almost one century of research, clustering algorithms still fail in identifying groups naturally related to the semantics of the problem. Moreover, the advances in data acquisition, communication, and storage technologies add crucial challenges with a considerable data increase, which are not handled by most techniques. We address these issues by proposing a divide-and-conquer approach to a clustering technique, which is unique in finding one group per dome of the probability density function of the data --- the Optimum-Path Forest (OPF) clustering algorithm. In the OPF-clustering technique, samples are taken as nodes of a graph whose arcs connect the kk-nearest neighbors in the feature space. The nodes are weighted by their probability density values and a connectivity map is maximized such that each maximum of the probability density function becomes the root of an optimum-path tree (cluster). The best value of kk is estimated by optimization within an application-specific interval of values. The problem with this method is that a high number of samples makes the algorithm prohibitive, due to the required memory space to store the graph and the computational time to obtain the clusters for the best value of kk. Since the existing solutions lead to ineffective results, we decided to revisit the problem by proposing a two-level divide-and-conquer approach. At the first level, the dataset is divided into smaller subsets (blocks) and the samples belonging to each block are grouped by the OPF algorithm. Then, the representative samples (more specifically the roots of the optimum-path forest) are taken to a second level where they are clustered again. Finally, the group labels obtained in the second level are transferred to all samples of the dataset through their representatives of the first level. With this approach, we can use all samples, or at least many samples, in the unsupervised learning process without affecting the grouping performance and, therefore, the procedure is less likely to lose relevant grouping information. We show that our proposal can obtain satisfactory results in two scenarios, image segmentation and the general data clustering problem, in comparison with some popular baselines. In the first scenario, our technique achieves better results than the others in all tested image databases. In the second scenario, it obtains outcomes similar to an optimized version of the traditional OPF-clustering algorithmMestradoCiência da ComputaçãoMestre em Ciência da ComputaçãoCAPE

    Segmentação interativa de volumes baseada em regiões

    Get PDF
    Orientador: Alexandre Xavier FalcãoDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação CientificaMestrad

    Supervised pattern classification using optimum path forest

    Get PDF
    Orientador: Alexandre Xavier FalcãoTese (doutorado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: Padrões são geralmente representados por vetores de atributos obtidos através de amostras em uma base de dados, a qual pode estar totalmente, parcialmente ou não rotulada. Dependendo da quantidade de informação disponível dessa base de dados, podemos aplicar três tipos de técnicas para identificação desses padrões: supervisionadas, semisupervisionadas ou não-supervisionadas. No presente trabalho, estudamos técnicas supervisionadas, as quais caracterizam-se pelo total conhecimento dos rótulos das amostras da base de dados. Propusemos também um novo método para classificação supervisionada de padrões baseada em Floresta de Caminhos Ótimos (OPF - Optimum-Path Forest), a qual modela o problema de reconhecimento de padrões como sendo um grafo, onde os nós são as amostras e os arcos definidos por uma relação de adjacência. Amostras mais relevantes (protótipos) são identificadas e um processo de competição entre elas é iniciado, as quais tentam oferecer caminhos de custo ótimo para as demais amostras da base de dados. Apresentamos aqui duas abordagens, as quais diferem na relação de adjacência, função de custo de caminho e maneira de identificar os protótipos. A primeira delas utiliza como relação de adjacência o grafo completo e identifica os protótipos nas regiões de fronteira entre as classes, os quais oferecem caminhos de custo ótimo que são computados como sendo o valor do maior peso de arco do caminho entre esses protótipos e as demais amostras da base de dados, sendo o peso do arco entre duas amostras dado pela distância entre seus vetores de características. O algoritmo OPF tenta minimizar esses custos para todas as amostras. A outra abordagem utiliza como relação de adjacência um grafo k-nn e identifica os protótipos como sendo os máximos de uma função de densidade de probabilidade, a qual é computada utilizando os pesos dos arcos. O valor do custo do caminho é dado pelo menor valor de densidade ao longo do caminho. Neste caso, o algoritmo OPF tenta agora maximizar esses custos. Apresentamos também um algoritmo de aprendizado genérico, o qual ensina o classificador através de seus erros em um conjunto de validação, trocando amostras classificadas incorretamente por outras selecionadas através de certas restrições. Esse processo é repetido at'e um critério de erro ser estabelecido. Comparações com os classificadores SVM, ANN-MLP, k-NN e BC foram feitas, tendo o OPF demonstrado ser similar ao SVM, porém bem mais rápido, e superior aos restantes.Abstract: Patterns are usually represented by feature vectors obtained from samples of a dataset, which can be fully, partially or non labeled. Depending on the amount of available information of these datasets, three kinds of pattern identification techniques can be applied: supervised, semi-supervised or non supervised. In this work, we addressed the supervised ones, which are characterized by the fully knowledge of the labels from the dataset samples, and we also proposed a novel idea for supervised pattern recognition based on Optimum-Path Forest (OPF), which models the pattern recognition problem as a graph, where the nodes are the samples and the arcs are defined by some adjacency relation. The most relevant samples (prototypes) are identified and a competition process between them is started, which try to offer optimum-path costs to the remaining dataset samples. We presented here two approaches, which differ from each other in the adjacency relation, path-cost function and the prototypes identification procedure. The first ones uses as the adjacency relation the complete graph and identify the prototypes in the boundaries of the classes, which offer optimum-path costs that are computed as been the maximum path arc-weight between these prototypes and the other dataset samples, in which the arc-weight is given by the distance between their feature vectors. In this case, the OPF algorithm tries to minimize these costs for each sample of the dataset. The other approach uses as the adjacency relation a k-nn graph and identifies the prototypes as the maxima of a probability density function, which is computed using the arc-weigths. The path-cost value is given by the lowest density value among it. The OPF algorithm now tries to maximize these costs. We also presented a generic learning algorithm, which tries to teach a classifier through its erros in a validation set, replacing the misclassified samples by other selected using some constraints. This process is repeated until an error criterion is satisfied. Comparisons with SVM, ANN-MLP, k-NN and BC classifiers were also performed, being the OPF similar to SVM, but much faster, and superior to the remaining classifiers.DoutoradoMetodologia e Tecnicas da ComputaçãoDoutor em Ciência da Computaçã

    Tie-zone : the bridge between watershed transforms and fuzzy connectedness

    Get PDF
    Orientador: Roberto de Alencar LotufoTese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de ComputaçãoResumo: Esta tese introduz o novo conceito de transformada de zona de empate que unifica as múltiplas soluções de uma transformada de watershed, conservando apenas as partes comuns em todas estas, tal que as partes que diferem constituem a zona de empate. A zona de empate aplicada ao watershed via transformada imagem-floresta (TZ-IFT-WT) se revela um elo inédito entre transformadas de watershed baseadas em paradigmas muito diferentes: gota d'água, inundação, caminhos ótimos e floresta de peso mínimo. Para todos esses paradigmas e os algoritmos derivados, é um desafio se ter uma solução única, fina, e que seja consistente com uma definição. Por isso, propõe-se um afinamento da zona de empate, único e consistente. Além disso, demonstra-se que a TZ-IFT-WT também é o dual de métodos de segmentação baseados em conexidade nebulosa. Assim, a ponte criada entre as abordagens morfológica e nebulosa permite aproveitar avanços de ambas. Em conseqüência disso, o conceito de núcleo de robustez para as sementes é explorado no caso do watershed.Abstract: This thesis introduces the new concept of tie-zone transform that unifies the multiple solutions of a watershed transform, by conserving only the common parts among them such that the differing parts constitute the tie zone. The tie zone applied to the watershed via image-foresting transform (TZ-IFTWT) proves to be a link between watershed transforms based on very different paradigms: drop of water, flooding, optimal paths and forest of minimum weight. For all these paradigms and the derived algorithms, it is a challenge to get a unique and thin solution which is consistent with a definition. That is why we propose a unique and consistent thinning of the tie zone. In addition, we demonstrate that the TZ-IFT-WT is also the dual of segmentation methods based on fuzzy connectedness. Thus, the bridge between the morphological and the fuzzy approaches allows to take benefit from the advance of both. As a consequence, the concept of cores of robustness for the seeds is exploited in the case of watersheds.DoutoradoEngenharia de ComputaçãoDoutor em Engenharia Elétric

    Projeto de operadores de processamento e analise de imagens baseados na transformada imagem-floresta

    Get PDF
    Orientador : Alexandre Xavier FalcãoDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de ComputaçãoAbstract: In image processing and analysis, many problems can be thought of as an optimal image partition problem based on seed pixels, where each seed defines an influence zone compo­sed by its "closest" pixels. The image foresting transform (1FT) is a unified and efficient approach to solve these problems, by reducing them into a shortest-path forest problem in a graph. It is an extension of previous works on boundary-based image segmenta­tion methods, and it has already been used to design operators for region-based image segmentation, watershed transform and Euclidean distance transformo In this work we add new image processing operators to the 1FT framework, like image segmentation based on fuzzy connectedness, multiscale skeletons and connected operators. We make qualitative and quantitative comparisons with other operators described in the literature, and present some examples in medical imaging and digital video. We also explore some theoretical aspects, such as correctness proofs, complexity analysis and quality assurances of the results of some operatorsResumo: Diversos problemas em processamento e análise de imagens podem ser abordados como um problema de particionamento ótimo de uma imagem baseado em pixels sementes. A transformada imagem-floresta (1FT) se propõe a resolver tais problemas de maneira unificada e eficiente, a partir do cálculo de florestas de caminhos mínimos. Podendo ser considerada uma generalização de trabalhos voltados para a segmentação de imagens baseada em bordas, a 1FT já foi utilizada para segmentação baseada em regiões, cálculo de linhas divisoras de águas e cálculo de transformadas de distância, inclusive baseadas na métrica Euclideana. Neste trabalho acrescentamos novos operadores ao contexto da 1FT, como métodos de segmentação de imagens baseada em conexidade fuzzy, geração de esqueletos multi­escala e operadores conexos. Realizamos comparações qualitativas e quantitativas com outros operadores descritos na literatura, além de apresentar exemplos de aplicações em imagens médicas e em vídeo digital. Exploramos também algumas questões de cunho teórico, como provas de corretude, análises de complexidades computacionais e garantias de qualidade do resultado de alguns métodosMestradoMestre em Ciência da Computaçã

    Shape segmentation and retrieval based on the skeleton cut space

    Get PDF
    3D vormverzamelingen groeien snel in veel toepassingsgebieden. Om deze effectief te kunnen gebruiken bij modelleren, simuleren, of 3D contentontwikkeling moet men 3D vormen verwerken. Voorbeelden hiervan zijn het snijden van een vorm in zijn natuurlijke onderdelen (ook bekend als segmentatie), en het vinden van vormen die lijken op een gegeven model in een grote vormverzameling (ook bekend als opvraging). Dit proefschrift presenteert nieuwe methodes voor 3D vormsegmentatie en vormopvraging die gebaseerd zijn op het zogenaamde oppervlakskelet van een 3D vorm. Hoewel allang bekend, dergelijke skeletten kunnen alleen sinds kort snel, robuust, en bijna automatisch berekend worden. Deze ontwikkelingen stellen ons in staat om oppervlakskeletten te gebruiken om vormen te karakteriseren en analyseren zodat operaties zoals segmentatie en opvraging snel en automatisch gedaan kunnen worden. We vergelijken onze nieuwe methodes met moderne methodes voor dezelfde doeleinden en laten zien dat ons aanpak kwalitatief betere resultaten kan produceren. Ten slotte presenteren wij een nieuwe methode om oppervlakskeletten te extraheren die is veel simpeler dan, en heeft vergelijkbare snelheid met, de beste technieken in zijn klasse. Samenvattend, dit proefschrift laat zien hoe men een complete workflow kan implementeren voor het segmenteren en opvragen van 3D vormen gebruik makend van oppervlakskeletten alleen

    <title>Design of connected operators using the image foresting transform</title>

    No full text

    Tie-zone Watershed, Bottlenecks And Segmentation Robustness Analysis

    No full text
    In a recent paper [1], a new type of watershed (WS) transform was introduced: the tie-zone watershed (TZWS). This region-based watershed transform does not depend on arbitrary implementation and provides a unique (and thereby unbiased) optimal solution. Indeed, many optimal solutions are sometimes possible when segmenting an image by WS. The TZWS assigns each pixel to a catchment basin (CB) if in all solutions it belongs to this CB. Otherwise, the pixel is said to belong to a tie-zone (TZ). An efficient algorithm computing the TZWS and based on the Image Foresting Transform (IFT) was also proposed. In this article, we define the new concept of "bottlenecks" in the watermerging paradigm. Intuitively, the bottlenecks are the first contact points between at least two different wave fronts. They are pixels in the image where different colored waters meet and tie and from which may begin, therefore, the tie-zones. They represent the origin points or the access of the tie-zones (regions that cannot be labeled without making arbitrary choices). If they are preferentially assigned to one or another colored water according to an arbitrary processing order, as occurs in most of watershed algorithm, an entire region (its influence zone -the "bottle"!) is conquered together. The bottlenecks play therefore an important role in the bias that could be introduced by a WS implementation. It is why we show in this paper that both tie-zones and bottlenecks analysis can be associated with the robustness of a segmentation. © 2005 IEEE.20055562Audigier, R., Lotufo, R., Couprie, M., The tie-zone watershed: Definition, algorithm and applications (2005) IEEE Proceedings of ICIP'05, , Genova, Italy, Sept, In pressBeucher, S., Lantuéjoul, C., Use of watersheds in contour detection (1979) International Workshop on Image Processing, Real-Time Edge and Motion Detection/Estimation, , Rennes, FranceCouprie, M., Bertrand, G., Topological grayscale watershed transformation (1997) SPIE Vision Geometry VI Proceedings, 3168, pp. 136-146Dijkstra, E., A note on two problems in connexion with graphs (1959) Numerische MathematikFalcão, A., da Cunha, B., Lotufo, R., Design of connected operators using the image foresting transform (2001) SPIE on Medical Imaging, 4322, pp. 468-479. , Feb. 17-23Falcão, A., Stolfi, J., Lotufo, R., The image foresting transform: Theory, algorithms, and applications (2004) IEEE Trans. on Pattern Analysis and Machine Intelligence, 26 (1), pp. 19-29. , JanLotufo, R., Falcão, A., The ordered queue and the optimality of the watershed approaches (2000) 5th International Symposium on Mathematical Morphology, pp. 341-350. , Palo Alto CA, USA, June, Kluwer AcademicLotufo, R., Falcão, A., Zampirolli, F., IFT-watershed from gray-scale marker (2002) Proceedings of the 15th Brazilian Symposium on Computer Graphics and Image Processing, pp. 146-152. , Fortaleza CE, Brazil, October, IEEE Computer SocietyMeyer, F., Topographic distance and watershed lines (1994) Signal Processing, 38 (1), pp. 113-125Meyer, F., Beucher, S., Morphological segmentation (1990) Journal of Visual Communication and Image Processing, 1 (1), pp. 21-46Najman, L., Couprie, M., Watershed algorithms and contrast preservation (2003) Lecture Notes in Computer Science, 2886, pp. 62-71. , Discrete geometry for computer imagery, of, SpringerRoerdink, J., Meijster, A., The watershed transform: Definitions, algorithms and parallelization strategies (2000) Fundamenta Informaticae, 41 (1-2), pp. 187-228. , JanuaryVincent, L., Soille, P., Watersheds in digital spaces: An efficient algorithm based on immersion simulations (1991) IEEE Trans, on Pattern Analysis and Machine Intelligence, 13 (6), pp. 583-59

    On Integrating Iterative Segmentation By Watershed With Tridimensional Visualization Of Mris

    No full text
    This work presents two fast and iterative methods that integrate segmentation by watershed and three-dimensional visualization, while the classical approach is to separate these two processes. The user-aided segmentation is based on iterative watershed, efficiently implemented using the Image Foresting Transform (IFT). The first proposed algorithm consists of extracting segmented structures' borders during the segmentation and updating them at each iteration. Structure visualization is achieved by border projection. The second algorithm updates the image directly from the changes of the segmented scene occured in each step. The two methods were implemented in C and tested with various Magnetic Resonance Images. The results are satisfactory as compared to the classical approaches. The incremental image algorithm is a little faster than the classical one while the incremental border algorithm, although a little slower in segmenting, allows a very fast rendering, very suitable for object manipulation. Thus, the proposed methods provide a good feedback to user. © 2004 IEEE.130137Audigier, R., (2004) Segmentação e Visualização Tridimensional Interativa de Imagens de Ressonância Magnética, , Master thesis, Faculdade de Engenharia Elétrica e de Computação, Universidade Estadual de Campinas, Campinas (SP), Brazil, Feb. Supported by CAPESFalcão, F.B.A.X., The iterative image foresting transform and its application to user-steered 3d segmentation (2003) Proc. of SPIE on Medical Imaging 2003: Image Processing, 5032, pp. 1464-1475. , FebBergo, F., (2004) Segmentação Interativa de Volumes Baseada em Regiões, , Master thesis, Instituto de Computação - Universidade Estadual de Campinas, Campinas (SP), Brazil, FebBeucher, S., Lantuéjoul, C., Use of watersheds in contour detection (1979) International Workshop on Image Processing, Real-time Edge and Motion Detection/Estimation, , Rennes,FranceBeucher, S., Meyer, F., The morphological approach to segmentation: The watershed transform (1993) Mathematical Morphology in Image Processing, pp. 433-481. , E. R. Dougherty, editor, New York (NY), USA, Marcel Dekker, IncDa Cunha, B., (2001) Projeto de Operadores de Processamento de Imagens Usando a Transformada Imagem-floresta, , Master thesis, Instituto de Computação, Universidade Estadual de Campinas, Campinas (SP), BrazilDijkstra, E., A note on two problems in connexion with graphs (1959) Numerische Mathematik, 1, pp. 269-271Dougherty, E., Lotufo, R., (2003) Hands-on Morphological Image Processing, , SPIE-The International Society for Optical Engineering, Bellingham (Washington), USA, AugFalcão, A., Bergo, F., Interactive volume segmentation with differential image foresting transforms IEEE Trans. on Medical Imaging, , To appearFalcão, A., Costa, L., Da Cunha, B., Multiscale skeletons by image foresting transform and its applications to neuromorphometry (2002) Pattern Recognition, 35 (7), pp. 1569-1580Falcão, A., Da Cunha, B., Lotufo, R., Design of connected operators using the image foresting transform (2001) SPIE on Medical Imaging, 4322, pp. 468-479. , FebFalcão, A., Stolfi, J., Lotufo, R., The image foresting transform: Theory, algorithms, and applications (2004) IEEE Trans. on Pattern Analysis and Machine Intelligence, 26 (1), pp. 19-29. , JanLotufo, R., Falcão, A., The ordered queue and the optimality of the watershed approaches (2000) 5th International Symposium on Mathematical Morphology, pp. 341-350. , JuneLung, C., Ertl, T., Hierarchical volume analysis and visualization based on morphological operators (1998) Proc. of the IEEE Conference on Visualization '98, pp. 335-341. , Research Triangle Park (North Carolina), USA, OctMeyer, F., Beucher, S., Morphological segmentation (1990) Journal of Visual Communication and Image Processing, 1 (1), pp. 21-46Phong, B.T., Illumination for computer generated pictures (1975) Communications of the ACM, 18, pp. 311-317. , JuneTorres, R., Falcão, A., Costa, L., A graph-based approach for multiscale shape analysis (2004) Pattern Recognition, 37 (6), pp. 1163-1174. , June. To appearUdupa, J., Herman, G., (1991) 3D Imaging in Medicine, , CRC Press, Boca Raton (Florida), USAUdupa, J., Odhner, D., Shell rendering (1993) IEEE Computer Graphics and Applications, 13 (6), pp. 58-6
    corecore