236 research outputs found

    A distributed Quadtree Dictionary approach to multi-resolution visualization of scattered neutron data

    Get PDF
    Grid computing is described as dependable, seamless, pervasive access to resources and services, whereas mobile computing allows the movement of people from place to place while staying connected to resources at each location. Mobile grid computing is a new computing paradigm, which joins these two technologies by enabling access to the collection of resources within a user\u27s virtual organization while still maintaining the freedom of mobile computing through a service paradigm. A major problem in virtual organization is needs mismatch, in which one resources requests a service from another resources it is unable to fulfill, since virtual organizations are necessarily heterogeneous collections of resources. In this dissertation we propose a solution to the needs mismatch problem in the case of high energy physics data. Specifically, we propose a Quadtree Dictionary (QTD) algorithm to provide lossless, multi-resolution compression of datasets and enable their visualization on devices of all capabilities. As a prototype application, we extend the Integrated Spectral Analysis Workbench (ISAW) developed at the Intense Pulsed Neutron Source Division of the Argonne National Laboratory into a mobile Grid application, Mobile ISAW. In this dissertation we compare our QTD algorithm with several existing compression techniques on ISAW\u27s Single-Crystal Diffractometer (SCD) datasets. We then extend our QTD algorithm to a distributed setting and examine its effectiveness on the next generation of SCD datasets. In both a serial and distributed setting, our QTD algorithm performs no worse than existing techniques such as the square wavelet transform in terms of energy conservation, while providing the worst-case savings of 8:1

    3D Visualization of very large databases - integrating and expanding the state of the art in bioinformatics and astroinformatics

    Get PDF
    Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2015A exploração visual de dados é essencial para o processo científico. Muitas vezes, é o ponto de partida e até mesmo a referência de orientação para o pensamento científico. Tanto a Biologia como a Astronomia enfrentam o desafio comum da análise de grandes conjuntos de dados altamente multidimensionais. O atual estado da exploração visual de dados tabulares, muitas vezes sobre o formato de nuvens de pontos, é feito principalmente usando representações 2D. No entanto a dimensionalidade reduzida esconde facilmente características e relações nos dados. Como exemplo, a redução de dimensionalidade facilmente produz “overplotting” e vistas desorganizadas. Vários painéis 2D são muitas vezes utilizados para melhorar este problema, mas a ligação entre dados em diferentes painéis frequentemente não é clara. Estudos indicam que a redução de 3D para 2D reduz significativamente a quantidade de informação visual na análise de dados genómicos. Curiosamente, a visualização 3D não é generalizada na análise de nuvens de pontos. Esta técnica é usada quase exclusivamente no estudo de fluidos e campos, que são corpos estendidos. Uma das razões é a falta de boas ferramentas para seleção 3D e interação com grandes conjuntos de pontos. Os arquivos extremamente grandes produzidos pelos levantamentos astronómicos do presente, em conjunto com os padrões estabelecidos pelo Observatório (Astronómico) Virtual Internacional para troca de dados e interação de aplicações estão a produzir uma mudança de paradigma na forma como os dados são explorados. A tendência atual é de se deixar de fazer a exploração dos dados unicamente localmente, isto é trazendo-os para as estações de trabalho dos utilizadores, e passando-se a recorrer a serviços “on-line” para pesquisar e explorar os arquivos, quer localmente na estação de trabalho como em dispositivos móveis. O mesmo tipo de mudança de paradigma é visto nas Ciências Biológicas, onde, por exemplo, os dados genómicos são armazenados em diferentes repositórios on-line. Como tal, também se torna natural abordar a exploração moderna de dados visuais também com serviços on-line. Na verdade, isso está-se a tornar uma realidade com serviços recentes, como Rapidgraph e Plot.ly que estão a receber atenção tanto da comunidade astronómica como de outros campos. Na biologia, o Epiviz um serviço on-line projetado para visualização de dados genómicos funcionais tem recebido grande atenção ultimamente, depois de ter sido destaque na revista Nature. Neste trabalho foi desenvolvida uma aplicação web para visualização de dados, denominada SHIV, acrónimo de Simple HTML Interactive Visualizator, cuja tradução é Visualizador Interativo HTML Simples. Esta aplicação web funciona como um cliente para outra aplicação, o Object Server, um servidor de dados. O Object Server é a aplicação que irá fornecer à missão Gaia da Agência Espacial Europeia, um levantamento de 1% das estrelas da Via Láctea (ainda assim para cima de mil milhões de objetos), as funcionalidades de visualização interativa tanto em 2D como em 3D. Este trabalho, o conjunto de cliente web com a aplicação servidor, propõe-se a oferecer aos seus utilizadores uma plataforma capaz de providenciar capacidades de visualização interativa de dados de vários domínios, indo desde dados astronómicos a dados genómicos. Os utilizadores têm à sua disposição uma ferramenta acessível em qualquer plataforma, de um comum computador desktop a correr Windows a um tablet a correr Android, desde que exista uma ligação de rede e um navegador de internet razoavelmente recente é possível utilizar a aplicação. Para ultrapassar tanto as limitações associadas aos navegadores, em termos de capacidades de processamento e de armazenamento, como limitações no tratamento de grandes quantidades de dados, escolheu-se modificar um servidor de dados, principalmente astronómicos, já provado. A grande quantidade de dados a visualizar é um problema atual no domínio astronómico, que ultrapassa em muito as capacidades disponíveis nos computadores de secretária atuais, e tudo leva a crer que com a tendência de crescimento associado à Bioinformática o mesmo aconteça num futuro próximo. Para oferecer aos utilizadores de computadores normais a capacidade de visualizar o catálogo da missão Gaia, foi desenvolvido uma aplicação que fornece, entre outras, funcionalidades de níveis-de-detalhe (do inglês level-of-detail), detalhe-a-pedido (do inglês detail-on-demand) e vistas ligadas (do inglês linked-views). A conjunção de níveis-de-detalhe, a descrição de um objeto ou conjunto de objetos com sucessivos níveis de detalhe progressivamente mais complexos, com detalhe-a-pedido, a capacidade de obter só os dados relevantes a um dado campo de visão ou filtro de dados, oferece a clientes com capacidades limitadas uma visão fiel dos dados, uma visão adaptada às suas restrições, quer de resolução disponível quer de outras limitações relacionadas com a capacidade de processamento existentes. A capacidade de ligar vistas oferece aos utilizadores a possibilidade de ligar vários gráficos de uma mesma fonte de dados, por exemplo ao fazer um gráfico de dispersão de um conjunto de amostras, pode ver como é que uma dada seleção se relaciona com um histograma de expressão média. Estas capacidades, tanto para visualizações 2D como para 3D, ao serem oferecidas por uma aplicação que funciona como um serviço oferece persistência dos dados, o que significa que um utilizador pode começar uma visualização num dispositivo e terminá-la noutro. Oferece também a possibilidade de partilhar tanto os dados como visualizações já criadas com outros utilizadores. No âmbito deste trabalho várias modificações e adições tiveram que ser efetuadas na aplicação servidor, de modo a poder integra-la no domínio da Bioinformática. Foi, por exemplo, adicionada a capacidade de carregamento de ficheiros em formato FASTA ou FASTAQ assim como de ficheiros em formato GFF ou GTF, formatos comuns. Foram também melhoradas as capacidades de serviço de aplicações web, já que a aplicação original está focada em clientes nativos. Várias funcionalidades de transformação de dados, como por exemplo a capacidade de criar transpostas de uma dada tabela ou a capacidade de gerar matrizes de distâncias de amostras. O cliente foi desenvolvido com base na biblioteca D3.js de Mike Bostock, esta biblioteca oferece capacidades de produção de gráficos dinâmicos e interativos para a web, utilizando as especificações, largamente utilizadas, de HTML5, Gráficos Vetoriais Escaláveis (do inglês Scalable Vector Graphics) e Folhas de Estilo em Cascata (do inglês Cascading Style Sheets). Para o aspeto gráfico e ambiente de interação do cliente foi também utilizada a biblioteca Bootstrap, que oferece um conjunto de elementos de tipografia comuns como botões, formulários, etc., que facilitam a criação de interfaces modernas e que funcionam de maneira similar em diferentes navegadores. Para além de oferecer capacidades de visualização interativa de dados em uma ou duas dimensões, através dos muito utilizados gráficos de dispersão (scatter plot), gráficos de linhas, histogramas, Heatmaps e gráficos de blocos. A aplicação oferece também capacidades básicas de visualização de dados em três dimensões. O 3D é discutido neste trabalho porque é pouco comum ainda no domínio da Bioinformática, e no geral nas ciências biológicas, a sua utilização. Embora existam utilizações, como por exemplo a visualização da estrutura de proteínas, no resto do domínio são raras as menções da utilização do 3D para efetuar ciência e gerar conhecimento. Um possível motivo para tal é que as ferramentas atualmente existentes não contemplam a possibilidade da criação de visualizações em três dimensões. Espera-se que com a inclusão, à partida, de capacidades 3D numa aplicação que espera ser uma base de trabalho para o futuro fomente a utilização do 3D na Bioinformática. Para demonstrar as capacidades do conjunto das aplicações, são mostrados casos de uso. O primeiro, um caso de uso tipicamente astronómico, mostra como é possível efetuar a visualização dos dados da missão Hipparcos da Agência Espacial Europeia, a primeira missão focada em astrometria de precisão que efetuou medidas precisas da posição de objetos celestes, num diagrama de Hertzsprung–Russell. Este diagrama de cor-magnitude é utilizado no conhecimento da evolução estelar nos domínios da astronomia e astrofísica. Ao mesmo tempo cria-se e visualiza-se um gráfico de dispersão das posições das estrelas observadas e compara-se seleções efetuadas num dos gráficos com a sua localização no outro gráfico, fazendo uso da funcionalidade de vistas ligadas. O segundo caso de uso é um exemplo típico de bioinformática exploratória. Com o carregamento de dados de expressão genética, obtidos pelo método de Cap Analysis of Gene Expression de amostras humanas do consórcio FANTOM5. Estas 70 amostras, principalmente de tecido cerebral juntamente com alguns outliers como tecido do útero, servem como base do caso de uso. Após o carregamento dos dados cria-se e visualiza-se um gráfico MA da expressão de genética em amostras de adulto e de recém-nascido de substantia nigra. Seguidamente criam-se histogramas para a largura da expressão genética assim da expressão média dos genes. Estas visualizações demostram as capacidades interativas da aplicação. Seguidamente compara-se a largura da expressão genética com a expressão média, faz-se também uso da funcionalidade de acrescentar linhas de regressão ao gráfico para verificar a existência de tendências nos dados. Depois cria-se a matriz de distâncias das amostras que serve de base a um Heatmap onde se pode visualizar facilmente as amostras outlier. Finalmente mostra-se a utilização de gráficos em 3D para a visualizar a informação obtida no Heatmap e como também se poderia distinguir outliers com recurso à mesma. Para terminar faz-se uma discussão do trabalho e apresenta-se as áreas onde o trabalho futuro se pode focar.Visual data exploration is essential to the scientific process. It is often the starting point and even the guiding reference for scientific thought. Both biology and astronomy face the common challenge of analysing large sets of highly multidimensional data. Current day visual exploration of tabular data (point clouds) is mostly done using 2D representations. But reduced dimensionality easily hides features and relations in the data. As an example, collapsing dimensions easily produces overplotting and cluttered views. Multiple 2D panels are often used to improve this problem but the link between data in different panels is frequently not clear. Studies indicate that reduction from 3D to 2D reduces significantly the quantity of visual information in the analysis of genomic data. Curiously, 3D visualisation is not widespread in the analysis of point clouds. It is almost exclusively used with fluids and fields, which are extended bodies. One of the reasons is a lack of good tools for 3D selection and interaction with large sets of point. The extremely large archives produced by today's astronomical surveys, together with the International (Astronomical) Virtual Observatory standards for data interexchange and application messaging are producing a paradigm shift in the way data is explored. The tendency is becoming not to download the data to the user’s workstation or mobile device and explore it locally, but instead to use on-line services for querying and exploring those archives. The same kind of paradigm shift is seen in the Biological Sciences where, for example, genomic data are stored in different on-line repositories. Thus, it also becomes natural to address modern visual data exploration also with on-line services. Indeed, this is becoming a reality and recent services such as Rapidgraph and Plotly are receiving attention from the astronomical community among others. In biology, the Epiviz on-line service designed for visualisation of functional genomics data has received great attention lately, having been featured by Nature. In this work a web-based interactive visualization tool, the Simple HTML Interactive Visualizator (SHIV), was developed which in conjunction with a server software, Object Server, used for providing the interactive 2D and 3D visualization infrastructure to the European Space Agency’s Gaia mission, a survey of over a billion starts or 1% of the stellar content of the Milky Way. The conjunction of a web-based client with a server software allows users, with normal computers and/or in mobile devices, to visualize the large amounts of data that are common in the Astronomy and Astrophysics fields, and are expected to happen in the near future in the Bioinformatics field if the tendency to growth holds. This capacity is made possible with the usage of features like levels-of-detail, detail-on-demand and linked views. The creation of progressively more complex levels of detail for a given object or objects (levels-of-detail), in conjunction with the possibility to just request the data associated with a given viewport or filter (detail-on-demand) allow that clients with limited resources and/or limited screen space offer to users visualizations that faithfully represent the totality of the data. Allowing users to link views, gives them the possibility to explore multiple dimensions of the same data by using several graphs to focus on specific features. The client offers common visualization tools, with the creation of scatter plots, histograms, heatmaps, linecharts and block charts in two dimensions, as well as the creation of three dimensional visualizations. It is hoped that the support for 3D since the inception of the client will provide users with the tool necessary to analyse their data in new and innovative ways

    Automated interpretation of digital images of hydrographic charts.

    Get PDF
    Details of research into the automated generation of a digital database of hydrographic charts is presented. Low level processing of digital images of hydrographic charts provides image line feature segments which serve as input to a semi-automated feature extraction system, (SAFE). This system is able to perform a great deal of the building of chart features from the image segments simply on the basis of proximity of the segments. The system solicits user interaction when ambiguities arise. IThe creation of an intelligent knowledge based system (IKBS) implemented in the form of a backward chained production rule based system, which cooperates with the SAFE system, is described. The 1KBS attempts to resolve ambiguities using domain knowledge coded in the form of production rules. The two systems communicate by the passing of goals from SAFE to the IKBS and the return of a certainty factor by the IKBS for each goal submitted. The SAFE system can make additional feature building decisions on the basis of collected sets of certainty factors, thus reducing the need for user interaction. This thesis establishes that the cooperating IKBS approach to image interpretation offers an effective route to automated image understanding

    Giving eyes to ICT!, or How does a computer recognize a cow?

    Get PDF
    Het door Schouten en andere onderzoekers op het CWI ontwikkelde systeem berust op het beschrijven van beelden met behulp van fractale meetkunde. De menselijke waarneming blijkt mede daardoor zo efficiënt omdat zij sterk werkt met gelijkenissen. Het ligt dus voor de hand het te zoeken in wiskundige methoden die dat ook doen. Schouten heeft daarom beeldcodering met behulp van 'fractals' onderzocht. Fractals zijn zelfgelijkende meetkundige figuren, opgebouwd door herhaalde transformatie (iteratie) van een eenvoudig basispatroon, dat zich daardoor op steeds kleinere schalen vertakt. Op elk niveau van detaillering lijkt een fractal op zichzelf (Droste-effect). Met fractals kan men vrij eenvoudig bedrieglijk echte natuurvoorstellingen maken. Fractale beeldcodering gaat ervan uit dat het omgekeerde ook geldt: een beeld effectief opslaan in de vorm van de basispatronen van een klein aantal fractals, samen met het voorschrift hoe het oorspronkelijke beeld daaruit te reconstrueren. Het op het CWI in samenwerking met onderzoekers uit Leuven ontwikkelde systeem is mede gebaseerd op deze methode. ISBN 906196502

    Scalable Realtime Rendering and Interaction with Digital Surface Models of Landscapes and Cities

    Get PDF
    Interactive, realistic rendering of landscapes and cities differs substantially from classical terrain rendering. Due to the sheer size and detail of the data which need to be processed, realtime rendering (i.e. more than 25 images per second) is only feasible with level of detail (LOD) models. Even the design and implementation of efficient, automatic LOD generation is ambitious for such out-of-core datasets considering the large number of scales that are covered in a single view and the necessity to maintain screen-space accuracy for realistic representation. Moreover, users want to interact with the model based on semantic information which needs to be linked to the LOD model. In this thesis I present LOD schemes for the efficient rendering of 2.5d digital surface models (DSMs) and 3d point-clouds, a method for the automatic derivation of city models from raw DSMs, and an approach allowing semantic interaction with complex LOD models. The hierarchical LOD model for digital surface models is based on a quadtree of precomputed, simplified triangle mesh approximations. The rendering of the proposed model is proved to allow real-time rendering of very large and complex models with pixel-accurate details. Moreover, the necessary preprocessing is scalable and fast. For 3d point clouds, I introduce an LOD scheme based on an octree of hybrid plane-polygon representations. For each LOD, the algorithm detects planar regions in an adequately subsampled point cloud and models them as textured rectangles. The rendering of the resulting hybrid model is an order of magnitude faster than comparable point-based LOD schemes. To automatically derive a city model from a DSM, I propose a constrained mesh simplification. Apart from the geometric distance between simplified and original model, it evaluates constraints based on detected planar structures and their mutual topological relations. The resulting models are much less complex than the original DSM but still represent the characteristic building structures faithfully. Finally, I present a method to combine semantic information with complex geometric models. My approach links the semantic entities to the geometric entities on-the-fly via coarser proxy geometries which carry the semantic information. Thus, semantic information can be layered on top of complex LOD models without an explicit attribution step. All findings are supported by experimental results which demonstrate the practical applicability and efficiency of the methods

    New data structures and algorithms for the efficient management of large spatial datasets

    Get PDF
    [Resumen] En esta tesis estudiamos la representación eficiente de matrices multidimensionales, presentando nuevas estructuras de datos compactas para almacenar y procesar grids en distintos ámbitos de aplicación. Proponemos varias estructuras de datos estáticas y dinámicas para la representación de matrices binarias o de enteros y estudiamos aplicaciones a la representación de datos raster en Sistemas de Información Geográfica, bases de datos RDF, etc. En primer lugar proponemos una colección de estructuras de datos estáticas para la representación de matrices binarias y de enteros: 1) una nueva representación de matrices binarias con grandes grupos de valores uniformes, con aplicaciones a la representación de datos raster binarios; 2) una nueva estructura de datos para representar matrices multidimensionales; 3) una nueva estructura de datos para representar matrices de enteros con soporte para consultas top-k de rango. También proponemos una nueva representación dinámica de matrices binarias, una nueva estructura de datos que proporciona las mismas funcionalidades que nuestras propuestas estáticas pero también soporta cambios en la matriz. Nuestras estructuras de datos pueden utilizarse en distintos dominios. Proponemos variantes específicas y combinaciones de nuestras propuestas para representar grafos temporales, bases de datos RDF, datos raster binarios o generales y datos raster temporales. También proponemos un nuevo algoritmo para consultar conjuntamente un conjuto de datos raster (almacenado usando nuestras propuestas) y un conjunto de datos vectorial almacenado en una estructura de datos clásica, mostrando que nuestra propuesta puede ser más rápida y usar menos espacio que otras alternativas. Nuestras representaciones proporcionan interesantes trade-offs y son competitivas en espacio y tiempos de consulta con representaciones habituales en los diferentes dominios.[Resumo] Nesta tese estudiamos a representación eficiente de matrices multidimensionais, presentando novas estruturas de datos compactas para almacenar e procesar grids en distintos ámbitos de aplicación. Propoñemos varias estruturas de datos estáticas e dinámicas para a representación de matrices binarias ou de enteiros e estudiamos aplicacións á representación de datos raster en Sistemas de Información Xeográfica, bases de datos RDF, etc. En primeiro lugar propoñemos unha colección de estruturas de datos estáticas para a representación de matrices binarias e de enteiros: 1) unha nova representación de matrices binarias con grandes grupos de valores uniformes, con aplicacións á representación de datos raster binarios; 2) unha nova estrutura de datos para representar matrices multidimensionais; 3) unha nova estrutura de datos para representar matrices de enteiros con soporte para consultas top-k. Tamén propoñemos unha nova representación dinámica de matrices binarias, unha nova estrutura de datos que proporciona as mesmas funcionalidades que as nosas propostas estáticas pero tamén soporta cambios na matriz. As nosas estruturas de datos poden utilizarse en distintos dominios. Propoñemos variantes específicas e combinacións das nosas propostas para representar grafos temporais, bases de datos RDF, datos raster binarios ou xerais e datos raster temporais. Tamén propoñemos un novo algoritmo para consultar conxuntamente datos raster (almacenados usando as nosas propostas) con datos vectoriais almacenados nunha estrutura de datos clásica, amosando que a nosa proposta pode ser máis rápida e usar menos espazo que outras alternativas. As nosas representacións proporcionan interesantes trade-offs e son competitivas en espazo e tempos de consulta con representacións habituais nos diferentes dominios.[Abstract] In this thesis we study the efficient representation of multidimensional grids, presenting new compact data structures to store and query grids in different application domains. We propose several static and dynamic data structures for the representation of binary grids and grids of integers, and study applications to the representation of raster data in Geographic Information Systems, RDF databases, etc. We first propose a collection of static data structures for the representation of binary grids and grids of integers: 1) a new representation of bi-dimensional binary grids with large clusters of uniform values, with applications to the representation of binary raster data; 2) a new data structure to represent multidimensional binary grids; 3) a new data structure to represent grids of integers with support for top-k range queries. We also propose a new dynamic representation of binary grids, a new data structure that provides the same functionalities that our static representations of binary grids but also supports changes in the grid. Our data structures can be used in several application domains. We propose specific variants and combinations of our generic proposals to represent temporal graphs, RDF databases, OLAP databases, binary or general raster data, and temporal raster data. We also propose a new algorithm to jointly query a raster dataset (stored using our representations) and a vectorial dataset stored in a classic data structure, showing that our proposal can be faster and require less space than the usual alternatives. Our representations provide interesting trade-offs and are competitive in terms of space and query times with usual representations in the different domains

    An Architecture for distributed multimedia database systems

    Get PDF
    In the past few years considerable demand for user oriented multimedia information systems has developed. These systems must provide a rich set of functionality so that new, complex, and interesting applications can be addressed. This places considerable importance on the management of diverse data types including text, images, audio and video. These requirements generate the need for a new generation of distributed heterogeneous multimedia database systems. In this paper we identify a set of functional requirements for a multimedia server considering database management, object synchronization and integration, and multimedia query processing. A generalization of the requirements to a distributed system is presented, and some of our current research and developing activities are discussed
    corecore