24 research outputs found

    Parallel and distributed computing techniques in biomedical engineering

    Get PDF
    Master'sMASTER OF ENGINEERIN

    Analyzing the impact of the MPI allreduce in distributed training of convolutional neural networks

    Get PDF
    For many distributed applications, data communication poses an important bottleneck from the points of view of performance and energy consumption. As more cores are integrated per node, in general the global performance of the system increases yet eventually becomes limited by the interconnection network. This is the case for distributed data-parallel training of convolutional neural networks (CNNs), which usually proceeds on a cluster with a small to moderate number of nodes. In this paper, we analyze the performance of the Allreduce collective communication primitive, a key to the efficient data-parallel distributed training of CNNs. Our study targets the distinct realizations of this primitive in three high performance instances of Message Passing Interface (MPI), namely MPICH, OpenMPI, and IntelMPI, and employs a cluster equipped with state-of-the-art processor and network technologies. In addition, we apply the insights gained from the experimental analysis to the optimization of the TensorFlow framework when running on top of Horovod. Our study reveals that a careful selection of the most convenient MPI library and Allreduce (ARD) realization accelerates the training throughput by a factor of 1.2× compared with the default algorithm in the same MPI library, and up to 2.8× when comparing distinct MPI libraries in a number of relevant combinations of CNN model+dataset

    Astro - A Low-Cost, Low-Power Cluster for CPU-GPU Hybrid Computing using the Jetson TK1

    Get PDF
    With the rising costs of large scale distributed systems many researchers have began looking at utilizing low power architectures for clusters. In this paper, we describe our Astro cluster, which consists of 46 NVIDIA Jetson TK1 nodes each equipped with an ARM Cortex A15 CPU, 192 core Kepler GPU, 2 GB of RAM, and 16 GB of flash storage. The cluster has a number of advantages when compared to conventional clusters including lower power usage, ambient cooling, shared memory between the CPU and GPU, and affordability. The cluster is built using commodity hardware and can be setup for relatively low costs while providing up to 190 single precision GFLOPS of computing power per node due to its combined GPU/CPU architecture. The cluster currently uses one 48-port Gigabit Ethernet switch and runs Linux for Tegra, a modified version of Ubuntu provided by NVIDIA as its operating system. Common file systems such as PVFS, Ceph, and NFS are supported by the cluster and benchmarks such as HPL, LAPACK, and LAMMPS are used to evaluate the system. At peak performance, the cluster is able to produce 328 GFLOPS of double precision and a peak of 810W using the LINPACK benchmark placing the cluster at 324th place on the Green500. Single precision benchmarks result in a peak performance of 6800 GFLOPs. The Astro cluster aims to be a proof-of-concept for future low power clusters that utilize a similar architecture. The cluster is installed with many of the same applications used by top supercomputers and is validated using the several standard supercomputing benchmarks. We show that with the rise of low-power CPUs and GPUs, and the need for lower server costs, this cluster provides insight into how ARM and CPU-GPU hybrid chips will perform in high-performance computing

    Methods and design issues for next generation network-aware applications

    Get PDF
    Networks are becoming an essential component of modern cyberinfrastructure and this work describes methods of designing distributed applications for high-speed networks to improve application scalability, performance and capabilities. As the amount of data generated by scientific applications continues to grow, to be able to handle and process it, applications should be designed to use parallel, distributed resources and high-speed networks. For scalable application design developers should move away from the current component-based approach and implement instead an integrated, non-layered architecture where applications can use specialized low-level interfaces. The main focus of this research is on interactive, collaborative visualization of large datasets. This work describes how a visualization application can be improved through using distributed resources and high-speed network links to interactively visualize tens of gigabytes of data and handle terabyte datasets while maintaining high quality. The application supports interactive frame rates, high resolution, collaborative visualization and sustains remote I/O bandwidths of several Gbps (up to 30 times faster than local I/O). Motivated by the distributed visualization application, this work also researches remote data access systems. Because wide-area networks may have a high latency, the remote I/O system uses an architecture that effectively hides latency. Five remote data access architectures are analyzed and the results show that an architecture that combines bulk and pipeline processing is the best solution for high-throughput remote data access. The resulting system, also supporting high-speed transport protocols and configurable remote operations, is up to 400 times faster than a comparable existing remote data access system. Transport protocols are compared to understand which protocol can best utilize high-speed network connections, concluding that a rate-based protocol is the best solution, being 8 times faster than standard TCP. An HD-based remote teaching application experiment is conducted, illustrating the potential of network-aware applications in a production environment. Future research areas are presented, with emphasis on network-aware optimization, execution and deployment scenarios

    Small animal PET imaging using GATE Monte Carlo simulations : Implementation of physiological and metabolic information

    Get PDF
    Tese de doutoramento, (Engenharia Biomédica e Biofísica), Universidade de Lisboa, Faculdade de Ciências, 2010O rato/ratinho de laboratório é o modelo animal de escolha para o estudo dos processos fundamentais associados a determinadas patologias, como o cancro. Esta escolha deve-se a uma gama de factores que incluem uma grande homologia genética com o Homem. Assim sendo o rato/ratinho é amplamente utilizado em laboratórios por todo o Mundo para estudo dos processos celulares básicos associados á doença e à terapia. A comunidade laboratorial tem, nos últimos anos, desenvolvido um grande interesse pela imagiologia não-invasiva destes animais. De entre as diversas tecnologias de imagem aplicadas aos estudosin vivo de pequenos animais, a Tomografia por Emissão de Positrões (PET) permite obter informação sobre a distribuição espacial e temporal de moléculas marcadas com átomo emissor de positrões, de forma não invasiva. Os traçadores utilizados para obter esta “imagem molecular” são administrados em baixas quantidades, de tal forma que os processos biológicos que envolvem concentrações da ordem do nano molar, ou mesmo inferiores, podem ser determinadas sem perturbar o processo em estudo. Muitas combinações de diferentes moléculas com diferentes radionúclidos permitem traçar uma gama de caminhos moleculares específicos (e.g. processos biológicos de receptores e síntese de transmissores em caminhos de comunicação em células, processos metabólicos e expressão genética). A imagem pode ser executada repetidamente antes e depois de intervenções permitindo o uso de cada animal como o seu próprio controlo biológico. A investigação já realizada em curso que aplicam a PET ao estudos de pequenos animais, tem permitido compreender, entre outras coisas, a evolução de determinadas doenças e suas potenciais terapias. Contudo, existem algumas dificuldades de implementação desta técnica já que a informação obtida está condicionada pelos fenómenos físicos associados à interacção da radiação com a matéria, pelos instrumentos envolvidos na obtenção da informação e pela própria fisiologia do animal (por exemplo o seu movimento fisiológico). De facto, a fiabilidade da quantificação das imagens obtidas experimentalmente, em sistemas PET dedicados aos pequenos animais, é afectada ao mesmo tempo pelos limites de desempenho dos detectores (resolução espacial e em energia, sensibilidade, etc.), os efeitos físicos como a atenuação e a dispersão, que perturbam a reconstrução da imagem, e os efeitos fisiológicos (movimentos do animal). Na prática estes efeitos são corrigidos com métodos de correcção específicos com a finalidade de extrair parâmetros quantitativos fiáveis. Por outro lado, as características fisiológicas dos animais a estudar e a necessidade da existência de animais disponíveis, são factores adicionais de complexidade. Recentemente, tem sido dedicada alguma atenção aos efeitos resultantes dos movimentos fisiológicos, nomeadamente do movimento respiratório, na qualidade das imagens obtidas no decurso de um exame PET. Em particular, no caso do estudo dos tumores do pulmão (algo infelizmente muito frequente em humanos), o movimento fisiológico dos pulmões é uma fonte de degradação das imagens PET, podendo comprometer a sua resolução e o contraste entre regiões sãs e doentes deste orgão. A precisão quantitativa na determinação da concentração de actividade e dos volumes funcionais fica assim debilitada, sendo por vezes impedida a localização, detecção e quantificação do radiotraçador captado nas lesões pulmonares. De modo a conseguir diminuir estes efeitos, existe a necessidade de melhor compreender a influência deste movimento nos resultados PET. Neste contexto, as simulações Monte Carlo são um instrumento útil e eficaz de ajuda à optimização dos componentes dos detectores existentes, à concepção de novos detectores, ao desenvolviBaseados em modelos matemáticos dos processos físicos, químicos e, sempre que possível, biológicos, os métodos de simulação Monte Carlo são, desde há muito, uma ferramenta privilegiada para a obtenção de informação fiável da previsão do comportamento de sistemas complexos e por maioria de razão, para uma sua melhor compreensão. No contexto da Imagiologia Molecular, a plataforma de simulação Geant4 Application for Tomographic Emission (GATE), validada para as técnicas de imagem de Medicina Nuclear, permite a simulação por Monte Carlo dos processos de obtenção de imagem. Esta simulação pode mesmo ser feita quando se pretende estudar a distribuição de emissores de positrões cuja localização varia ao longo do tempo. Adicionalmente, estas plataformas permitem a utilização de modelos computacionais para modelar a anatomia e a fisiologia dos organismos em estudo mediante a utilização de uma sua representação digital realista denominada de fantôma. A grande vantagem na utilização destes fantômas relaciona-se com o facto de conhecermos as suas características geométricas (“anatómicas”) e de podermos controlar as suas características funcionais (“fisiológicas”). Podemos assim obter padrões a partir dos quais podemos avaliar e aumentar a qualidade dos equipamentos e técnicas de imagem. O objectivo do presente trabalho consiste na modelação e validação de uma plataforma de simulação do sistema microPET® FOCUS 220, usado em estudos de PET para pequenos animais, utilizando a plataforma de simulação GATE. A metodologia adoptada procurou reproduzir de uma forma realista, o ambiente de radiação e factores instrumentais relacionados com o sistema de imagem, assim como o formato digital dos dados produzidos pelo equipamento. Foram usados modelos computacionais, obtidos por segmentação de imagem de exames reais, para a avaliação da quantificação das imagens obtidas. Os resultados obtidos indicam que a plataforma produz resultados reprodutíveis, adequados para a sua utilização de estudos de pequenos animais em PET. Este objectivo foi concretizado estudando os efeitos combinados do tamanho das lesões, do rácio de concentração de actividade lesão-para-fundo e do movimento respiratório na recuperação de sinal de lesões esféricas localizadas no pulmão em imagens PET de pequenos animais. Para este efeito, foi implementada no código GATE uma representação digital em 4D de um ratinho de corpo inteiro (o fantôma MOBY). O MOBY permitiu reproduzir uma condição fisiológica que representa a respiração em condição de "stress", durante um exame típico de PET pequeno animal, e a inclusão de uma lesão esférica no pulmão tendo em conta o movimento da mesma. Foram realizadas um conjunto de simulações estáticas e dinâmicas usando 2-Deoxy-[18F]fluoro-D-glucose (FDG) tendo em consideração diferentes tamanhos das lesões e diferentes captações deste radiofármaco. O ruído da imagem e a resolução temporal foram determinadas usando imagens 3D e 4D. O rácio sínal-para-ruído (SNR), o rácio contraste-para-ruído (CNR), a relação lesão-fundo (target-to-background activity concentration ratio- TBR), a recuperação de contraste (CR) e a recuperação de volume (VR) foram também avaliados em função do tamanho da lesão e da actividade captada. Globalmente, os resultados obtidos demonstram que a perda de sinal depende tanto do tamanho da lesão como da captação de actividade na lesão. Nas simulações estáticas, onde não foi simulado movimento, os coeficientes de recuperação foram influenciados pelo efeito de volume parcial para os tamanhos mais reduzidos de lesão. Além disso, o aumento do contraste na lesão produz um aumento significativo no desvio padrão da média de sinal recuperado resultando numa diminuição no CNR e no SNR. Também concluímos que o movimento respiratório diminui significativamente a recuperação do sinal e que esta perda depende principalmente do tamanho da lesão. A melhor resolução temporal e resolução espacial foram obtidas nas simulações estáticas, onde não existia movimento envolvido. Os resultados simulados mostram que o efeito de volume parcial é dominante nas lesões mais pequenas devido à resolução espacial do sistema FOCUS, tanto nas imagens estáticas como nas dinâmicas. Além disso, para concentrações baixas de radiofármaco existe uma dificuldade inerente em quantificar a recuperação de sinal nas lesões comprometendo a análise quantitativa dos dados obtidos.Organ motion has become of great concern in medical imaging only recently. Respiratory motion is one source of degradation of PET images. Respiratory motion may lead to image blurring, which may result in reduced contrast and quantitative accuracy in terms of recovered activity concentration and functional volumes. Consequently, the motion of lungs hinders the localization, detection, and the quantification of tracer uptake in lung lesions. There is, therefore, a need to better understand the effects of this motion on PET data outcome. Medical imaging methods and devices are commonly evaluated through computer simulation. Computer generated phantoms are used to model patient anatomy and physiology, as well as the imaging process itself. A major advantage of using computer generated phantoms in simulation studies is that the anatomy and physiological functions of the phantom are known, thus providing a gold standard from which to evaluate and improve medical imaging devices and techniques. In this thesis, are presented the results of a research studied the combined effects of lesion size, lesion-to-background activity concentration ratio and respiratory motion on signal recovery of spherical lesions in small animal PET images using Monte Carlo simulation. Moreover, background activity is unavoidable and it causes significant noise and contrast loss in PET images. For these purposes, has been used the Geant4 Application for Tomographic Emission (GATE) Monte Carlo platform to model the microPET®FOCUS 220 system. Additionaly, was implemented the digital 4D Mouse Whole-Body (MOBY) phantom into GATE. A physiological “stress breathing” condition was created for MOBY in order to reproduce the respiratory mouse motion during a typical PET examination. A spherical lung lesion was implemented within this phantom and its motion also modelled. Over a complete respiratory cycle of 0.37 s was retrieved a set of 10 temporal frames (including the lesion movement) generated in addition to a non-gated data set. Sets of static (non-gated data) and dynamic (gated data) 2-Deoxy-[18F]fluoro-D-glucose (FDG) simulations were performed considering different lesion sizes and different activity uptakes. Image noise and temporal resolution were determined on 3D and 4D images. Signal-to-Noise Ratio (SNR), Contrast-to-Noise Ratio (CNR), Target-to-Background activity concentration Ratio (TBR), Contrast Recovery (CR) and Volume Recovery (VR) were also evaluated as a function of lesion size and activity uptake. Globally, the results obtained show that signal loss depends both on lesion size and lesion activity uptake. In the non-gated data, where was no motion included (perfect motion correction), the recovery coefficients were influenced by the partial volume effect for the smallest lesion size. Moreover, the increased lesion contrast produces a significant increase on the standard deviation of the mean signal recover. This led to a decrease in CNR and SNR. In addition, respiratory motion significantly deteriorates signal recovery and this loss depends mainly of the lesion size. Best temporal resolution (volume recovery) and spatial resolution was given by the non-gated data, where no motion is involved. The simulated results show that the partial volume effect is dominant for small objects due to limited FOCUS system resolution in both 3D and 4D PET images. In addition, lower activity concentrations significantly deteriorates the lesion signal recovery compromising quantitative analysis.Fundação para a Ciência e a Tecnologia (FCT) under grant nº SFRH/BD/22723/200

    The 2004 NASA Faculty Fellowship Program Research Reports

    Get PDF
    This is the administrative report for the 2004 NASA Faculty Fellowship Program (NFFP) held at the George C. Marshall Space Flight Center (MSFC) for the 40th consecutive year. The NFFP offers science and engineering faculty at U.S. colleges and universities hands-on exposure to NASA s research challenges through summer research residencies and extended research opportunities at participating NASA research Centers. During this program, fellows work closely with NASA colleagues on research challenges important to NASA's strategic enterprises that are of mutual interest to the fellow and the Center. The nominal starting and .nishing dates for the 10-week program were June 1 through August 6, 2004. The program was sponsored by NASA Headquarters, Washington, DC, and operated under contract by The University of Alabama, The University of Alabama in Huntsville, and Alabama A&M University. In addition, promotion and applications are managed by the American Society for Engineering Education (ASEE) and assessment is completed by Universities Space Research Association (USRA). The primary objectives of the NFFP are to: Increase the quality and quantity of research collaborations between NASA and the academic community that contribute to the Agency s space aeronautics and space science mission. Engage faculty from colleges, universities, and community colleges in current NASA research and development. Foster a greater public awareness of NASA science and technology, and therefore facilitate academic and workforce literacy in these areas. Strengthen faculty capabilities to enhance the STEM workforce, advance competition, and infuse mission-related research and technology content into classroom teaching. Increase participation of underrepresented and underserved faculty and institutions in NASA science and technology

    Applications Development for the Computational Grid

    Get PDF

    Teseus project

    Get PDF
    Treball desenvolupat dins el marc del programa 'European Project Semester'.This project, TESEUS, is being carried out within the umbrella of the ongoing Urban Node study and focuses on the development of a computational system capable of handling a huge amount of data received from urban nodes in a smart city. There are already existing computer systems with computational power capable of handling the amount of data a smart city requires. Although these computers may provide all the power required to maintain and manage a smart city, they can always be made more efficient. The lack of efficiency comes from the inability to perform in a scalable way. A computer is not always required to work with its full power. The way supercomputers are designed is rather inefficient when managing lesser amounts of data than expected. The Teseus project objective is the possibility of building a low cost, scalable data server with focus on efficiency and the facilities a scalable system offers. In order to create a new computational system, research and possibilities for both hardware and software that offers scalability and its management have been carried out and explored. Given the extent of the development, as well as the complexity of the project that involves combining existing technology hardware with available software solutions, leaves further programming and research for future groups. In addition, this report includes a Business Model Canvas and Eco Design considerations regarding the future plans and environmental aspects for Teseus. The methodology used as a project management tool in order to organize the project and description of the Urban Node projects relation to Teseus, is also included
    corecore