3 research outputs found
Disk-Assited Parallel A* : estratégia de movimentação de dados memória-disco para o alinhamento múltiplo ótimo de sequências
Monografia (graduação)—Universidade de BrasÃlia, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016.O alinhamento múltiplo de sequências (MSA) é uma operação muito frequente em Bioinformática,
sendo executada dezenas de milhares de vezes por dia em todo o mundo. Várias
estratégias paralelas foram propostas para acelerar a produção de resultados do MSA com
A*, dentre elas o Parallel A* que, apesar de obter resultados mais rápido, requer grande
quantidade de memória, o que inviabiliza o uso desse tipo de algoritmo para conjuntos
com um número razoável de sequências com padrões complexos. O presente trabalho de
graduação propõe e avalia uma estratégia de movimentação de dados entre memória e
disco para o Parallel A* com o intuito de permitir a solução de instâncias do MSA que
exijam mais memória que o disponÃvel no ambiente de execução. Os resultados experimentais
obtidos em 2 ambientes de testes mostram que a estratégia proposta permitiu a
solução de instâncias do MSA que não eram finalizadas nos ambientes de testes por uso
excessivo de memória, contudo, com um incremento considerável no tempo de execução.Multiple Sequence Alignment (MSA) is a common operation in Bioinformatics, executed
tens of thousands of times daily all over the world. Many parallel strategies were proposed
for accelerating the production of results of the Multiple Sequence Alignment (MSA) with
A*, amongst them the Parallel A* (PA*) which, despite obtaining results faster, demands
a great amount of memory, becoming unfeasible for some MSA instances. This undergraduate
project proposes and evaluates a strategy of data movement between memory and
disk for the Parallel A*, in order to allow the solution of MSA instances which demand
more memory than the available on the execution environment. Experimental results obtained
in 2 test environments have showed that the strategy allowed the solution of MSA
instances that could not be completed on the environments used due to the excessive use
of memory. This was achieved, however, with a considerable increment on the execution
time
External Memory Best-First Search for Multiple Sequence Alignment
Multiple sequence alignment (MSA) is a central problem in computational biology. It is well known that MSA can be formulated as a shortest path problem and solved using heuristic search, but the memory requirement of A* makes it impractical for all but the smallest problems. Partial Expansion A* (PEA*) reduces the space complexity of A* by generating only the most promising successor nodes. However, even PEA* exhausts available memory on many problems. Another alternative is Iterative Deepening Dynamic Programming, which uses an uninformed search order but stores only the nodes along the search frontier. However, it too cannot scale to the largest problems. In this paper, we propose storing nodes on cheap and plentiful secondary storage. We present a new general-purpose algorithm, Parallel External PEA* (\xppea), that combines PEA* with Delayed Duplicate Detection to take advantage of external memory and multiple processors to solve large MSA problems. In our experiments, \xppea\ is the first algorithm capable of solving the entire Reference Set 1 of the standard BAliBASE benchmark using a biologically accurate cost function. This work suggests that external best-first search can effectively use heuristic information to surpass methods that rely on uninformed search orders
Alinhamento múltiplo de sequências com A-Star paralelo em cluster MPI
Trabalho de conclusão de curso (graduação)—Universidade de BrasÃlia, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016.O alinhamento múltiplo de sequências visa ressaltar as similaridades e diferenças em
um conjunto de sequências biológicas. O alinhamento múltiplo com a soma de pares é
um problema NP-DifÃcil e métodos heurÃsticos são usados para solucioná-lo, porém esses
métodos não garantem que o resultado ótimo será produzido. Algumas das técnicas exatas
que produzem o resultado ótimo são baseadas no algoritmo de busca A-Star, sendo
uma delas o A-Star Paralelo (PA-Star). O PA-Star divide o espaço de busca entre múltiplas
threads, acelerando a obtenção de resultados, contudo tem sua execução limitada a
uma única máquina. O objetivo deste trabalho de graduação é propor, implementar e
avaliar o MPI-PAStar, uma estratégia que permita reduzir o tempo de busca ao executar
o PA-Star em diversas máquinas, utilizando o ambiente MPI para trocar mensagens, distribuindo
carga de trabalho entre as máquinas. O MPI-PAStar adiciona ao PA-Star um
pool de threads de processamento de mensagens e duas threads responsáveis pelo envio
e recebimento de mensagens. Diversas estratégias são utilizadas para reduzir o tráfego
de dados e a latência de rede, como a serialização de blocos de carga de trabalho e compactação
destes antes do envio, reduzindo efeitos colaterais negativos da rede sobre a
computação do alinhamento. Os resultados do MPI-PAStar apresentaram ganhos de até
36.8% no tempo de busca do alinhamento ótimo e de até 29,7% no tempo total de execução
do programa, quando comparado ao PA-Star, a depender do número e similaridade
das sequências sendo alinhadas, além do comprimento da maior sequência.The multiple sequence alignment purpose is to highlight similarities and differences
between a set of biological sequences. The multiple alignment is an NP-Hard problem and
heuristic methods are used to solve it, however those do not guarantee that an optimal
result is produced. Some exact techniques that can produce an optimal result are based
on the A-Star graph search algorithm, being one of them the Parallel A-Star (PA-Star).
The PA-Star divides the search space to multiple threads, accelerating the search for the
result, but its execution is limited to a single machine. The objective of this undergraduate
work is to propose, implement and evaluate the MPI-PAStar, a strategy that allows the
reduction of the search time by executing the PA-Star on multiple machines, using the MPI
environment to exchange messages, distributing the workload across different machines.
The MPI-PAStar adds to PA-Star a pool of message processing threads and two threads
responsible for sending and receiving messages. Multiple strategies are used to reduce
network traffic and latency, like serialized workload blocks and compressing them before
sending them, reducing negative network effects over the alignment computation. Results
obtained with the MPI-PAStar showed that it can yield up to 36.8% reduction in terms
of alignment time and up to 29.7% in terms of total execution time, depending on the
number of sequences being aligned, the length of longest sequence and the content of the
sequences