1,903 research outputs found
Sequence-based Multiscale Model (SeqMM) for High-throughput chromosome conformation capture (Hi-C) data analysis
In this paper, I introduce a Sequence-based Multiscale Model (SeqMM) for the
biomolecular data analysis. With the combination of spectral graph method, I
reveal the essential difference between the global scale models and local scale
ones in structure clustering, i.e., different optimization on Euclidean (or
spatial) distances and sequential (or genomic) distances. More specifically,
clusters from global scale models optimize Euclidean distance relations. Local
scale models, on the other hand, result in clusters that optimize the genomic
distance relations. For a biomolecular data, Euclidean distances and sequential
distances are two independent variables, which can never be optimized
simultaneously in data clustering. However, sequence scale in my SeqMM can work
as a tuning parameter that balances these two variables and deliver different
clusterings based on my purposes. Further, my SeqMM is used to explore the
hierarchical structures of chromosomes. I find that in global scale, the
Fiedler vector from my SeqMM bears a great similarity with the principal vector
from principal component analysis, and can be used to study genomic
compartments. In TAD analysis, I find that TADs evaluated from different scales
are not consistent and vary a lot. Particularly when the sequence scale is
small, the calculated TAD boundaries are dramatically different. Even for
regions with high contact frequencies, TAD regions show no obvious consistence.
However, when the scale value increases further, although TADs are still quite
different, TAD boundaries in these high contact frequency regions become more
and more consistent. Finally, I find that for a fixed local scale, my method
can deliver very robust TAD boundaries in different cluster numbers.Comment: 22 PAGES, 13 FIGURE
A convolutional autoencoder approach for mining features in cellular electron cryo-tomograms and weakly supervised coarse segmentation
Cellular electron cryo-tomography enables the 3D visualization of cellular
organization in the near-native state and at submolecular resolution. However,
the contents of cellular tomograms are often complex, making it difficult to
automatically isolate different in situ cellular components. In this paper, we
propose a convolutional autoencoder-based unsupervised approach to provide a
coarse grouping of 3D small subvolumes extracted from tomograms. We demonstrate
that the autoencoder can be used for efficient and coarse characterization of
features of macromolecular complexes and surfaces, such as membranes. In
addition, the autoencoder can be used to detect non-cellular features related
to sample preparation and data collection, such as carbon edges from the grid
and tomogram boundaries. The autoencoder is also able to detect patterns that
may indicate spatial interactions between cellular components. Furthermore, we
demonstrate that our autoencoder can be used for weakly supervised semantic
segmentation of cellular components, requiring a very small amount of manual
annotation.Comment: Accepted by Journal of Structural Biolog
Geometric algorithms for cavity detection on protein surfaces
Macromolecular structures such as proteins heavily empower cellular processes or functions.
These biological functions result from interactions between proteins and peptides,
catalytic substrates, nucleotides or even human-made chemicals. Thus, several
interactions can be distinguished: protein-ligand, protein-protein, protein-DNA,
and so on. Furthermore, those interactions only happen under chemical- and shapecomplementarity
conditions, and usually take place in regions known as binding sites.
Typically, a protein consists of four structural levels. The primary structure of a protein
is made up of its amino acid sequences (or chains). Its secondary structure essentially
comprises -helices and -sheets, which are sub-sequences (or sub-domains) of amino
acids of the primary structure. Its tertiary structure results from the composition of
sub-domains into domains, which represent the geometric shape of the protein. Finally,
the quaternary structure of a protein results from the aggregate of two or more
tertiary structures, usually known as a protein complex.
This thesis fits in the scope of structure-based drug design and protein docking. Specifically,
one addresses the fundamental problem of detecting and identifying protein
cavities, which are often seen as tentative binding sites for ligands in protein-ligand
interactions. In general, cavity prediction algorithms split into three main categories:
energy-based, geometry-based, and evolution-based. Evolutionary methods build upon
evolutionary sequence conservation estimates; that is, these methods allow us to detect
functional sites through the computation of the evolutionary conservation of the
positions of amino acids in proteins. Energy-based methods build upon the computation
of interaction energies between protein and ligand atoms. In turn, geometry-based algorithms
build upon the analysis of the geometric shape of the protein (i.e., its tertiary
structure) to identify cavities. This thesis focuses on geometric methods.
We introduce here three new geometric-based algorithms for protein cavity detection.
The main contribution of this thesis lies in the use of computer graphics techniques
in the analysis and recognition of cavities in proteins, much in the spirit of molecular
graphics and modeling. As seen further ahead, these techniques include field-of-view
(FoV), voxel ray casting, back-face culling, shape diameter functions, Morse theory,
and critical points. The leading idea is to come up with protein shape segmentation,
much like we commonly do in mesh segmentation in computer graphics. In practice,
protein cavity algorithms are nothing more than segmentation algorithms designed for
proteins.Estruturas macromoleculares tais como as proteínas potencializam processos ou funções
celulares. Estas funções resultam das interações entre proteínas e peptídeos, substratos
catalíticos, nucleótideos, ou até mesmo substâncias químicas produzidas pelo
homem. Assim, há vários tipos de interacções: proteína-ligante, proteína-proteína,
proteína-DNA e assim por diante. Além disso, estas interações geralmente ocorrem em
regiões conhecidas como locais de ligação (binding sites, do inglês) e só acontecem sob
condições de complementaridade química e de forma. É também importante referir que
uma proteína pode ser estruturada em quatro níveis. A estrutura primária que consiste
em sequências de aminoácidos (ou cadeias), a estrutura secundária que compreende
essencialmente por hélices e folhas , que são subsequências (ou subdomínios) dos
aminoácidos da estrutura primária, a estrutura terciária que resulta da composição de
subdomínios em domínios, que por sua vez representa a forma geométrica da proteína,
e por fim a estrutura quaternária que é o resultado da agregação de duas ou mais estruturas
terciárias. Este último nível estrutural é frequentemente conhecido por um
complexo proteico.
Esta tese enquadra-se no âmbito da conceção de fármacos baseados em estrutura e no
acoplamento de proteínas. Mais especificamente, aborda-se o problema fundamental
da deteção e identificação de cavidades que são frequentemente vistos como possíveis
locais de ligação (putative binding sites, do inglês) para os seus ligantes (ligands, do
inglês). De forma geral, os algoritmos de identificação de cavidades dividem-se em três
categorias principais: baseados em energia, geometria ou evolução. Os métodos evolutivos
baseiam-se em estimativas de conservação das sequências evolucionárias. Isto é,
estes métodos permitem detectar locais funcionais através do cálculo da conservação
evolutiva das posições dos aminoácidos das proteínas. Em relação aos métodos baseados
em energia estes baseiam-se no cálculo das energias de interação entre átomos
da proteína e do ligante. Por fim, os algoritmos geométricos baseiam-se na análise da
forma geométrica da proteína para identificar cavidades. Esta tese foca-se nos métodos
geométricos.
Apresentamos nesta tese três novos algoritmos geométricos para detecção de cavidades
em proteínas. A principal contribuição desta tese está no uso de técnicas de computação
gráfica na análise e reconhecimento de cavidades em proteínas, muito no espírito da
modelação e visualização molecular. Como pode ser visto mais à frente, estas técnicas
incluem o field-of-view (FoV), voxel ray casting, back-face culling, funções de diâmetro
de forma, a teoria de Morse, e os pontos críticos. A ideia principal é segmentar a
proteína, à semelhança do que acontece na segmentação de malhas em computação
gráfica. Na prática, os algoritmos de detecção de cavidades não são nada mais que
algoritmos de segmentação de proteínas
- …