32 research outputs found
Exploring the potential of 3D Zernike descriptors and SVM for protein\u2013protein interface prediction
Abstract Background The correct determination of protein–protein interaction interfaces is important for understanding disease mechanisms and for rational drug design. To date, several computational methods for the prediction of protein interfaces have been developed, but the interface prediction problem is still not fully understood. Experimental evidence suggests that the location of binding sites is imprinted in the protein structure, but there are major differences among the interfaces of the various protein types: the characterising properties can vary a lot depending on the interaction type and function. The selection of an optimal set of features characterising the protein interface and the development of an effective method to represent and capture the complex protein recognition patterns are of paramount importance for this task. Results In this work we investigate the potential of a novel local surface descriptor based on 3D Zernike moments for the interface prediction task. Descriptors invariant to roto-translations are extracted from circular patches of the protein surface enriched with physico-chemical properties from the HQI8 amino acid index set, and are used as samples for a binary classification problem. Support Vector Machines are used as a classifier to distinguish interface local surface patches from non-interface ones. The proposed method was validated on 16 classes of proteins extracted from the Protein–Protein Docking Benchmark 5.0 and compared to other state-of-the-art protein interface predictors (SPPIDER, PrISE and NPS-HomPPI). Conclusions The 3D Zernike descriptors are able to capture the similarity among patterns of physico-chemical and biochemical properties mapped on the protein surface arising from the various spatial arrangements of the underlying residues, and their usage can be easily extended to other sets of amino acid properties. The results suggest that the choice of a proper set of features characterising the protein interface is crucial for the interface prediction task, and that optimality strongly depends on the class of proteins whose interface we want to characterise. We postulate that different protein classes should be treated separately and that it is necessary to identify an optimal set of features for each protein class
Protein contour modelling and computation for complementarity detection and docking
The aim of this thesis is the development and application of a model that effectively and efficiently integrates the evaluation of geometric and electrostatic complementarity for the protein-protein docking problem. Proteins perform their biological roles by interacting with other biomolecules and forming macromolecular complexes. The structural characterization of protein complexes is important to understand the underlying biological processes. Unfortunately, there are several limitations to the available experimental techniques, leaving the vast majority of these complexes to be determined by means of computational methods such as protein-protein docking. The ultimate goal of the protein-protein docking problem is the in silico prediction of the three-dimensional structure of complexes of two or more interacting proteins, as occurring in living organisms, which can later be verified in vitro or in vivo. These interactions are highly specific and take place due to the simultaneous formation of multiple weak bonds: the geometric complementarity of the contours of the interacting molecules is a fundamental requirement in order to enable and maintain these interactions. However, shape complementarity alone cannot guarantee highly accurate docking predictions, as there are several physicochemical factors, such as Coulomb potentials, van der Waals forces and hydrophobicity, affecting the formation of protein complexes.
In order to set up correct and efficient methods for the protein-protein docking, it is necessary to provide a unique representation which integrates geometric and physicochemical criteria in the complementarity evaluation. To this end, a novel local surface descriptor, capable of capturing both the shape and electrostatic distribution properties of macromolecular surfaces, has been designed and implemented. The proposed methodology effectively integrates the evaluation of geometrical and electrostatic distribution complementarity of molecular surfaces, while maintaining efficiency in the descriptor comparison phase. The descriptor is based on the 3D Zernike invariants which possess several attractive features, such as a compact representation, rotational and translational invariance and have been shown to adequately capture global and local protein surface shape similarity and naturally represent physicochemical properties on the molecular surface.
Locally, the geometric similarity between two portions of protein surface implies a certain degree of complementarity, but the same cannot be stated about electrostatic distributions. Complementarity in electrostatic distributions is more complex to handle, as charges must be matched with opposite ones even if they do not have the same magnitude. The proposed method overcomes this limitation as follows. From a unique electrostatic distribution function, two separate distribution functions are obtained, one for the positive and one for the negative charges, and both functions are normalised in [0, 1]. Descriptors are computed separately for the positive and negative charge distributions, and complementarity evaluation is then done by cross-comparing descriptors of distributions of charges of opposite signs.
The proposed descriptor uses a discrete voxel-based representation of the Connolly surface on which the corresponding electrostatic potentials have been mapped. Voxelised surface representations have received a lot of interest in several bioinformatics and computational biology applications as a simple and effective way of jointly representing geometric and physicochemical properties of proteins and other biomolecules by mapping auxiliary information in each voxel. Moreover, the voxel grid can be defined at different resolutions, thus giving the means to effectively control the degree of detail in the discrete representation along with the possibility of producing multiple representations of the same molecule at different resolutions.
A specific algorithm has been designed for the efficient computation of voxelised macromolecular surfaces at arbitrary resolutions, starting from experimentally-derived structural data (X-ray crystallography, NMR spectroscopy or cryo-electron microscopy). Fast surface generation is achieved by adapting an approximate Euclidean Distance Transform algorithm in the Connolly surface computation step and by exploiting the geometrical relationship between the latter and the Solvent Accessible surface. This algorithm is at the base of VoxSurf (Voxelised Surface calculation program), a tool which can produce discrete representations of macromolecules at very high resolutions starting from the three-dimensional information of their corresponding PDB files. By employing compact data structures and implementing a spatial slicing protocol, the proposed tool can calculate the three main molecular surfaces at high resolutions with limited memory demands.
To reduce the surface computation time without affecting the accuracy of the representation, two parallel algorithms for the computation of voxelised macromolecular surfaces, based on a spatial slicing procedure, have been introduced. The molecule is sliced in a user-defined number of parts and the portions of the overall surface can be calculated for each slice in parallel. The molecule is sliced with planes perpendicular to the abscissa axis of the Cartesian coordinate system defined in the molecule's PDB entry.
The first algorithms uses an overlapping margin of one probe-sphere radius length among slices in order to guarantee the correctness of the Euclidean Distance Transform. Because of this margin, the Connolly surface can be computed nearly independently for each slice. Communications among processes are necessary only during the pocket identification procedure which ensures that pockets spanning through more than one slice are correctly identified and discriminated from solvent-excluded cavities inside the molecule.
In the second parallel algorithm the size of the overlapping margin between slices has been reduced to a one-voxel length by adapting a multi-step region-growing Euclidean Distance Transform algorithm. At each step, distance values are first calculated independently for every slice, then, a small portion of the borders' information is exchanged between adjacent slices.
The proposed methodologies will serve as a basis for a full-fledged protein-protein docking protocol based on local feature matching. Rigorous benchmark tests have shown that the combined geometric and electrostatic descriptor can effectively identify shape and electrostatic distribution complementarity in the binding sites of protein-protein complexes, by efficiently comparing circular surface patches and significantly decreasing the number of false positives obtained when using a purely-geometric descriptor. In the validation experiments, the contours of the two interacting proteins are divided in circular patches: all possible patch pairs from the two proteins are then evaluated in terms of complementarity and a general ranking is produced. Results show that native patch pairs obtain higher ranks when using the newly proposed descriptor, with respect to the ranks obtained when using the purely-geometric one
Exploring the potential of 3D Zernike descriptors and SVM for protein–protein interface prediction
Protein contour modelling and computation for complementarity detection and docking
The aim of this thesis is the development and application of a model that effectively and efficiently integrates the evaluation of geometric and electrostatic complementarity for the protein-protein docking problem. Proteins perform their biological roles by interacting with other biomolecules and forming macromolecular complexes. The structural characterization of protein complexes is important to understand the underlying biological processes. Unfortunately, there are several limitations to the available experimental techniques, leaving the vast majority of these complexes to be determined by means of computational methods such as protein-protein docking. The ultimate goal of the protein-protein docking problem is the in silico prediction of the three-dimensional structure of complexes of two or more interacting proteins, as occurring in living organisms, which can later be verified in vitro or in vivo. These interactions are highly specific and take place due to the simultaneous formation of multiple weak bonds: the geometric complementarity of the contours of the interacting molecules is a fundamental requirement in order to enable and maintain these interactions. However, shape complementarity alone cannot guarantee highly accurate docking predictions, as there are several physicochemical factors, such as Coulomb potentials, van der Waals forces and hydrophobicity, affecting the formation of protein complexes.
In order to set up correct and efficient methods for the protein-protein docking, it is necessary to provide a unique representation which integrates geometric and physicochemical criteria in the complementarity evaluation. To this end, a novel local surface descriptor, capable of capturing both the shape and electrostatic distribution properties of macromolecular surfaces, has been designed and implemented. The proposed methodology effectively integrates the evaluation of geometrical and electrostatic distribution complementarity of molecular surfaces, while maintaining efficiency in the descriptor comparison phase. The descriptor is based on the 3D Zernike invariants which possess several attractive features, such as a compact representation, rotational and translational invariance and have been shown to adequately capture global and local protein surface shape similarity and naturally represent physicochemical properties on the molecular surface.
Locally, the geometric similarity between two portions of protein surface implies a certain degree of complementarity, but the same cannot be stated about electrostatic distributions. Complementarity in electrostatic distributions is more complex to handle, as charges must be matched with opposite ones even if they do not have the same magnitude. The proposed method overcomes this limitation as follows. From a unique electrostatic distribution function, two separate distribution functions are obtained, one for the positive and one for the negative charges, and both functions are normalised in [0, 1]. Descriptors are computed separately for the positive and negative charge distributions, and complementarity evaluation is then done by cross-comparing descriptors of distributions of charges of opposite signs.
The proposed descriptor uses a discrete voxel-based representation of the Connolly surface on which the corresponding electrostatic potentials have been mapped. Voxelised surface representations have received a lot of interest in several bioinformatics and computational biology applications as a simple and effective way of jointly representing geometric and physicochemical properties of proteins and other biomolecules by mapping auxiliary information in each voxel. Moreover, the voxel grid can be defined at different resolutions, thus giving the means to effectively control the degree of detail in the discrete representation along with the possibility of producing multiple representations of the same molecule at different resolutions.
A specific algorithm has been designed for the efficient computation of voxelised macromolecular surfaces at arbitrary resolutions, starting from experimentally-derived structural data (X-ray crystallography, NMR spectroscopy or cryo-electron microscopy). Fast surface generation is achieved by adapting an approximate Euclidean Distance Transform algorithm in the Connolly surface computation step and by exploiting the geometrical relationship between the latter and the Solvent Accessible surface. This algorithm is at the base of VoxSurf (Voxelised Surface calculation program), a tool which can produce discrete representations of macromolecules at very high resolutions starting from the three-dimensional information of their corresponding PDB files. By employing compact data structures and implementing a spatial slicing protocol, the proposed tool can calculate the three main molecular surfaces at high resolutions with limited memory demands.
To reduce the surface computation time without affecting the accuracy of the representation, two parallel algorithms for the computation of voxelised macromolecular surfaces, based on a spatial slicing procedure, have been introduced. The molecule is sliced in a user-defined number of parts and the portions of the overall surface can be calculated for each slice in parallel. The molecule is sliced with planes perpendicular to the abscissa axis of the Cartesian coordinate system defined in the molecule's PDB entry.
The first algorithms uses an overlapping margin of one probe-sphere radius length among slices in order to guarantee the correctness of the Euclidean Distance Transform. Because of this margin, the Connolly surface can be computed nearly independently for each slice. Communications among processes are necessary only during the pocket identification procedure which ensures that pockets spanning through more than one slice are correctly identified and discriminated from solvent-excluded cavities inside the molecule.
In the second parallel algorithm the size of the overlapping margin between slices has been reduced to a one-voxel length by adapting a multi-step region-growing Euclidean Distance Transform algorithm. At each step, distance values are first calculated independently for every slice, then, a small portion of the borders' information is exchanged between adjacent slices.
The proposed methodologies will serve as a basis for a full-fledged protein-protein docking protocol based on local feature matching. Rigorous benchmark tests have shown that the combined geometric and electrostatic descriptor can effectively identify shape and electrostatic distribution complementarity in the binding sites of protein-protein complexes, by efficiently comparing circular surface patches and significantly decreasing the number of false positives obtained when using a purely-geometric descriptor. In the validation experiments, the contours of the two interacting proteins are divided in circular patches: all possible patch pairs from the two proteins are then evaluated in terms of complementarity and a general ranking is produced. Results show that native patch pairs obtain higher ranks when using the newly proposed descriptor, with respect to the ranks obtained when using the purely-geometric one.Lo scopo di questa tesi è lo sviluppo e l'applicazione di un modello che integri efficacemente ed efficientemente la valutazione della complementarietà geometrica ed elettrostatica per il problema del docking proteina-proteina. Le proteine svolgono i loro ruoli biologici interagendo con altre biomolecole formando complessi macromolecolari. La caratterizzazione strutturale dei complessi proteici è importante per comprendere i processi biologici che guidano tali interazioni. Gli attuali limiti delle tecniche sperimentali fanno si che la maggior parte dei complessi debba essere risolta tramite tecniche computazionali come il docking proteina-proteina. Il docking proteina-proteina ha come scopo la predizione in silico delle strutture tridimensionali dei complessi formati da due o più proteine interagenti, così come si verificano negli organismi viventi, e che possono essere successivamente verificate in vitro o in vivo. Queste interazioni sono altamente specifiche, ed avvengono grazie all'instaurazione simultanea di molteplici legami deboli: la complementarietà geometrica dei contorni esterni delle molecole interagenti è un requisito fondamentale affinché queste interazioni avvengano e si mantengano nel tempo. La sola complementarietà di forma, però, non basta a garantire predizioni di docking accurate, dato che esistono molti fattori fisico-chimici oltre alla complementarietà di forma, come i potenziali di Coulomb, forze di van der Waals e l'idrofobicità , i quali influiscono nella formazione del complesso proteico.
Al fine di sviluppare metodi corretti ed efficienti per il docking proteina-proteina si rende necessaria una nuova rappresentazione del contorno di proteine che integri criteri geometrici ed elettrostatici nella valutazione della complementarietà . A tal proposito, è stato progettato ed implementato un nuovo descrittore locale del contorno proteico, in grado di catturare entrambe le proprietà di complementarietà geometrica e elettrostatica delle superfici macromolecolari. La metodologia proposta integra efficacemente la valutazione della complementarietà geometrica ed elettrostatica delle superfici molecolari, permettendo la comparazione efficiente tra descrittori. Il descrittore si basa sulle invarianti 3D di Zernike, le quali posseggono diverse proprietà interessanti, come l'invarianza alle rotazioni e alle traslazioni, la capacità di catturare efficacemente la similarità sia locale che globale delle superfici proteiche, e di rappresentarne in modo naturale le proprietà fisico-chimiche.
Localmente, la similarità geometrica tra due porzioni di superficie proteica implica un certo grado di complementarietà . Lo stesso però non vale per i potenziali elettrostatici. La complementarietà dei potenziali elettrostatici è più complessa da rilevare, poiché devono combaciare cariche di segno opposto che non hanno necessariamente la stessa ampiezza. Il metodo proposto supera questa limitazione nel modo seguente. Da un'unica funzione di distribuzione di carica elettrostatica vengono ricavate due funzioni di distribuzione di carica, una per le cariche positive ed una per le cariche negative. Entrambe le funzioni di distribuzione vengono normalizzate in [0, 1]. I descrittori vengono poi calcolati separatamente per le due distribuzioni di carica, e la valutazione della complementarietà viene eseguita confrontando tra loro i descrittori corrispondenti a cariche di segno opposto.
Il descrittore proposto utilizza una rappresentazione discreta a voxel della superficie di Connolly sulla quale sono stati mappati i corrispettivi potenziali elettrostatici. Le rappresentazioni a voxel delle superfici hanno ricevuto un notevole interesse in molte applicazioni bioinformatiche e di biologia computazionale poiché forniscono un metodo semplice ed efficace per rappresentare congiuntamente le proprietà geometriche e fisico-chimiche di proteine ed altre biomolecole, mappando informazioni ausiliarie in ciascun voxel. In più, variando la risoluzione della griglia di voxel si può controllare i grado di dettaglio da rappresentare. Inoltre, si possono ottenere rappresentazioni a grana variabile per una determinata molecola.
È stato progettato e sviluppato un algoritmo specifico per il calcolo efficiente delle superfici a voxel di macromolecole a risoluzioni arbitrarie, a partire da dati sperimentali (cristallografia a raggi X, spettroscopia NMR, microscopia crioelettronica). La generazione efficiente della superficie di Connolly viene effettuata tramite un algoritmo che calcola la Trasformata di Distanza Euclidea approssimata e che sfrutta la relazione geometrica che c'è tra la superficie accessibile al solvente e la superficie di Connolly. Questo algoritmo è alla base di VoxSurf (Voxelised Surface calculation program), uno strumento software in grado di produrre rappresentazioni discrete di macromolecole a risoluzioni molto alte a partire dalle informazioni tridimensionali dei corrispettivi file PDB. Utilizzando strutture dati compatte ed implementando un protocollo di slicing spaziale, il tool proposto può calcolare le tre principali superfici molecolari ad alte risoluzioni con limitati requisiti di memoria.
Due algoritmi paralleli sono stati introdotti per ridurre il tempo di computazione delle superfici, senza però incidere negativamente sulla precisione delle rappresentazioni. Entrambi si basano su di un protocollo di slicing spaziale: la molecola viene "tagliata" in un determinato numero di parti, e le porzioni della superficie vengono calcolate per ciascuna slice in parallelo. La molecola viene tagliata con piani perpendicolari all'asse delle ascisse del sistema di coordinate cartesiane definito nel file PDB della molecola.
Il primo algoritmo utilizza margini sovrapposti tra slice adiacenti, di dimensione pari al raggio della sfera-sonda che rappresenta la molecola di solvente. Il margine garantisce che la superficie di Connolly possa essere calcolata quasi-indipendentemente per ciascuna slice. Le comunicazioni tra processi si rendono necessarie soltanto durante l'identificazione delle tasche, la quale garantisce che vengano identificate correttamente tasche della superficie molecolare che si estendono attraverso più di una slice.
Nel secondo algoritmo parallelo, la dimensione dei margini sovrapposti è stato ridotto in lunchezza ad un solo voxel tramite l'introduzione di un algoritmo per la Trasformata di Distanza Euclidea a più step. Ad ogni step, i valori di distanza vengono dapprima calcolati indipendentemente per ciascuna slice. Poi, i valori di distanza euclidea di un piccolo sottoinsieme di voxel appartenenti al bordo vengono scambiati tra slice adiacenti.
Le metodologie introdotte sono propedeutiche allo sviluppo di un protocollo di docking proteina-proteina basato sul local feature matching. Test su benchmark hanno dimostrato che il descrittore congiunto di geometria ed elettrostaticità è in grado di identificare la complementarietà di forma e di distribuzione di carica nei siti di legame dei complessi proteina-proteina, confrontando efficientemente patch circolari di superficie e diminuendo notevolmente il numero di falsi positivi che altrimenti si avrebbero utilizzando un descrittore puramente geometrico. Negli esperimenti di validazione, i contorni delle proteine interagenti sono stati suddivisi in patch circolari: tutte le possibili coppie di patch dalle due proteine sono state valutate in termini di complementarietà ed è stato stilato un ranking generale. I risultati dimostrano che, quando si utilizza il nuovo descrittore, le coppie di patch native ottengono rank più alti rispetto a quelli ottenuti utilizzando il descrittore puramente geometrico
Allocazione di task basata su DHT nel Calcolo Distribuito Volontario
I sistemi di calcolo distribuito volontario vengono utilizzati da molti progetti di ricerca, e, poiché è in crescita il numero di calcolatori a disposizione delle persone, questi sistemi saranno sempre più gettonati. L'architettura su cui essi si basano attualmente è quella della rete a stella: un server centrale distribuisce il lavoro e raccoglie i risultati dai computer dei volontari. Sono noti i problemi di robustezza e scalabilità che una simile architettura di rete comporta. In questo lavoro viene proposta una nuova architettura atta a risolvere le problematiche e le limitazioni degli attuali sistemi di calcolo distribuito volontario, utilizzando le ormai ben consolidate reti paritarie DHT. Le reti paritarie sono note per la loro robustezza e scalabilità , anche se composte da nodi altamente volatili, tutte caratteristiche che vengono in contro alle esigenze del calcolo distribuito volontari
PariMulo: Credits
Lo sviluppo negli ultimi anni delle reti peer-to-peer ed in particolare del file sharing ha cambiato profondamente la percezione di Internet, scoprendo delle grandissime potenzialità . Basti pensare che, oggigiorno, client di file sharing come eMule e BitTorrent non mancano più in nessun calcolatore. La robustezza delle architetture peer-to-peer e le enormi funzionalità che offrono, altrimenti inaccessibili tramite singole macchine, ne fanno delle risorse immense.
Le potenzialità di una rete peer-to-peer sono direttamente proporzionali ai servizi offerti dai nodi che la compongono. Nel caso specifico del file sharing, più sono i file che un nodo condivide, più aumenta la qualità della rete. Al contrario, i comportamenti egoistici, la fanno peggiorare, minacciandone l’esistenza stessa. Pare subito evidente che serve un meccanismo che inciti gli utenti ad offrire più servizi possibile, in modo da aumentare sempre più le risorse della rete e prevenirne il collasso. A tale scopo servono i sistemi di crediti.
In questo elaborato illustreremo alcuni dei sistemi di crediti usati dai più noti client peer-to-peer, per poi seguire con l’implementazione del sistema di crediti del plugin Mulo. Inoltre, viene anche illustrato il meccanismo dell’identificazione sicura, necessario ai fini del sistema di crediti, il suo funzionamento e la sua implementazion