25 research outputs found
Fine-mapping of the major locus for vicine and convicine in faba bean (Vicia faba L.) and application of the findings for winter faba bean breeding
Vorgelegt wird eine genetisch-züchterische Arbeit zu den antinutritiven Sameninhaltsstoffen Vicin und Convicin bei der Ackerbohne. Die Ackerbohne (Vicia faba L.) ist eine traditionelle Körnerleguminose der Alten Welt; Vicin und Convicin (VC) behindern die Verwendbarkeit dieser Kulturpflanze, da sie für Nicht-wiederkäuer wie z.B. Geflügel antinutritive Faktoren sind und zudem für Menschen mit einem geneti-schen Mangel des Enzyms Glucose-6-Phosphat-Dehydrogenase gefährlich sein können. Ein Ziel dieser Arbeit war es, neue DNA-Marker zu identifizieren, die mit dem genetischen VC-Status eng gekoppelt und daher züchterisch gut nutzbar sind. Außerdem sollte das Hauptgen für den genetischen Unterschied zwischen dem normalen (HVC) und dem genetisch sehr niedrigen (LVC) Gehalt an VC gefunden werden. Darüber hinaus war ein weiteres Ziel, erstmalig die genetisch sehr niedrigen VC-Gehalte des LVC-Typs in Winterackerbohnen zu realisieren. Es wurden zusätzlich mehrjährige Feldversuche durchgeführt, um zu prüfen, ob LVC-Ackerbohnen im Vergleich mit HVC-Ackerbohnen agronomisch feststellbare Nachteile aufweisen. In der Vergangenheit wurde über die fungistatische Wirkung von Vicin und Convicin berich-tet, die auf eine höhere Anfälligkeit der LVC-Typen für bodenbürtige Pilze schließen lässt. Da Wintera-ckerbohnen einen höheren Ertrag als Sommerackerbohnen haben, wurde hier die Züchtung einer ersten Winterackerbohnensorte mit niedrigem VC-Gehalt vorangetrieben. Da ein großer Teil der hier durchge-führten Forschung von der Verwendung nah-isogener Linien abhing, wurden solche Linienpaare herge-stellt und ihr Isogenitätsgrad analysiert. Dies war wichtig, um die Relevanz der erzielten Ergebnisse auf-zuzeigen.
Das zentrale Arbeitspaket war die Feinkartierung des Hauptlokus für Vicin und Convicin. Zu diesem Zweck wurden zwei biparentale F2-Familien verwendet, die beide aus je einer Kreuzung von zwei nah-isogenen Linien hervorgingen, je ein Kreuzungspartner war dabei ein HVC-Typ, der andere ein LVC-Typ. Die jeweiligen Eltern dieser beiden Kreuzungen und andere eng verwandte Paare nah-isogener Linien wurden zur Durchführung von zwei verschiedenen Transkriptom-Sequenzierungstechniken (RNAseq und MACE) verwendet, deren Ergebnisse zur Entwicklung von 58 neuen, VC-assoziierten SNP-Markern ge-nutzt wurden. Die beiden oben erwähnten biparentalen F2-Familien wurden dann mit diesen 58 neuen und anderen Markern, die zuvor von anderen Arbeitsgruppen entwickelt worden waren, genotypisiert. Es wurden entsprechend genetische Karten erstellt. Phänotypischen Daten wurden für die anschließen-de Feinkartierung verwendet; diese Daten zum VC-Samengehalt der genotypisierten F2-Individuen wur-den aus HPLC-Analysen abgeleitet und für diese Feinkartierung verwendet. Es wurde schließlich eine vergleichsweise sehr kleine Kernregion für das VC-Gen (für den o.g. Hauptlokus) auf Chromosom 1 von Vicia faba von etwa 0.13 cM identifiziert.
Darüber hinaus wurde auf Basis der Feinkartierung, mittels Syntenie zu Medicago truncatula und Cicer arietinum und unterstützt durch die früheren Ergebnisse der Gruppe Björnsdotter et al. (2021) das Kan-didatengen RIBA 1 als das ursächliche Gen für LVC vs. HVC identifiziert. Die am engsten mit diesem Gen gekoppelten Marker wurden an einer weiteren F2-Familie getestet, die noch nicht in den Analysen ent-halten war (diese F2-Familie entstand aus einer Kreuzung einer HVC-Winterbohnenlinie mit einer LVC-Sommerbohnenlinie). So wurden acht SNP-Marker identifiziert, die sich für die Züchtung von Wintera-ckerbohnen auf einen niedrigen VC-Gehalt eignen. Mit Hilfe dieser acht Marker wurden neue LVC-Winterbohnenlinien entwickelt und 2020 als Syn-0 und 2021 als Syn-1 angebaut, um sie als synthetische LVC-Zuchtpopulation oder als Sortenkandidaten zu etablieren.
LVC- Sommerackerbohnen sind bereits gezüchtet worden. Angesichts des höheren Ertragspotenzials von Winterackerbohnen erscheint es vorteilhaft, einen LVC-Gehalt auch bei Winterackerbohnen zu etablieren. Es ist jedoch wichtig zu untersuchen, ob ein LVC-Gehalt unter Feldbedingungen Nachteile insbesondere für Winterackerbohnen haben könnte (die eine längere Vegetationsperiode haben), z. B. eine höhere Anfälligkeit für bodenbürtige Pilze. Dies führt unter anderem auch zur Betrachtung des VC-Gehalts in Wurzeln, d. h. in anderen Pflanzenorganen als Samen. Daher wurden spezielle Studien durch-geführt, die die agronomische Leistung von Ackerbohnen (sowohl Sommer-als auch Winterackerboh-nen) auf Leguminosen-müden Böden untersuchten, den VC-Gehalt in verschiedenen Pflanzenorganen betrachteten und die Beziehung zwischen dem VC-Typ im Saat-Samen und dem VC-Typ im geernteten Saatgut analysierten.
Die Feldversuche, die zur Untersuchung der agronomischen Unterschiede zwischen LVC- und HVC-Ackerbohnen durchgeführt wurden, werden als Leguminosen-Müdigkeitsversuch 1 und 2 bezeichnet. Diese Versuche wurden auf einem Feldstück durchgeführt, auf dem zuvor mehrere Jahre lang eine Ackerbohnen-Monokultur angebaut worden war. Diese Monokultur führte zu einer Anreicherung von ackerbohnenspezifischen Bodenpathogenen. Der Leguminosen-Müdigkeitsversuch 1 wurde mit ver-schiedenen Ackerbohnenlinien und -sorten durchgeführt; insbesondere mit HVC und LVC-Typen sowie mit Linien, die einen normalen Tanningehalt in den Samenschalen aufwiesen oder genetisch Tannin-frei waren, sowie mit Winter- und Sommerackerbohnensorten. Die Ackerbohnenlinien und -sorten wurden hier hinsichtlich ihrer agronomischen Leistungen, insbesondere auf ihren Ertrag und ihre Ertragskompo-nenten, untersucht. Die Ergebnisse ließen keine Nachteile der LVC-Linien und -Sorten im Vergleich zu den HVC-Linien und -Sorten erkennen. Da die Frage der agronomischen Leistung von LVC-Ackerbohnen im Vergleich zu HVC-Ackerbohnen für die Züchtung und Empfehlung von LVC-Winter-Ackerbohnensorten sehr wichtig ist, wurde zusätzlich der Leguminosen-Müdigkeitsversuch 2 durchge-führt. Zu diesem Zweck wurden sehr nah-isogene Linienpaare, die sich innerhalb einer Paares haupt-sächlich in ihrem VC-Gehalt unterschieden, in derselben Parzelle wie der Leguminosen-Müdigkeitsversuch 1 angebaut. Diese nah-isogenen Linienpaare wurden in gleicher Weise auf agrono-mische Unterschiede untersucht wie die Linien und Sorten im Leguminosen-Müdigkeitsversuch 1. Auf-grund des sehr nah-isogenen Status dieser Paare sollten die festgestellten Leistungsunterschiede, so-fern vorhanden, nur auf die unterschiedliche VC-Genetik und den daraus resultierenden unterschiedli-chen VC-Status der Pflanzen zurückzuführen sein. Die Ergebnisse des Leguminosen-Müdigkeitsversuchs 2 zeigten jedoch ebenfalls keine signifikanten Ertragsunterschiede zwischen Ackerbohnenlinien mit HVC und LVC. Zusammenfassend lässt sich sagen, dass LVC-Pflanzen im Vergleich zu HVC-Pflanzen in einer Feldsituation mit hohem Erregerdruck durch bodenbürtige Krankheitserreger offenbar keine Nachteile haben. Daher sollte die Züchtung von LVC-Winterackerbohnenlinien und -sorten nicht zu agronomi-schen Problemen führen, die durch den LVC-Status der Pflanzen verursacht werden.
Zusätzlich wurden isogene Linien für Verteilungs- und Vererbungsstudien über VC verwendet, da es wichtig ist, mehr Erkenntnisse über das Merkmal VC-Gehalt zu gewinnen. Diese Untersuchungen erga-ben, dass der höchste VC-Gehalt in den Wurzeln der Ackerbohnen zu finden ist, verglichen mit Stängeln und Blättern und Blüten. Es zeigte sich außerdem, dass die Samen den gleichen VC Typ aufwiesen wie ihre jeweiligen Mutterpflanzen (d.h. LVC, HVC oder intermediär), was bestätigt, dass der VC-Gehalt der Samen mütterlicherseits bestimmt ist.
Da die Kenntnis des tatsächlichen Isogenitätsgrades für die Bewertung der Qualität der oben beschrie-benen Ergebnisse wichtig war, konzentrierte sich ein Arbeitspaket darauf. Daher wurden alle im Projekt verwendeten nah-isogenen Linien in Zusammenarbeit mit O'Sullivan in Reading (UK) mit dem 50k Affy-metrix-Chip für Ackerbohnen genotypisiert. Innerhalb der nah-isogenen Paare wurden 34320 SNP-Marker analysiert und für die Analyse des Isogenitätsgrades verwendet. Die Ergebnisse dieser Berech-nungen zeigten ein sehr hohes Maß an Isogenität für alle getesteten nah-isogenen Paare (in absoluten Zahlen und im Vergleich zur erwarteten Isogenität auf der Grundlage des Pedigrees der getesteten Li-nien). Daraus lässt sich ableiten, dass die Schlussfolgerungen aus unseren Experimenten hinsichtlich der Unterschiede zwischen HVC- und LVC-Linien solide sind.
Zusammenfassend lässt sich sagen, dass unsere Forschung zur agronomischen Leistung von LVC Acker-bohnen, die Entwicklung neuer Marker, die eng mit dem VC-Gen verbunden sind, und die Identifizierung des dafür verantwortlichen Gens sowie unsere ersten Ansätze zur Züchtung von LVC-Linien den Weg für die Züchtung von LVC-Winterackerbohnensorten geebnet haben.Presented here is a thesis on a genetic and breeding project addressing the anti-nutritional seed con-stituents vicin and convicin in faba bean. Faba bean (Vicia faba L.) is a traditional grain legume of the Old World; vicin and convicin (VC) hinder the usefulness of this crop because they are antinutritional for non-ruminant animals such as poultry, and can be dangerous to humans with a genetic deficiency of the enzyme glucose-6-phosphate dehydrogenase. One goal of this work was to identify new DNA markers that are tightly linked to the VC locus and therefore useful for breeding. Additionally, it was aimed to find the major gene for the genetic difference between normal (HVC) and genetically very low (LVC) VC levels. A further objective was to realize for the first time the genetically very low VC content of the LVC type in winter field beans. In addition, field trials were conducted over several years to test wheth-er LVC field beans might have agronomically detectable disadvantages compared to HVC types. Fungi-static effects of vicin and convicin, which suggest a higher susceptibility of LVC types to soil-borne fun-gi, have been reported in the past. Since winter faba beans have a higher yield than spring faba beans, breeding of a first winter faba bean variety with low VC content was aimed at here. Since major parts of the here-conducted research depended on the employment of near-isogenic lines, such pairs of lines were produced and their degree of isogeneity was analyzed. This was important to indicate the rele-vance of the obtained results.
The central work package was the fine mapping of the major locus for vicin and convicin. For this aim, two biparental F2 families were utilized, both resulting from crosses of two near-isogenic lines, one was a HVC type, the other was a LVC type. The respective parents of these two crosses and other close-ly related pairs of close-isogenic lines were used to perform two transcriptome sequencing experiments (employing RNAseq and MACE), the results of which were used to develop 58 novel VC-associated SNP markers. The two biparental F2 families mentioned above were then genotyped with these 58 new markers and with further markers which had previously been developed by other groups. Genetic maps were generated accordingly. Phenotypic data was used for the subsequent fine mapping; the data on VC seed contents of the genotyped F2 individuals were derived from HPLC analyses and employed for this fine mapping. A comparably very small region for the possible location of the VC gene (the main VC locus mentioned above) on chromosome 1 of Vicia faba of about 0.13 cM was finally identified.
In addition, based on these fine mapping results, the synteny to Medicago truncatula and Cicer ari-etinum and supported by the previous results of the Björnsdotter et al. (2021) group, the candidate gene RIBA 1 was identified as the causal gene of LVC vs. HVC. The markers most closely linked to this gene were tested on yet another F2 family, which had not yet been present in the analyses (this F2 family resulted from a cross of an HVC winter faba bean line with an LVC spring faba bean line). Eight SNP markers suitable for breeding winter faba beans for low VC content were hence identified. Using these eight markers, novel LVC winter faba bean lines were developed and grown as Syn-0 in 2020 and Syn-1 in 2021 to establish them as a LVC synthetic breeding population or cultivar candidate.
LVC spring faba bean varieties have already been bred. Seeing the higher yield potential of winter beans, it seems advantageous to realize the LVC trait in winter faba beans, too. However, it is im-portant to investigate whether a LVC content could have disadvantages under field conditions, espe-cially for winter beans (which have longer growing seasons), for example higher susceptibility to soil-borne fungi. This must also lead to the consideration of VC content in roots, i.e. plant organs other than seeds. Therefore, specific studies were conducted to investigate the agronomic performance of faba beans (spring and winter) on legume-fatigued soils, to look at VC content in different plant organs, and to analyze the relationship between VC type in sown seed and VC type in harvested seed.
The field trials, which were performed to study the agronomic differences between LVC and HVC faba beans, were named legume fatigue trials 1 and 2. These trials were conducted in a field plot where a faba bean monoculture had been grown prior to these trials for at least three years. This monoculture induced the accumulation of faba bean-specific soil-borne pathogens. Legume fatigue trial 1 was per-formed with diverse faba bean lines and cultivars; specifically, HVC and LVC types, as well as winter and spring faba bean cultivars. These faba bean lines and cultivars were evaluated for their agronomic per-formance, specifically for their yield and yield components. The results did not indicate any disad-vantages of the LVC lines and cultivars compared to the HVC lines and cultivars. Since the issue of agro-nomical performance of LVC faba beans compared to HVC faba beans is very important for breeding and recommending LVC winter faba bean cultivars, legume fatigue trial 2 was conducted in addition. For this, very near-isogenic line pairs, differing within one pair mainly in their VC content, were grown in the same field plot as legume fatigue trial 1. These near-isogenic line pairs were hence examined for agronomic differences in the same way as lines and cultivars in legume fatigue trial 1. Resulting from the very near-isogenic status of these pairs, detected differences in performance, if present, should now only be due to the different VC genetics and the resulting different VC status of the plants. Howev-er, the results of the legume fatigue trial 2 also showed no significant differences in yield between faba bean types with HVC and LVC. Conclusively, LVC plants seem to have no disadvantages compared to HVC plants in a field situation with high pathogen pressure from soil-borne pathogens. Therefore, breeding of LVC winter bean lines and varieties should not lead to agronomic problems caused by the LVC status of the plants.
Additionally, isogenic lines were used for distribution and inheritance studies on VC, owing to the im-portance of obtaining more insights into the trait VC content. These studies revealed the highest VC content to be found in the roots of faba beans, as compared to shoots and leaves and flowers. Seeds were shown to have VC types similar to the genotype of their respective maternal plants (i.e., LVC, HVC, or intermediate), confirming seed VC content to be maternally determined.
Since knowing the actual degree of isogeneity was important in assessing the validity of the results described above, one work package concentrated on this. Therefore, all near-isogenic lines utilized in the project were genotyped using the 50k Affymetrix chip for faba bean in collaboration with O'Sullivan in Reading (UK). Within the isogenic pairs, 34320 SNP markers were analyzed and used for isogeneity level analysis. The results of these calculations showed a very high level of isogeneity for all tested near-isogenic pairs (in absolute terms, and compared to the expectation of isogeneity based on the pedigree of the tested lines). Therefore, it can be deduced that the agronomic inference from of our experiments regarding the differences between HVC and LVC lines are solid.
In conclusion, our research on the agronomic performance of LVC faba beans, the development of new markers closely linked to and the identification of the gene responsible for VC, and our initial approach-es to breeding LVC winter type lines paved the way for breeding LVC winter field bean varieties.2023-10-2
Computational Detection of Stage-Specific Transcription Factor Clusters during Heart Development
Transcription factors (TFs) regulate gene expression in living organisms. In higher organisms, TFs often interact in non-random combinations with each other to control gene transcription. Understanding the interactions is key to decipher mechanisms underlying tissue development. The aim of this study was to analyze co-occurring transcription factor binding sites (TFBSs) in a time series dataset from a new cell-culture model of human heart muscle development in order to identify common as well as specific co-occurring TFBS pairs in the promoter regions of regulated genes which can be essential to enhance cardiac tissue developmental processes. To this end, we separated available RNAseq dataset into five temporally defined groups: (i) mesoderm induction stage; (ii) early cardiac specification stage; (iii) late cardiac specification stage; (iv) early cardiac maturation stage; (v) late cardiac maturation stage, where each of these stages is characterized by unique differentially expressed genes (DEGs). To identify TFBS pairs for each stage, we applied the MatrixCatch algorithm, which is a successful method to deduce experimentally described TFBS pairs in the promoters of the DEGs. Although DEGs in each stage are distinct, our results show that the TFBS pair networks predicted by MatrixCatch for all stages are quite similar. Thus, we extend the results of MatrixCatch utilizing a Markov clustering algorithm (MCL) to perform network analysis. Using our extended approach, we are able to separate the TFBS pair networks in several clusters to highlight stage-specific co-occurences between TFBSs. Our approach has revealed clusters that are either common (NFAT or HMGIY clusters) or specific (SMAD or AP-1 clusters) for the individual stages. Several of these clusters are likely to play an important role during the cardiomyogenesis. Further, we have shown that the related TFs of TFBSs in the clusters indicate potential synergistic or antagonistic interactions to switch between different stages. Additionally, our results suggest that cardiomyogenesis follows the hourglass model which was already proven for Arabidopsis and some vertebrates. This investigation helps us to get a better understanding of how each stage of cardiomyogenesis is affected by different combination of TFs. Such knowledge may help to understand basic principles of stem cell differentiation into cardiomyocytes
Züchtung und Agronomie neuartiger, Vicin-armer Ackerbohnen und Einsatz als einheimisches Eiweißfutter
Der EU-Import von 17 Mio. t Soja pro Jahr und die internationale Agrar-Spezialisierung sei-en akzeptabel, meint die Futterindustrie (OVID 2012). Dagegen steht Ilse Aigners Ei-weißpflanzenstrategie: heimisch, gentechnikfrei, für Umwelt, Klima, Artenvielfalt, Boden-fruchtbarkeit, mit regionaler Wertschöpfung. Entsprechend verband die Universität Göt-tingen im Abo-Vici-Projekt die Expertise von Öko-Agronomen, Tierernährern, Genetikern und Züchtern zur Entwicklung einer Vicin-armen Winterackerbohne, als heimischer Hül-senfrucht mit hohem Ertragspotential und Eiweißgehalt. Vicin ist antinutritiv, Abo-Vici heißt „Ackerbohne minus Vicin“. Mit Molekulargenetik wurde in Neustadt & Göttingen das Vicin-Gen gefunden und in Hohenlieth die Marker-gestützte Züchtung etabliert. In Celle und Hohenheim waren die Vicin-armen Bohnen ein sehr geeignetes Hühnerfutter. Dresdener Öko-Agronomen fanden keine Nachteile der Neuzüchtung. Die Ackerbohne hat Aufwind, wie von Aigner intendiert
Recommended from our members
NIRS for vicine and convicine content of faba bean seed allowed GWAS to prepare for marker-assisted adjustment of seed quality of German winter faba beans
Die antinutritiven Inhaltsstoffe Vicin und Convicin (V, C) in Samen von Winterackerbohnen wurden einer GWAS unterzogen. V-, C- und V + C-Werte von 189 Inzuchtlinien (fünf Umwelten) wurden mittels NIRS ermittelt. In diesen Linien kommt das starke „vc-“-Allel (VC1-Locus) nicht vor. Labor-Resultate von 646 Proben führten zu unserer NIRS-Kalibration, die gut für V und V + C tauglich war allerdings nicht tauglich für C. Die Erblichkeit war hoch für V und V + C (0,911; 0,868) und niedriger für C (0,737). Von den 2542 kartierten SNPs waren 47 signifikant mit V und einer mit V + C assoziiert. Vier SNPs, die nahe beim VC1-Lokus kartierten, waren für V signifikant. Anscheinend trugen nicht-„vc-“-Allele an diesem Locus zur V-Variation bei. Markergestützte Züchtung in diesem Genpool kann die V + C-Gehalt auf etwa 0,44 % reduzieren, im Vergleich zur aktuell niedrigsten Linie mit 0,55 %. Weitere Forschung wird zeigen, wie diese Ergebnisse der Agronomie und Züchtung dienlich sein werden.GWAS was applied to the antinutritive compounds vicine and convicine (V, C) in winter faba bean. V, C and V + C data for 189 inbred lines (five environments) were predicted by NIRS. These lines do not carry the strong “vc-“ allele (locus VC1). Lab data for 646 samples enabled our NIRS calibration, which performed well for V and V + C yet poor for C. Heritability was high (0.911; 0.868) for V and V + C and lower for C (0.737). From the 2542 mapped SNPs, 47 were significantly associated with V and one with V + C. Four SNPs mapped near to the VC1 locus and were significant for V. Seemingly, non-“vc-“ alleles at that locus contributed to V variation. Marker-assisted breeding with this germplasm can reduce the V + C content to about 0.44%, compared to the current lowest line with 0.55%. Further research will show inasmuch this can serve agronomy and breeding
Recommended from our members
VC1 catalyses a key step in the biosynthesis of vicine in faba bean
Faba bean (Vicia faba L.) is a widely adapted and high-yielding legume cultivated for its protein-rich seeds1. However, the seeds accumulate the pyrimidine glucosides vicine and convicine, which can cause haemolytic anaemia (favism) in 400 million genetically predisposed individuals2. Here, we use gene-to-metabolite correlations, gene mapping and genetic complementation to identify VC1 as a key enzyme in vicine and convicine biosynthesis. We demonstrate that VC1 has GTP cyclohydrolase II activity and that the purine GTP is a precursor of both vicine and convicine. Finally, we show that cultivars with low vicine and convicine levels carry an inactivating insertion in the coding sequence of VC1. Our results reveal an unexpected, purine rather than pyrimidine, biosynthetic origin for vicine and convicine and pave the way for the development of faba bean cultivars that are free of these anti-nutrients
Zooming into the genomic vicinity of the major locus for vicine and convicine in faba bean (<i>Vicia faba</i> L.)
AbstractThe versatility of faba bean (Vicia faba L.) seed as valuable protein feed is hampered by its relatively high level of the compounds vicine and convicine (VC), which are antinutritive factors in poultry and further non-ruminant feed. The objective here was to develop the first-ever genetically low-VC winter faba bean. Hence, the low VC allele vc-, that should be the basis of a known, major locus for VC, need verification and molecular identification and be based on appropriately developed DNA-markers; the low VC feature awaited its transfer into the high-performing winter faba bean germplams. Based on bi-parental F2-families and isogenic lines, we thus developed highly useful SNP markers exploiting transcriptomic data. Furthermore, we fine-mapped and, based on synteny to Medicago truncatula and Cicer arietinum, we identified a candidate gene for the VC locus. A novel, genetically low VC winter faba bean population was bred. The path is now well-prepared for further marker-based breeding progress.</jats:p
A Novel Sequence-Based Feature for the Identification of DNA-Binding Sites in Proteins Using Jensen–Shannon Divergence
The knowledge of protein-DNA interactions is essential to fully understand the molecular activities of life. Many research groups have developed various tools which are either structure- or sequence-based approaches to predict the DNA-binding residues in proteins. The structure-based methods usually achieve good results, but require the knowledge of the 3D structure of protein; while sequence-based methods can be applied to high-throughput of proteins, but require good features. In this study, we present a new information theoretic feature derived from Jensen–Shannon Divergence (JSD) between amino acid distribution of a site and the background distribution of non-binding sites. Our new feature indicates the difference of a certain site from a non-binding site, thus it is informative for detecting binding sites in proteins. We conduct the study with a five-fold cross validation of 263 proteins utilizing the Random Forest classifier. We evaluate the functionality of our new features by combining them with other popular existing features such as position-specific scoring matrix (PSSM), orthogonal binary vector (OBV), and secondary structure (SS). We notice that by adding our features, we can significantly boost the performance of Random Forest classifier, with a clear increment of sensitivity and Matthews correlation coefficient (MCC)
A Novel Sequence-Based Feature for the Identification of DNA-Binding Sites in Proteins Using Jensen–Shannon Divergence
The knowledge of protein-DNA interactions is essential to fully understand the molecular activities of life. Many research groups have developed various tools which are either structure- or sequence-based approaches to predict the DNA-binding residues in proteins. The structure-based methods usually achieve good results, but require the knowledge of the 3D structure of protein; while sequence-based methods can be applied to high-throughput of proteins, but require good features. In this study, we present a new information theoretic feature derived from Jensen–Shannon Divergence (JSD) between amino acid distribution of a site and the background distribution of non-binding sites. Our new feature indicates the difference of a certain site from a non-binding site, thus it is informative for detecting binding sites in proteins. We conduct the study with a five-fold cross validation of 263 proteins utilizing the Random Forest classifier. We evaluate the functionality of our new features by combining them with other popular existing features such as position-specific scoring matrix (PSSM), orthogonal binary vector (OBV), and secondary structure (SS). We notice that by adding our features, we can significantly boost the performance of Random Forest classifier, with a clear increment of sensitivity and Matthews correlation coefficient (MCC)
