İçerik-temelli ağlar üzerinde analitik hesaplar

Abstract

Content-based networks have been proposed (Balcan and Erzan, 2004; Mungan et al., 2005) to model the topological properties of complex networks built on the principle of information sharing, where the interactions between system components assume the simultaneous fulfillment of a series of constraints (Mezard et al., 2002). In content-based networks, the constraint-satisfaction problem is realized by means of a sequence-matching rule between sequences associated with the nodes of a network. In the case of transcriptional gene regulation, the transcription factors recognize special subsequences of DNA and bind them. This is one instance of constraint-satisfaction, which can be realized with a sequence-matching rule between two different classes of sequences (Balcan et al., 2006). Another example is the so called the RNA interference (Balcan and Erzan, 2004), where sequence-specific gene silencing occurs at the level of post-transcriptional gene regulation. In our content-based networks, n linear codes are associated with each node of the network. For n=2, one of the sequences associated with the node represents the key-sequence through which the node recognizes other nodes, whereas the second sequence represents the lock-sequence through which the same node is recognized. An interaction between a pair of nodes is established if the key-sequence associated with the first node is repeated as an uninterrupted subsequence in the lock-sequence associated with the second node. Thus, the length distributions of these sequences are the most important parameters determining the topological properties of the content-based networks. In this article we will discuss the validity of analytical calculations performed on the topological properties of content-based networks in the mean-field approximation (Balcan and Erzan, 2007), by means of two examples. In this mean field approach (Mungan et al., 2005) the pair-wise connectivity probabilities are only functions of the respective lengths of the sequences which must satisfy an inclusion requirement, and of the size r of the alphabet from which the symbols are drawn. This approximation ignores the correlations between the overlapping subsequences within a sequence. Moreover the fluctuations in the information content of finite sequences are neglected. In Balcan and Erzan (2007), the correlations between the edges co-incident on the same node were also ignored. In the first example, the key- sequences of unit length (thus, they consist of single letters) are searched in lock-sequences of an arbitrary fixed length. Via this simple example it is possible to show that the probability that lock-sequences will be recognized by a key-sequence depends not only on the length of the lock-sequence but also on the number of distinct subsequences embedded in it. At this point the coarse grained approximation neglecting the fluctuations in the information content of the finite lock sequences about their mean information content, misses the behavior of the in-degree distribution. This error is in fact identical to neglecting the correlations between edges incident upon a given node. In the second example, the lengths of the key sequences are fixed at an arbitrary value l, and the lock-sequences are chosen to be of length k=l+1, one character longer than the key-sequences. In this example, it is clear that the correlations between the two subsequences of length l cannot be neglected. It has already been shown (Guibas and Odlyzko, 1981; Mungan et al., 2005; Mungan, 2007; Bilge et al., 2004) that the connection probability of a key-sequence depends on the ?shift-match number? which measures the auto-correlations within a sequence, in other words, the degree to which successive subsequences are correlated with each other. We show here by an explicit and rather transparent calculation that, neglecting this correlation yields out- and in-degree distributions that are totally in error. The mean-field approximations used in the calculation of the topological properties of the double-string model (Balcan and Erzan, 2007) yield results that are in good agreement with the simulations, since i) the lengths k of the lock sequences far exceed r, ii) the number of distinct substrings contained in any given lock string is large ( k-l >> rl ) and iii) the fine structure of the topological properties are determined by the fact that there is a disribution of lock- and key-string lengths. Keywords: Complex networks, content-based networks, mean-field approach.Bu makalede içerik-temelli ağlar üzerinde, ağın topolojik özelliklerini belirlemek için, ortalama-alan yaklaşımlarıyla yapılan analitik hesapların güvenilirliği tartışılacaktır. İçerik-temelli ağları, “tanıma ve bağlanma” mekanizmalarının belirleyici olduğu kontrol çizgelerinin topolojik özelliklerini tasvir etmek için önermiştik. Birçok karmaşık ağ yapısının bu tür enformasyon paylaşımına dayalı bir prensibe göre inşa edildiğini söyleyebiliriz. Örneğin gen ifadesinin düzenlemesinde, anahtar/kilit olarak niteleyebileceğimiz elemanların özelleşmiş etkileşimleri söz konusudur. Bu sebeple modelimizin biyolojik çizgeler de dahil olmak üzere, birçok gerçek ağ yapısının tasviri için uygun olduğunu düşünüyoruz. İçerik-temelli ağımızda, ağın düğümlerini bir ya da birden fazla rastgele dizi ile eşleştirip, düğümler arasındaki etkileşimleri onlara atanan dizilerin birbirleri içinde tekrarlanma koşulu altında inşa ediyoruz. Böylece, bu dizilerin uzunlukları ve içerikleri, ortaya çıkacak olan çizgenin tüm topolojik özelliklerini belirlemektedir. Düğüm çiftleri arasındaki bağlanma olasılıklarının hesabında yapılan ortalama-alan yaklaşımlarının ise, dizilerin uzunluk dağılımlarına bağlı olarak, varılan sonuçlarda ağın gerçek özelliklerinden önemli farklılaşmalara yol açabileceği görülüyor. Bu yaklaşımlarda, dizilerin farklı enformasyon içerikleri ihmal edilmekte ve olasılıklar sadece dizilerin uzunlukları cinsinden elde edilmektedir. Halbuki her sonlu dizi için, dizinin içerdiği farklı sembol sayısı ek bir enformasyon içermektedir. Burada sergilemeye çalışacağımız, kabalaştırılmış ortalama-alan türünden yaklaşımların, belli ekstrem durumlarda, tasvir etmeyi amaçladıkları ağın özelliklerinden uzak sonuçlar verebileceğidir. Ancak gerçek biyolojik ağ yapılarının modellenmesinde karşımıza çıkan uzunluk dağılımlarında ortaya çıkan hatalar hiçbir zaman burada sergileyeceğimiz örneklerde olduğu kadar büyük olmamış, bilakis ortalama-alan  yaklaşımı simülasyon sonuçlarına oldukça yakın sonuçlar vermiştir. Anahtar Kelimeler: Karmaşık ağ yapıları, içerik-temelli ağlar, ortalama-alan yaklaşımı

    Similar works