    Nukleotidų sekų vizualizacija

    The paper reviews the visualisation problems of genetic sequences and of their analysis results as well as other related problems. A possible formulation of the problem based on similarity, complexity measure (distance) between DNA sequences is proposed. It is solved by making use of multidimensional scaling (MDS) of principal component analysis (PCA) methods.Šiame darbe apžvelgiami genetinių sekų ir jų tyrimų rezultatų vizualizavimo uždaviniai ir su jais susijusios problemos. Pateikiamas binarinių kodų išrikiavimo ant tiesės metodas ir juo paremta „genomo parašo“ modifikacija

    Priklausomybių modeliuotose DNR sekose tyrimas

    Many publications in bio-informatics deal with long-range correlation of nucleotides in DNA sequences, which implies that such sequences are complicated systems with hierarchical structure. Applying the method of simulation, this work reveals that long-range correlation might develop in the course of evolution of a sequence under very general rules.Daugelyje bioinformatikos publikacijų rašoma apie ilgas nukleotidų priklausomybes DNR sekose, kas turėtų reikšti, jog tokios sekos yra sudėtingos, hierarchinę struktūrą turinčios sistemos. Šiame darbe modeliavimo būdu parodyta, kad aukštos eilės sąveikos gali atsirasti sekai evoliucionuojant pagal labai paprastas taisykles

    Genetinių sekų markoviškumo tyrimas

    In this paper DNA sequents are modelled as discrete-state Markov chains. Statistical data is presented in contingency tables form. The generalized logit model is used to test the first-order Markov property for all coding and non-coding subsequences of DNA.Šiame darbe nagrinėjamos DNR genetinės sekos kaip diskrečių būsenų Markovo grandinė. Statistinėje analizėje naudojami duomenys pateikiami dažnių lentelių pavidalu, ir taikomas apibendrintas logit modelis pirmos eilės Markovo grandinės savybei patikrinti visose koduojančiose ir nekoduojančiose DNR pirminės ir antrinės grandinės sekose

    Žodžių dažnių pasiskirstymo analizė skirtingų žanrų lietuvių kalbos tekstuose

    The paper examines Lithuanian texts of different authors and genres. The main points ofinterest – the number of words, the number of different words and word frequencies. Structural type distributionand Zipf’s law are applied for describing the frequency distribution of words in the text. It is obvious that thelexical diversity of any text can be defined by different words that are used in the text, also called vocabulary.It is shown that the information contained in a reduced vocabulary is enough for dividing the texts analyzedin this article into groups by genre and author using a hierarchical clustering method. In this case, distancesbetween clusters are measured using the Jaccard distance measure, and clusters are aggregated using the Wardmethod.Darbe nagrinėjami skirtingų autorių ir skirtingų žanrų tekstai, parašyti lietuvių kalba. Pagrindinės mus dominančios tekstų savybės – žodžių skaičius, teksto žodyną sudarančių skirtingų žodžių skaičius ir žodžių dažniai. Žodžių dažnių pasiskirstymui tekste aprašyti taikomas struktūrinis skirstinys ir Zipfo dėsnis. Akivaizdu, kad bet kokio teksto leksinę įvairovę nusako jame vartojamų žodžių žodynas. Pademonstruota, kad redukuotame žodyne esančios informacijos užtenka darbe nagrinėtiems tekstams suskirstyti į grupes pagal žanrus ir autorius naudojant hierarchinio klasterizavimo metodą. Šiuo atveju atstumai tarp klasterių matuojami naudojant Jaccardo atstumo matą, o klasteriai apjungiami naudojant Wardo metodą

    Širdies ir kraujagyslių rizikos veiksnių statistinė analizė ir ryšys su psichikos sutrikimais paauglystėje

    The paper analyses whether arterial hypertension, overweight, excessive drinking, smoking andinsufficient sports activity have an impact on the behaviour and emotional well-being of young people aged17–18. A questionnaire of Achenbach is used for investigating teenagers’ psychological difficulties. Categoricalvariables are analysed using logistic regression and log-linear models.Darbe nagrinėjama, ar pirminė arterinė hipertenzija (PAH), antsvoris, alkoholinių gėrimų vartojimas, rūkymas ir nepakankamas fizinis aktyvumas turi įtakos 17–18 metų jaunuolių elgesiui ir emocinei savijautai. Paauglių psichologiniai sunkumai tirti naudojant Achenbacho klausimyną. Kadangi tyrimo kintamieji yra kategoriniai, jų tarpusavio ryšiams aprašyti taikoma logistinė regresija ir logtiesiniai modeliai

    Kai kurie matematikos uždaviniai genetikoje

    After an introduction to genetic basics three problems are briefly discussed: microarray data analysis, a definition of noninformative DNA sequence, and genetic sequence alignment. More atention is paid toDNA sequence visualization and regularization of a genome signature.

    Statistical analysis of word frequency distribution in Lithuanian texts of different genres

