3 research outputs found

    Segmenting DNA sequence into words based on statistical language model

    Get PDF
    This paper presents a novel method to segment/decode DNA sequences based on n-gram statistical language model. Firstly, we find the length of most DNA “words” is 12 to 15 bps by analyzing the genomes of 12 model species. The bound of language entropy of DNA sequence is about 1.5674 bits. After building an n-gram biology languages model, we design an unsupervised ‘probability approach to word segmentation’ method to segment the DNA sequences. The benchmark of segmenting method is also proposed. In cross segmenting test, we find different genomes may use the similar language, but belong to different branches, just like the English and French/Latin. We present some possible applications of this method at last

    Makosa ya Kisarufi katika Vyombo vya Habari vya Tanzania: Uchunguzi wa TBC1, ITV na STAR TV.

    Get PDF
    Utafiti huu ulichunguza makosa ya kisarufi kwenye vyombo vya habari vya Tanzania. Umakini uliwekwa kwenye chaneli za TBC1, ITV na STAR TV. Utafiti uliongozwa na malengo matatu: Kuchunguza aina za makosa ya kisarufi katika vyombo vya habari; sababu za kufanyika kwa makosa ya kisarufi; na, hatua za utatuzi wa makosa hayo. Ili kutimiza malengo hayo, data zilikusanywa kutoka uwandani na maktabani kwa kutumia mbinu za usomaji wa matini, usikilizaji na utazamaji wa taarifa za habari, na hojaji. Aidha, nadharia mbili ziliongoza ukusanyaji na uchambuzi wa data za utafiti huu. Nadharia hizo ni Uchanganuzi wa Habari Kisarufi ya van Dijk (1988) na nadharia ya Uchanganuzi Makosa ya Corder (1976). Mkabala wa kitaamuli ulitumika katika kuchambua data na kuwasilisha matokeo ya utafiti. Data zilichanganuliwa na kufafanuliwa kwa maelezo na mifano ya kutosha. Matokeo ya utafiti yameonesha kuwa kuna makosa mbalimbali ya kisarufi katika vyombo vya habari vya Tanzania kama makosa ya kimsamiati, kimatamshi, kimaumbo, kimuundo na kisemantiki. Pia, utafiti ulibaini kuwa kuna sababu za kufanya makosa ya kisarufi kwenye vyombo vya habari ambazo ni kukosa umahiri wa lugha (Kiswahili), athari ya lugha ya kwanza, kasumba, kutomudu sarufi ya Kiswahili, ufahamu wa lugha zaidi ya moja na ukosefu wa taaluma ya lugha kwa wanahabari. Vilevile, hatua za kuchukua ili kuepuka makosa zilizopendekezwa ni ufundishaji wa taaluma ya lugha kwa wanahabari, utoaji wa semina za matumizi sahihi ya lugha, vyombo vya habari kuajiri au kutumia wataalamu wa lugha, kutungwa kwa sheria za matumizi ya lugha na kufanya uhariri kwa kina kabla ya kutoa habari. Kutokana na utafiti huu, kuna haja ya tafiti nyingine kuendelea kufanyika kuhusu makosa mengine ya lugha yanayofanyika katika vyombo vya habari pamoja na athari zake. Maneno Makuu: Kimatamshi, Kimaumbo na Kisintakisi
    corecore