項(xiàng)目名稱: 基因組生物信息學(xué)分析的系統(tǒng)新算法研究及其應(yīng)用
推薦單位: 天津市
項(xiàng)目簡介: 本項(xiàng)目屬于生物學(xué)一級學(xué)科下屬的生物信息學(xué)和基因組學(xué)領(lǐng)域,是一門學(xué)科高度交叉的研究領(lǐng)域。人類及模式生物基因組等計劃的快速進(jìn)展積累了大量的DNA序列信息。本項(xiàng)目以近十年的努力,致力于基因組序列分析的新算法研究與應(yīng)用,提出了基于幾何學(xué)途徑的基因組序列分析的4個新算法,即:基因識別;GC輪廓圖;差異曲線及基因組段落化算法。這4個算法相互獨(dú)立又相互印證與協(xié)調(diào),構(gòu)成了一個內(nèi)部和諧的系統(tǒng)的算法集合。
本項(xiàng)目利用這4個新算法對大量基因組序列進(jìn)行分析,研發(fā)了適用于細(xì)菌、古細(xì)菌、病毒、噬菌體以及酵母基因組的基因識別軟件,它們已經(jīng)被國內(nèi)外學(xué)者應(yīng)用于許多新測序基因組(如細(xì)菌,噬菌體及SARS冠狀病毒基因組等)的注釋。論證了人、小鼠、雞和擬南芥等生物基因組Isochore結(jié)構(gòu)的存在性,制定出人類基因組在DNA序列水平上的Isochore結(jié)構(gòu)圖譜。根據(jù)GC輪廓圖算法提出了識別細(xì)菌與古細(xì)菌水平轉(zhuǎn)移基因組島的系統(tǒng)方法,并識別出一些重要的基因組島。利用差異曲線算法和基因組分段算法在國際上首先預(yù)測出硫磺礦硫化葉菌具有3個復(fù)制原點(diǎn)及它們的準(zhǔn)確位置。由于原核生物長期被認(rèn)為只具有單一的復(fù)制原點(diǎn),所以該預(yù)測引起廣泛關(guān)注并很快被實(shí)驗(yàn)所證實(shí)。
本項(xiàng)目從1998年元月開始至2006年12月為止經(jīng)歷了近10年的努力。先后發(fā)表SCI論文54篇,包括5篇 Bioinformatics, 4篇 Nucleic Acids Research 以及 Nature Biotech, Genomics 等本領(lǐng)域重要刊物,累積影響因子(按2005年JCR報告)達(dá)208.7點(diǎn)。被SCI刊物引用489次,其中他人引用355次?颬hysiol. Genomics 曾專門刊發(fā)2頁的評論文章,對GC輪廓圖算法及其在水平基因轉(zhuǎn)移研究中的貢獻(xiàn)予以積極評價。受邀在重要國際刊物撰寫綜述論文2篇;被邀在國際會議上做大會報告3次。被近20種國際刊物邀請為審稿人,評審論文數(shù)十篇。
主要發(fā)現(xiàn)點(diǎn): 核心發(fā)現(xiàn)點(diǎn):本項(xiàng)目基本屬于基因組研究方法學(xué)上的創(chuàng)新,在Z 曲線(一種DNA序列的等價三維表示)的基礎(chǔ)上發(fā)明了四個新算法,并用其對大量生物基因組進(jìn)行分析,發(fā)現(xiàn)了一些較重要的生物學(xué)新知識。
1、基因識別算法。我們發(fā)現(xiàn)蛋白質(zhì)編碼序列和非編碼序列的Z曲線的三維及多維空間特征完全不同,可利用這一特點(diǎn)對其進(jìn)行識別。這是一項(xiàng)全新的,基于幾何學(xué)的方法,識別準(zhǔn)確率高而偽正率較低,尤其對于高GC含量的微生物基因組表現(xiàn)尤為優(yōu)秀。此外,它還具有參數(shù)少、運(yùn)行速度快,同樣適用于大、小各種基因組等優(yōu)點(diǎn)。這一新算法已成功應(yīng)用于單細(xì)胞真核生物(如酵母)[1]、細(xì)菌與古細(xì)菌[2]、病毒與噬菌體基因組的基因識別[8,9],(計算生物學(xué);計算基因組學(xué);細(xì)菌學(xué))。
2、基因組GC含量無窗口計算方法(累積GC輪廓圖算法)。傳統(tǒng)的GC含量窗口計算方法不能精確反映基因組GC含量的局部突變位點(diǎn),而它們往往具有重要生物學(xué)意義。我們定義在基因組中某一點(diǎn)的GC含量正比于基因組Z曲線的z分量在該點(diǎn)處的導(dǎo)數(shù), 從而使GC含量在基因組處處都有定義, 并能精確顯示基因組GC含量的突變位點(diǎn)。這一算法廣泛應(yīng)用于原核生物基因組的水平基因轉(zhuǎn)移研究,識別出一些具有重要功能的基因組島[4],并發(fā)現(xiàn)基因組島的獲得有兩種模式:單純地插入;或插入同時伴隨原基因組部分基因簇的丟失。這兩種模式被認(rèn)為在微生物進(jìn)化中具有普遍性的意義[3]。該方法還被用于多種真核生物基因組Isochore結(jié)構(gòu)研究,并制定出人類基因組在DNA序列水平上的Isochore結(jié)構(gòu)圖譜[6](計算生物學(xué);細(xì)菌學(xué);計算基因組學(xué))。
3、 RY, MK, GC 和AT差異曲線算法。DNA序列的堿基可分為嘌呤(R)、嘧啶(Y)、氨基(M)和酮基(K)四種類型。而Z曲線的x和y分量和它們的線性組合可表示RY, MK, GC和AT沿序列的分布,分別稱為RY,MK,GC和AT差異曲線,它們的突變點(diǎn)往往對應(yīng)于基因組的復(fù)制起始和終止位點(diǎn)。針對這四種差異曲線設(shè)計了求其突變點(diǎn)的具體算法,并成功地應(yīng)用于預(yù)測多種微生物基因組復(fù)制原點(diǎn)[5,6](計算生物學(xué);細(xì)菌學(xué))。我們在國際上首先預(yù)測硫磺礦硫化葉菌基因組具有3個復(fù)制原點(diǎn)及它們的準(zhǔn)確位置。由于原核生物長期被認(rèn)為只有單一復(fù)制原點(diǎn),所以該預(yù)測引起廣泛關(guān)注并很快被實(shí)驗(yàn)所證實(shí)[5](細(xì)菌學(xué))。
4、基因組分段算法。由Z曲線導(dǎo)出基因組序指標(biāo)的概念,該指標(biāo)可以很好的反映基因組序列的有序程度及堿基組成的突變。在序指標(biāo)的基礎(chǔ)上,我們發(fā)明了計算基因組的分段點(diǎn)算法,可以有效地、高精度地計算基因組的分段點(diǎn),而這些分段點(diǎn)通常具有明確生物學(xué)意義。這一算法在基因組島識別,復(fù)制原點(diǎn)預(yù)測,Isochore結(jié)構(gòu)邊界確定等方面得到具體的應(yīng)用[7] (計算生物學(xué);細(xì)菌學(xué))。
以上4個算法是在Z曲線基礎(chǔ)上用幾何學(xué)方法對基因組進(jìn)行分析,在國際上獨(dú)樹一幟,具有獨(dú)創(chuàng)性和系統(tǒng)性的特點(diǎn)。越來越多的國內(nèi)外同行已經(jīng)加入此項(xiàng)研究;谶@些算法開發(fā)的系列軟件已經(jīng)獲得廣泛應(yīng)用。
主要完成人: 張春霆
張春霆是所有科研項(xiàng)目的唯一負(fù)責(zé)人,是所有論文的唯一通訊作者,是本項(xiàng)目的唯一完成人。張春霆在近十年里為本項(xiàng)目投入了主要精力,并全部在國內(nèi)完成。
|