基因組注釋分析主要包括哪些內(nèi)容
基因組注釋包括以下方面的內(nèi)容:
(1) 重復(fù)序列的預(yù)測。通過比對已知的重復(fù)序列數(shù)據(jù)庫,找出序列中包含的重復(fù)序列,識別類型并轉(zhuǎn)化為N或者X,統(tǒng)計各種類型重復(fù)序列的分布。
(2) 編碼基因的預(yù)測。通過將轉(zhuǎn)錄組或EST數(shù)據(jù)比對到拼接后的基因組序列上,找出編碼基因位置,預(yù)測編碼基因結(jié)構(gòu)。或者通過專業(yè)的外顯子預(yù)測軟件,預(yù)測編碼基因的外顯子結(jié)構(gòu)。
(3) 小RNA基因的預(yù)測。通過比對已知的小RNA的數(shù)據(jù)庫,或者通過生物信息(bioinformation)學(xué)軟件預(yù)測,找出這些小RNA基因,并進行分類。
(4) 調(diào)控序列和假基因的預(yù)測。
基因功能的注釋,使用的數(shù)據(jù)庫包括NT/NR, SwissProt/TrEMbl, InterPro, KEGG, COG, Gene ontology等,使用比對的方法,如blast,找出同源相近的基因,并注釋功能。
111 開發(fā)環(huán)境本系統(tǒng)基于PC 微機,操作系統(tǒng)為Linux。
測試系統(tǒng)為PIII 550 雙CPU 微機,內(nèi)存1GB ,運行RedHat 710 Linux 系統(tǒng)。數(shù)據(jù)庫管理系統(tǒng)使用MySQL ,Web 服務(wù)器程序使用Apache ,應(yīng)用程序接口用Perl 腳本語言編寫。
本系統(tǒng)也可在單CPU 微機上運行,內(nèi)存不小于512MB。所有系統(tǒng)軟件和應(yīng)用軟件均可以從Internet 網(wǎng)上免費獲得。
112 測試數(shù)據(jù)本系統(tǒng)用藍細菌( Synechococcus sp. ) PCC7002 基因組初步拼接所得最大重疊連續(xù)群(Contig) 作測試數(shù)據(jù),共3 03247bp 。113 MGAP 的基因組注釋系統(tǒng)基因組注釋系統(tǒng)是MGAP 的核心,整合了許多常用的基因識別和蛋白質(zhì)功能預(yù)測軟件,包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等,以及多個數(shù)據(jù)庫,如非冗余蛋白質(zhì)序列數(shù)據(jù)庫(Non redundant , NR) 、已知三維空間結(jié)構(gòu)的蛋白質(zhì)序列數(shù)據(jù)庫(PDBSeq) 、國際蛋白質(zhì)資源信息系統(tǒng)( InterPro) [6] 和直系同源蛋白質(zhì)家族數(shù)據(jù)庫(Cluster of orthologousgroups ,COG) 等,編寫了相應(yīng)的模塊進行自動操作,并把每一步注釋結(jié)果導(dǎo)入數(shù)據(jù)庫中。
MGAP 整合的一般模塊,可以被其他任何一種微生物基因組直接使用。不同實驗室可根據(jù)實際研究需要,增加相應(yīng)模塊或數(shù)據(jù),如藍細菌Anabaena sp. strain PCC 7120 的蛋白質(zhì)序列庫等。
基因識別是MGAP 的第一步,本系統(tǒng)采用微生物基因組基因識別最為權(quán)威的Gene2Marks 軟件進行基因預(yù)測,通過http :PPopal .biology.gatech.. cgi 網(wǎng)站提交重疊連續(xù)群測試序列(3 03247bp) ,使用GeneMarks 缺省參數(shù),預(yù)測得到279 個基因。然后用MGAP 的數(shù)據(jù)加載模塊(Loaddata) 將預(yù)測結(jié)果導(dǎo)入ORF 表中。
114 MGAP 的用戶接口用戶接口用于展示注釋結(jié)果,提供易于操作和分析平臺。本系統(tǒng)用戶接口基于Web設(shè)計開發(fā),用戶可通過瀏覽器訪問基因組注釋系統(tǒng),包括基因組環(huán)狀圖展示、基因和ORF在染色體上分布圖,并對注釋信息進行檢索。
基因組環(huán)狀基因分布圖構(gòu)建基于如下信息:預(yù)測所得基因的起始位置、長度,編碼基因的正負鏈信息,以及預(yù)測的基因功能分類。2 結(jié)果圖1 是MGAP 系統(tǒng)對PCC7002 基因組重疊連續(xù)群測試序列注釋結(jié)果。
A 為基因展示圖,B 為ORF 顯示頁面。A 中由外向內(nèi)依次為: (1) 正鏈編碼基因; (2) 負鏈編碼基因; (3)GC 含量統(tǒng)計; (4) GC 偏離量統(tǒng)計。
該系統(tǒng)構(gòu)建的環(huán)狀基因組,可顯示正負鏈上的編碼基因,用相應(yīng)顏色表示功能類別。本系統(tǒng)沿用經(jīng)典蛋白質(zhì)功能分類方法[8] ,即把微生物基因組所有基因按功能分為16 大類,進而細分為113 個子類。
此外,還增加了統(tǒng)計GC 含量和GC 偏離量(GC Bias) 功能。計算GC 含量時以200bp 為滑動窗口,計算GC 偏離量時以13kb 為滑動窗口。
GC 偏離量表示G和C 含量的差別,定義為: (G2C)P(G+ C) [9] 。點擊A圖中環(huán)狀基因組展示圖,則可得到B 圖基因組局部ORF 顯示頁面。
點擊圖中某個ORF ,即可調(diào)出其所有注釋信息,包括該ORF 在基因組中的位置、長度、正負鏈信息、核酸和蛋白序列,以及對NR 蛋白庫、COG數(shù)據(jù)庫、InterPro 、PDBseq 數(shù)據(jù)庫的搜索結(jié)果。所有結(jié)果都有相對應(yīng)的連接可以直接連到原始數(shù)據(jù)庫。
3 討論新基因組功能注釋是基因組研究的重要方面,MGAP 把注釋所用軟件和公共數(shù)據(jù)庫進行有機集成,使注釋過程自動進行并把結(jié)果存儲到數(shù)據(jù)庫系統(tǒng)中,最終提供友好的界面,可為中小實驗室提供方便實用的微生物基因組注釋系統(tǒng),減少人工參與,提高注釋效率。該系統(tǒng)考慮到國內(nèi)一般中小實驗室的實際情況,基于廉價的PC 微機和免費Linux、MySQL 、Apache 和Perl 等軟件系統(tǒng)開發(fā)。
必須指出,目前所有計算機注釋信息,均不能保證完全準確。MGAP 在一定程度上依賴于現(xiàn)有數(shù)據(jù)庫中的注釋信息。
由于各種原因,這些注釋信息必然有一些錯誤。顯然,這些錯誤信息將不可避免地引入新的注釋系統(tǒng)。
為此,MGAP 綜合了多種注釋方法,并互為補充。例如,一個ORF 既有BLASTP從NR 數(shù)據(jù)庫搜索到的相似序列,又在InterPro 蛋白質(zhì)模體庫中找到相應(yīng)功能位點,也可找到高分匹配的COGs ,那么該注釋結(jié)果就比較可靠。
此外,必要的人工注釋,可以避免或糾正自動注釋的錯誤。例如,由于測序錯誤產(chǎn)生的讀碼框移位或是缺失,會導(dǎo)致一個基因被拆分成兩段,這種錯誤目前只能由手工糾正。
基因組注釋是一個復(fù)雜、繁瑣的過程,需要大量的生物學(xué)知識。詳盡、準確的注釋需要經(jīng)過嚴格的生物學(xué)實驗才能獲得。
本系統(tǒng)對測試序列的注釋結(jié)果仍有許多未知功能基因,需不斷擴充新數(shù)據(jù)而逐步更新。MGAP 的新版本將增加交互式用戶注釋模塊,進一步擴充和增強該系統(tǒng)注釋功能。
基因組注釋 是利用生物信息學(xué)方法和工具,對基因組所有基因的生物學(xué)功能進行高通量注釋。
基因組注釋的研究內(nèi)容包括基因識別和基因功能注釋兩個方面。基因識別的核心是確定全基因組序列中所有基因的確切位置。從基因組序列預(yù)測新基因,現(xiàn)階段主要是3 種方法的結(jié)合:
(1)分析mRNA 和EST數(shù)據(jù)以直接得到結(jié)果;
(2)通過相似性比對從已知基因和蛋白質(zhì)序列得到間接證據(jù);
(3)基于各種統(tǒng)計模型和算法從頭預(yù)測。
對預(yù)測出的基因進行高通量功能注釋可以借助于以下方法,利用已知功能基因的注釋信息為新基因注釋:
(1)序列數(shù)據(jù)庫相似性搜索;
(2)序列模體搜索;
(3)直系同源序列聚類分析。
擴展資料:
基因注釋重大突破:
1、中國科學(xué)院水生生物研究所葛峰研究員學(xué)科組利用蛋白基因組學(xué)的研究策略和方法,成功對單細胞光合真核生物三角褐指藻的基因組進行了深度注釋,完成了三角褐指藻的蛋白質(zhì)組精細圖譜,并建立了完整的真核生物基因組深度注釋實驗技術(shù)和分析流程。
該研究成果的取得,有望進一步推動蛋白基因組學(xué)在生命和健康領(lǐng)域特別是精準醫(yī)學(xué)方面的應(yīng)用。
2、美國加州大學(xué)舊金山分校研究人員發(fā)現(xiàn),GABP蛋白的一種特定成分GABP-β1L,是與端粒酶逆轉(zhuǎn)錄酶(TERT)啟動子突變相關(guān)的膠質(zhì)母細胞瘤細胞不受控制地分裂、繁殖的關(guān)鍵。
他們10日在《腫瘤細胞》雜志上發(fā)表論文稱,新發(fā)現(xiàn)提供了一個很有前途的用藥靶點,對未來膠質(zhì)母細胞瘤及其他多種與TERT啟動子突變相關(guān)癌癥的治療具有重要意義。
參考資料來源:百度百科-基因組注釋
出現(xiàn)在重疊基因中:
①在核糖體結(jié)合位點之后含有多重起始位點,或終止密碼的漏讀(其中UGA、UAG易被漏讀、錯讀,UAA能嚴格終止),例如兩種蛋白質(zhì)均從同一起始密碼開始起譯,其中一種蛋白在遇到第一個終止密碼是就停止翻譯,另一種蛋白由于發(fā)生漏讀,核糖體繼續(xù)翻譯到下一個終止密碼處;
②以不同的讀碼框架對同一條mRNA進行識讀和翻譯;
③選擇不同的起始密碼AUG,但按同一個讀碼框架對同一條mRNA進行識讀和翻譯;
④編碼在同一DNA區(qū)段不同極性單鏈上的重疊基因,即反向重疊基因;
⑤真核生物內(nèi)含子選擇性剪接可由同一初級轉(zhuǎn)錄物產(chǎn)生多種蛋白質(zhì),即同源異型蛋白。
另一個版本:
①在核糖體結(jié)合位點之后含有多重起始位點
②在一兩個堿基的移碼方式出現(xiàn)重疊的可讀框
③不同的剪接方式,產(chǎn)生不同的mRNA方式
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請在一個月內(nèi)通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時間:3.128秒