英文名:?Integration of full-length transcriptomics and?targeted metabolomics to identify?benzylisoquinoline alkaloid biosynthetic genes in?Corydalis yanhusuo
雜志:Horticulture Research
影響因子:5.404
延胡索( Corydalis yanhusuo W.T. Wang) ,別名元胡,罌粟科紫堇屬多年生草本植物,常以其干燥塊莖入藥,是世界上具有低成癮性和耐受性的鎮痛中藥,鎮痛效價約為嗎啡的60%。四氫巴馬汀和左旋紫堇達明已被確認為延胡索中具有鎮痛活性成分,可作為阿片類鎮痛藥的替代品,但含量低下,產量較小的缺點制約著該類藥物的應用。
對合成原小檗堿型芐基異喹啉生物堿的相關基因進行了挖掘,為后期利用合成生物學與植物代謝工程生產延胡索中具有鎮痛效果的痕量化合物奠定了基礎。
延胡索,成熟期的葉和塊莖,道地產區浙江磐安
代謝:UPLC-Q-TOFMS定性定量
轉錄組:二代+三代全長轉錄組測序
1、轉錄組和代謝組測序分析
該研究以來自道地產區浙江磐安的延胡索成熟期的葉和塊莖為研究對象,采用UPLC-Q-TOFMS定性定量分析了延胡索中具有鎮痛活性的成分,并通過二代校準的三代全長轉錄組測序的方法對合成原小檗堿型芐基異喹啉生物堿的相關基因進行了挖掘。

延胡索提取物的塊莖和葉組QTOF-MS數據的代謝組學多元分析

延胡索塊莖和葉片之間基因的差異表達
2.、轉錄組-代謝組聯合分析
對處于不同器官的組織樣品進行了轉錄組-代謝組聯合分析,最終鑒定到了101個參與芐基異喹啉生物堿(benzylisoquinoline alkaloid,BIA)生物合成途徑的unigenes和38種在延胡索葉與塊莖中含量具有顯著差異的代謝物,并對其中19種典型的代謝物進行了器官差異性豐度測定。結果顯示,目前已知的合成途徑在延胡索中報導過的BIAs合成途徑中均成功對應到至少一種關鍵合成酶的unigene,說明BIA的空間分布差異主要受到轉錄水平上的調控。

芐基異喹啉生物合成途徑
3、 OMT蛋白家族系統發育樹分析
進一步研究發現,其中參與合成具有廣泛臨床鎮痛潛力的關鍵代謝物四氫巴馬汀的酶可能與唯一已知的黃連中負責催化這一步反應的ColumbamineO-methyltransferase(CoOMT)存在較大的蛋白質序列差異。通過系統發生樹分析,作者們推斷出至少存在10種unigenes的翻譯產物可能催化四氫巴馬汀的合成。 特異性的氧甲基化是四氫巴馬汀與紫堇達明合成的關鍵,延胡索中是否存在特殊的一類OMT或者具有不同底物特異性的OMT則是接下來將要重點解析的重點。

OMT蛋白家族系統發育樹
本研究明確了鎮痛成分的生物合成機制,同時為進一步生化水平上的活性驗證提供了方向,且為后期延胡索功能基因組的解析奠定基礎。
?
]]>發表期刊:Plant and Cell Physiology
發表時間:2020年10月
影響因子:4.799
干旱或缺水引起的脫水是世界上許多地區植物面臨的一種嚴重的非生物脅迫,嚴重制約著植物的生產力和生存。許多生物化學、生理和遺傳性狀已在不同的植物組織中進化出來,特別是根和葉,以應對干旱脅迫。根是感知水分缺乏最敏感的器官,并相應的調節水分和養分的吸收。在有限的水分條件下,它們可以通過表型和結構上的改變來增加枝條和葉片對水分的吸收,以維持正常的水分利用。葉片是光合作用和蒸騰作用的主要器官,調節水分的吸收和流失。葉片對干旱的反應是萎蔫、氣孔關閉、角質層蠟沉積和減少光合作用,以減少水分的過度流失。因此,根系和葉片是調節水分在土壤和水分之間流動的最重要器官,但其對干旱脅迫響應的分子機制尚不清楚。
玫瑰是園藝作物之一,無論是盆栽植物和切花在招待、娛樂和保健行業都有相當大的經濟價值。由于玫瑰生長在亞熱帶氣候,對干旱和水分虧缺非常敏感,嚴重限制了其生長和開花。此前對玫瑰花瓣的轉錄組分析已經確定了對疾病響應、鹽度和熱脅迫以及與花色相關的基因。然而,玫瑰植株對干旱脅迫的分子響應仍有待進一步研究。
高通量RNA測序(RNA-seq)已經在楊樹和玉米中鑒定了許多干旱響應基因。然而,傳統的RNA-seq產生的短讀序列并不包含完整的轉錄本,因此在預測新基因方面準確性較低。PacBio和Oxford Nanopore Technology (ONT)是一種新穎的RNA-seq方法,可以通過高通量產生長讀來讀取全長轉錄本,從而重構編碼基因組。此外,ONT可以直接對RNA進行測序,并識別堿基修飾、可變剪接、聚腺苷酸化、和融合基因。因此,ONT RNA-seq在探索糧食作物和園藝作物抗旱性的分子機制方面很有前景。
在這項研究中,通過對正常、輕度和重度干旱條件下生長的玫瑰幼苗的光合速率和植物激素水平進行監測,并采用ONT法對其全長轉錄本進行測序。通過對轉錄組數據的分析,既豐富了已注釋的玫瑰基因組,又為激素在干旱脅迫中的潛在作用提供了新的認識,同時也識別出了在應對干旱脅迫時激活的新的調控網絡。這項研究提供的數據可以為開發新的轉基因耐旱玫瑰品種鋪平道路。
樣品做了三組處理:干旱處理0天(ND stress)、5天(MD stress)和10天(SD stress),并對光合作用進行了檢測,同時檢測了脫落酸(ABA)和生長素(auxin)的含量。
1.干旱脅迫對玫瑰幼苗生長發育和形態的影響
以2月齡玫瑰幼苗為材料,在不干旱(ND)、輕度干旱(MD)和SD脅迫條件下,對其相對含水量(RWC)和光合特性進行了分析。與ND對照相比,MD和SD植株的RWC分別下降到41%和15%(圖1A)。此外,定期澆水的植株看起來健康,葉子呈綠色/深綠色,而暴露在MD脅迫下的幼苗變黃,一些葉子彎曲并枯萎(圖1A)。另一方面,SD條件導致葉片大面積枯萎和卷曲(圖1A)。與此相一致的是,SD脅迫下幼苗的鮮重和干重均顯著低于ND和MD組(圖1B),說明過度脫水會降低養分吸收和植物生長。

圖1 干旱脅迫下玫瑰幼苗的形態變化
2.全長RNA-Seq及功能注釋
為了闡明干旱響應的分子機制,對不同處理植株的葉(L)和根(R)進行了轉錄組測序。6個樣本(每個樣本3個生物重復)共18個cDNA文庫,包括ND-L、MD-L、SD-L、ND-R、MD-R和SD-R。從最初的116,192,367 raw reads中,提取了115,374,531 (99.29%) clean reads,組成玫瑰全長非嵌合轉錄組。通過與Rosa chinensis 基因組比對,在轉錄組中鑒定出了48,549個基因,占基因組長度的21.46%。此外,共鑒定出59,404個開放閱讀框(ORF),如圖2A所示,只有19個編碼序列(CDSs)編碼>800個氨基酸的多肽,而58%的CDSs編碼長度在100 – 400個氨基酸的小肽(圖2A)。最后,89,044個非冗余轉錄本中的58,753個可以被注釋到不同的數據庫中(圖2B)。

圖2 干旱脅迫下玫瑰葉片和根中的DEGs
3.DEGs的比較分析
為了進一步闡明干旱誘導的玫瑰葉片和根的轉錄組變異,相對于ND,篩選出了MD和SD樣品的DEGs。從18個cDNA文庫中檢測到48,549個基因的表達量,根據錯誤發現率(FDR) (≤0.01)和log2值(≥2或≤0.05)鑒定出7,101個DEGs,其中669個(~9.4%)為新基因。此外,這些DEGs大部分在同一組的葉片和根中表現出不同的表達模式。MD和SD組葉片分別鑒定出580和3,326個DEGs,而與其對應的根部樣品分別鑒定出3,445和1,751個DEGs,這表明干旱響應的轉錄機制在根中占主導地位(圖 2C)。此外,在MD葉片和根中分別有237個和1438個基因表達上調,343個和2007個基因表達下調。意料之中的是,SD條件下導致了總體上更大的轉錄組變化,在葉片中有1284個上調基因和2042個下調基因,在根中有365個上調基因和1386個下調基因(圖2D)。與SD-L、MD-R和SD-R相比,在MD-L中分別鑒定出331、258和547個特異基因,與SD-L相比,MD-R中有2963個特異基因。此外,有855個基因在MD-R和SD-R中均存在,而所有組中共有的基因只有13個(圖2C)。編碼脂質轉運蛋白、早期光誘導蛋白、線粒體磷酸載體蛋白、鋅指蛋白和谷胱甘肽s轉移酶的DEGs主要集中在SD組,而細胞分裂控制蛋白在MD條件下誘導發生。
4.GO和KEGG富集分析DEGs
通過GO富集分析,將玫瑰葉片和根系干旱誘導基因分為生物過程(BP)、細胞成分(CC)和分子功能(MF)注釋。在MD-L中特異的干旱應答基因富集在生物過程(天冬酰胺生物合成過程、鈣離子跨膜運輸)、分子功能(天冬酰胺合成酶(谷氨酰胺水解)活性、β-amyrin合成酶活性)以及細胞成分( COPII囊泡外殼)中。這些GO基因也在SD-L、MD-R和SD-R組中富集,表明這些基因可能參與信號轉導通路或其他響應干旱脅迫的調控網絡。隨后的KEGG富集分析顯示,在MD脅迫下的玫瑰幼苗葉片在碳代謝(ko01200)、核糖體(ko03010)和aa的生物合成(ko01230)等方面的DEGs與其他樣品有顯著差異。受SD脅迫影響的基因主要涉及淀粉和蔗糖代謝(ko00500)、植物激素和信號轉導(ko04075)、核糖體(ko03010)、光合作用(ko00195)、碳代謝(ko01200)等。玫瑰幼苗根系中MD的響應基因影響內質網中的碳代謝和蛋白質加工。受MD和SD影響顯著的基因在苯丙素合成、植物激素和信號轉導、內質網蛋白加工等方面具有重要作用。綜上所述,調控碳代謝、植物激素合成和信號轉導的基因受到干旱脅迫的影響,可能在葉片和根的適應反應中發揮關鍵作用。
5.干旱脅迫降低了玫瑰的光合性能

圖3 干旱脅迫下玫瑰葉片光合作用的變化
鑒于玫瑰葉片在干旱脅迫下顯著枯萎(圖1A),因此對ND、MD和SD生長條件下葉片的光合參數進行了研究。雖然所有組的總葉綠素含量沒有顯著差異(圖3 D),但干旱脅迫顯著降低了Pn、Gs和Tr指數,在SD脅迫下降低的幅度比 MD更嚴重(圖3 B、C、F)。葉片中的Ci水平對MD和SD脅迫有不同的相應。MD處理下的平均Ci降低了111 μmol/mol,長期干旱后Ci值增加了62.33μmol/mol,恢復正常。由此可見,干旱脅迫不利于玫瑰植株的光合性能,限制了葉片的生長。MD條件下的水分利用效率(WUE)高于ND和SD(圖3E),說明輕度水分虧缺增加了葉片有效利用水分的能力。為了進一步闡明其分子機制,對與光合作用途徑相對應的轉錄組數據進行了分析。干旱脅迫下與光合作用相關的DEGs包含編碼PS II、PS I、葉綠體三磷酸腺苷(ATP)合酶亞基(ATP合酶)和葉綠素a/b結合蛋白。如圖3G所示,幾個PSII(gene 14042,gene 26289等)、PS I (gene 29343,gene 10875等)和ATP合酶(gene 28095, gene 31836等)基因在SD脅迫下表達下調至少0.5倍(圖3 G)。綜上所述,干旱脅迫誘導了玫瑰葉片的光合動態在轉錄水平上的變化。
6.干旱脅迫使脫落酸和生長素濃度增加

圖4 干旱響應DEGs調控ABA和生長素的生物合成及信號通路
KEGG分析顯示,干旱脅迫下植物激素和信號轉導通路(ko04075)顯著富集。ABA和生長素是干旱脅迫下調節植物生長發育的主要激素,因此對干旱脅迫下玫瑰葉片和根中的這兩種激素的水平進行了檢測。ABA含量在干旱條件下急劇增加,并在長期(SD)脅迫下達到峰值(圖4A)。與對照相比,MD和SD環境下葉片中吲哚-3-甲醛(ICA)的含量分別上升3.44和7.96 ng/g,根中分別上升1.15和4.02 ng/g(圖4 E)。長期干旱脅迫下葉片中吲哚乙酸(IAA)含量顯著下降,根系中IAA含量在MD中增加,而在SD中下降(圖4 G)。相比之下,干旱脅迫下的玫瑰幼苗葉片和根中ME-IAA含量均顯著增加,且與SD相比,MD脅迫下葉片中ME-IAA含量更高(圖4 F)。最后,在干旱脅迫下,葉片中的IP濃度顯著降低,而根系中的IP濃度顯著升高(圖4 G)。在任何條件下都不能檢測到IBA水平。綜上所述,干旱脅迫觸發了玫瑰葉片和根部的激素變化,以維持生理過程。
7.DEGs參與ABA和生長素的生物合成及信號通路
與上述結果一致的是,干旱響應的DEGs在類胡蘿卜素生物合成(次生代謝產物)、ABA生物合成和ABA信號通路中顯著富集。轉錄組數據中監測到的ABA和生長素合成以及信號轉導相關基因的表達模式(圖4B, D),4個NCEDs,ABA合成的步驟,在MD-L和MD-R中誘導上調。轉錄本(gene 4639)編碼PYR/PYL,是ABA信號通路的關鍵因子,在所有組中表達上調。9個ABA誘導的PP2Cs,包括4個抑制ABA信號、促進GA信號的HAI同源物和5個激活ABA和Snf1相關激酶OST1的HAB同源物在MD和SD脅迫下均顯著上調。另外,SnRK2基因有2個在MD-L中上調(gene 10030, 2.45倍,gene 49803, 2.17倍),有3個在MD-R中上調(gene 10030, 4.81倍,gene 49802, 2.48倍,gene 49803, 2.91倍),有2個SnRK2基因在MD-L中下調(gene 49801, 0.17倍,gene 49802, 0.49倍)。最后,有3個ABF轉錄因子(gene 37633, gene 42692, gene 47967)在SD-L和SD-R 中上調,進而激活ABA響應基因。
絲蘭黃素單加氧酶是生長素合成的核心酶,在MD-L、SD-L、MD-R和SD-R樣品中均有高度誘導。TAA1控制陰暗條件下生長素的產生,并且在任何轉錄組中表達都沒有差異。在生長素響應基因中,有6個SAUR基因在MD-L和SD-L下顯著上調,2個基因下調(圖4D)。一個生長素受體F-box 蛋白TIR1(gene 49288)在SD-L中誘導上調3.22倍,2個AUX基因(gene 18102和gene 55695)在MD-L中誘導上調2倍。2個與生長素信號傳遞相關的IAA-?;?酰胺合成酶(gene 37308, gene 41087)也在干旱脅迫下被誘導。18個調控生長素反應的基因ARF差異表達:6個在SD-L和MD-R中上調,7個在MD-L和SD-L中下調。這些發現與干旱引起的生長素含量變化在前一節中的描述一致。
8.TFs 和IncRNA的鑒定

圖5 TFs和IncRNA的鑒定
干旱脅迫顯著改變了玫瑰葉片和根中與DEGs相關的279個轉錄因子的表達。MD和SD條件下,MYB、bHLH、b-ZIP、NF-Y、WRKY和AP2家族的TFs顯著富集,其中MYB、AP2和WRKY占主導,差異表達的TFs分別為124、46和27個(圖5A)。bHLH和WRKY家族對干旱脅迫的響應非常相似。在MD-L處理中,有少量的DEGs、上調基因,但有大量的下調基因。相比之下,SD-L處理在這些基因家族中導致了更多的上調基因,并且適應干旱后的葉片和根的干旱響應的倍數變化通常低于SD處理。如圖5C所示,在干旱脅迫下,葉片和根中分別有133和177個TF基因差異表達(圖5 C),其中31個基因是兩個器官共有的且表達模式相似。例如,gene 6966和49627在MD和SD條件下,在葉片和根中都是表達上調。一些蛋白激酶家族,包括RLK/Pelle_DLSV(142個成員,玫瑰轉錄組中較大的家族)和RLK/Pelle_ RLCK -VIIa -2(101個成員)(圖5 B),在玫瑰轉錄組中負責蛋白激酶的大小。
lncRNAs是非編碼轉錄本,可調節順式和反式基因的轉錄,從而控制組織發育的各個方面和對外部刺激的反應(Kim和Sung 2012)。我們利用Pfam、編碼潛力計算器(CPC)、編碼潛力評估工具(CPAT)和編碼非編碼索引(CNCI)數據庫篩選了轉錄組數據,分別鑒定出184、5,803、3,247和3,100個注釋轉錄本(圖5 F),其中2,410個新的lncRNAs注釋到了所有數據庫(圖5 E)。此外,這些常見lncRNAs中,65.64%(1582)為lincRNAs,4.61%(111)為反義lncRNAs,1.74%(42)為內含子lncRNAs,28%(675)為正義lncRNAs(圖5 E)。我們還預測了2,403個lncRNAs的20,240個靶基因,其中537個和19,703個靶基因分別受反式和順式lncRNA的調控。因此,這些lncRNAs可能在應對干旱脅迫時通過調控關鍵基因發揮重要作用。
9.干旱脅迫下玫瑰葉和根中DEGs聚類
接下來,根據RNA-seq數據鑒定了7101個DEGs,占本研究鑒定的所有基因的14.63% (7,101/48,549)。這些DEGs的熱圖表現出兩個保守組,如在干旱脅迫下誘導和抑制根和葉的表達模式(圖6 A)。然后使用K-means算法進行富集分析,得到16個聚類(K1-K16)(圖6 B)。在SD條件下,K12、K13和K16基因主要在葉片和根中表達,表明它們可能參與干旱脅迫。而在MD和SD處理下,K4、K5、K7、K9和K11基因在根和葉中均受到抑制。
我們還通過加權相關網絡分析來確定與干旱脅迫響應相關的基因簇或模塊。所有基因聚類為33個模塊(圖6 C、E),其中tomato modules與SD-R、fire-brick與SD-L、light steel blue與MD-L、medium purple與ND-L和ND-R顯著相關(圖6 D)。各模塊KEGG富集分析顯示,干旱脅迫下大部分樣品富集苯丙素生物合成(ko00940)和核糖體(ko03010),SD-R樣品富集最顯著的通路是內質網蛋白加工(ko04141)(圖6 F)。綜上所述,上述途徑調節了玫瑰葉片和根系對干旱脅迫的響應。

圖6 干旱脅迫下DEGs的整體表達模式
10.可變剪接異構體及可變剪接的變化
RNA-Seq檢測到的轉錄本與R.chinensis ‘Old Blush’基因組進行比對,鑒定剪接異構體。如圖7 A所示,我們從非冗余轉錄本中檢測到42,544個可變剪接(As),包括12,096個內含子保留(IRs)、12,914個選擇性3’剪接位點(alt 3’)、7,433個選擇性5’剪接位點(alt 5’)、9,406個外顯子跳過(ES)和695個互斥外顯子(ME)(圖7 A)。IR在玫瑰葉片中最為常見,在ND-L、MD-L、SD-L和ND-R樣品中的比例分別占34.77%、30.83%、30.1%和29.56%。而在SD脅迫下,ES是主要的AS模式(占所有AS事件的32.16%)。在MD-R中最常見的AS事件是alt 3’ (32.38%), ME(1.75%)是最罕見的(圖7 B)。為了進一步驗證新發現的轉錄組剪接異構體,我們隨機選擇了三個至少注釋到兩個異構體上的基因(ONT.25325、gene 3669和gene 4728)進行RT- PCR驗證。在這些基因的第一個外顯子和最后一個外顯子或適當區域設計引物。如圖7 C所示,片段的條帶大小與轉錄組數據中發現的剪接亞型的條帶大小一致。對推測的剪接異構體進行克隆、測序和比對,以驗證剪接連接。例如,ONT. 25325編碼了一個putative protein,呈現出4個剪接亞型(圖7C),并隨后得到證實。此外,gene 3669和gene 4728顯示出相同的剪接變異。此外,一些剪接異構體,如gene 3669,在對照和干旱脅迫下表現出差異。新的可變剪接體的鑒定進一步注釋了R.chinensis ‘Old Blush’基因組。

圖7 干旱脅迫下AS表達譜
作者分析了干旱引起的玫瑰幼苗葉片和根部光合作用和激素水平的變化,首次在MD和SD條件下建立了全長玫瑰轉錄組,并鑒定了組織特異性的干旱響應基因、TFs 、lncRNA和AS。鑒定出特定組織在不同干旱條件下參與光合作用,ABA和生長素生物合成和信號傳導的基因模塊,本研究中提供的信息補充了R. chinensis的現有注釋,并為未來玫瑰植物抗旱性的機理和功能研究奠定了基礎。
參考文獻:Wei Li, Lufeng Fu, Ziwen Geng, Xiaojuan Zhao, Qinghua Liu, Xinqiang Jiang, Physiological Characteristic Changes and Full-Length Transcriptome of Rose (Rosa chinensis) Roots and Leaves in Response to Drought Stress[J],?Plant and Cell Physiology, 2020.
]]>發表期刊:中國農業科學
發表時間:2020年11月
影響因子:2.302
蜜蜂球囊菌(Ascosphaeraapis,簡稱球囊菌)是專性侵染蜜蜂幼蟲的致死性真菌病原,引發的白堊病是長期危害養蜂生產的頑疾,不僅可導致蜜蜂幼蟲的大量死亡,還能導致成年蜜蜂數量的銳減以及蜂群群勢和蜂產品產量的驟降。目前,球囊菌的基因組注釋信息尚不完善,高質量參考轉錄組匱乏,嚴重限制了球囊菌的組學和分子生物學研究。
球囊菌菌株由福建農林大學動物科學學院(蜂學學院)蜜蜂保護實驗室分離、純化和保存。純化得到的純凈菌絲樣品和孢子樣品經液氮速凍后迅速轉移到-80℃超低溫冰箱保存備用。利用納米孔長讀段測序技術對球囊菌的純化菌絲(Aam)和純化孢子(Aas)分別進行測序,將高質量的三代測序數據混合后用于構建全長轉錄組,并通過比對主流數據庫進行功能注釋,同時對球囊菌的長鏈非編碼RNA(longnon-codingRNA,lncRNA)進行鑒定和分析。
1、納米孔測序數據質控
球囊菌菌絲和孢子的納米孔測序分別得到6321704和6259727條原始讀段,N50分別達到1094和1157bp,平均長度分別為992和1047bp,長的長度分別為9421和13060bp(表1)。來源于Aam和Aas的原始讀段的長度分布介于1-10kb以上,其中分布reads數多的長度均為1kb(圖1-A、1-B);原始讀段的Q值分布介于Q6-Q15,分布reads數多的質量值分別為Q9和Q11(圖1-C、1-D)。

圖1球囊菌菌絲和孢子納米孔長讀段測序的原始讀段長度和質量值分布Fig.1Lengthandqualitydistributionofrawreadsgeneratedfromnanoporelong-readsequencingofA.apismyceliumandspore
2、全長轉錄本的鑒定和分析
進一步過濾冗余全長有效讀段,分別得到9859和16795條非冗余全長轉錄本,N50分別達到1482和1658bp,平均長度分別達到1187和1303bp,長的長度分別為6472和6815bp(表2);上述非冗余全長轉錄本的長度介于1-7kb,其中分布在1kb的全長轉錄本數多。進一步對Aam和Aas的非冗余全長轉錄本進行Venn分析,結果顯示有6512個非冗余全長轉錄本為菌絲和孢子所共有,分別有3347和10283個非冗余全長轉錄本為二者特有(圖2-A)。


圖2球囊菌菌絲和孢子全長轉錄本的Venn分析(A)、全長轉錄本的Nr數據庫注釋(B)Fig.2Vennanalysisoffull-lengthtranscriptsinA.apismyceliumandspore(A)、Nrdatabaseannotationoffull-lengthtranscripts(B)
3、全長轉錄本的數據庫注釋
在球囊菌菌絲和孢子中共鑒定出20142條全長轉錄本,數據庫注釋結果顯示,分別有20809、11151、17723、12164、11340和9833全長轉錄本可注釋到Nr、KOG、eggNOG、Pfam、GO和KEGG數據庫。注釋全長轉錄本數量多的物種是球囊菌、Polytolypahystricis和莢膜組織胞漿菌(Histoplasmacapsulatum)(圖2-B)
4、lncRNA的鑒定及分析
利用CPC、CPAT、CNCI和Pfam4種方法依次鑒定出1906、1682、750和648條lncRNA,四者的交集為648個(圖3-A);其中基因間區lncRNA(longintergenicRNA,lincRNA)、反義鏈lncRNA(anti-senselncRNA)和正義鏈lncRNA(senselncRNA)的數量分別為480、119和49個(圖3-B)。

圖 3 球囊菌 lncRNA 的數量(A)和種類(B) Fig. 3 Number (A) and type (B) of A. apis lncRNAs
構建和注釋了球囊菌的高質量全長轉錄組,為探究球囊菌轉錄組的復雜性、完善參考基因組的序列和功能注釋信息以及深入開展球囊菌可變剪接體的功能研究提供了關鍵依據。
同期作者利用納米孔全長轉錄組測序數據對蜜蜂球囊菌(Ascosphaeraapis)和另一蜜蜂真菌病原東方蜜蜂微孢子蟲(Nosemaceranae)的現有參考基因組在結構功能注釋上進行了較好的完善,同時也對基因的可變剪接(alternativesplicing,AS)和可變多聚腺苷酸化(alternativepolyadenylation,APA)進行解析。通過gffcompare軟件將全長轉錄本與參考基因組注釋的轉錄本進行比較,對基因組注釋基因的非編碼區向上游或下游延伸,修正基因的邊界。利用MISA軟件鑒定長度在500bp以上的全長轉錄本的簡單重復序列(simplesequencerepeat,SSR)位點信息。使用Blast工具將鑒定到的新基因和新轉錄本比對Nr、KOG、eggNOG、GO和KEGG數據庫,從而獲得功能注釋。通過Astalavista軟件鑒定基因的AS事件類型,統計分析可變剪切的結果。采用TAPISpipeline對基因的APA位點進行鑒定,得到APA的位點信息。分別利用CPC、CNCI、CPAT、Pfam4種方法對長鏈非編碼RNA(longnon-codingRNA,lncRNA)進行預測,取四者的交集作為高可信度的lncRNA。研究結果較好地優化了現有的東方蜜蜂微孢子蟲和蜜蜂球囊菌參考基因組已注釋基因的結構和功能注釋信息,并補充和注釋了大量參考基因組未注釋的新基因和新轉錄本,同時也為其他真菌的AS和APA研究提供了有益的思路和方法借鑒。
]]>2022年8月,百邁客合作客戶中南大學湘雅醫院眼科中心/湖南省眼科重點實驗室夏曉波教授團隊在《Nature》子刊《Cell Death & Differentiation》(IF:12.067,中科院一區)發表了研究成果“Pathologically high intraocular pressure disturbs normal iron homeostasis and leads to retinal ganglion cell ferroptosis in glaucoma”(病理性高眼壓干擾正常鐵穩態并誘導青光眼視網膜神經節細胞鐵死亡),首次報道了鐵死亡與青光眼發病機制的研究。百邁客為該研究提供了ONT全長轉錄組建庫測序分析服務。
研究背景病理性高眼壓:青光眼是全球首位不可逆的致盲性眼病,可累及各年齡階段人群,臨床表現為進行性的視野缺損和視神經損害,視網膜神經節細胞(RGC,視網膜唯一的中樞傳入神經元)的選擇性和不可逆性丟失是青光眼病理損害的基礎。病理性高眼壓(pathological high intraocular pressure,ph-IOP)是青光眼發病的重要特征,也是導致青光眼RGC丟失的主要因素。通過藥物或手術途徑降低青光眼患者的ph-IOP是目前臨床中治療青光眼的唯一有效方法,但單純控制ph-IOP并不能完全阻止青光眼RGCs的丟失,臨床中很多青光眼患者在Ph-IOP控制至正常水平后,RGC丟失和視野損害仍在繼續,其具體的原因尚不完全清楚并存有爭議。
鐵死亡:是近幾年發現的一種新的細胞死亡方式,是在小分子物質誘導下發生的氧化性細胞死亡,具有鐵離子依賴性,其發生是細胞內脂質活性氧(reactive oxygen species,ROS)生成與降解的平衡失調所致。鐵死亡誘導劑通過不同的通路直接或間接作用于谷胱甘肽過氧化物酶(glutathione peroxidase,GPXs),導致細胞抗氧化能力降低、ROS堆積、最終引起細胞氧化性死亡。鐵死亡不僅與眾多疾病的發生發展有關,其相關信號通路上的關鍵蛋白也可成為藥物的作用靶點,多種鐵離子螯合劑以及親脂性自由基捕獲型抗氧化劑可以抑制這種細胞死亡
1)Ph-IOP損傷模型構建:體內模型–利用鹽水灌注系統,增加小鼠眼球前房壓力,誘導Ph-IOP損傷;體外模型–R28細胞的氧糖剝奪/復氧(OGD/R)損傷模型;
2)ONT全長轉錄組測序:在ph-IOP損傷或假手術組(sham)誘導后24 h,收集小鼠視網膜,將4個單獨的視網膜合并為一個樣本,每組包含三個樣本,分別進行ONT全長轉錄組測序。
3)指標檢測:視網膜氧化應激–丙二醛(MDA)、煙酰胺腺嘌呤二核苷酸磷酸酯還原形式(NADPH)和谷胱甘肽(GSH);高效液相色譜HLPC–檢測小鼠血清和視網膜的去鐵酮(DFP,脂溶性鐵螯合劑)給藥后的濃度;視網膜形態分析–H&E染色測量小鼠視網膜切片的形態;鐵離子檢測–Perl’s染色法檢測視網膜各層中鐵的分布、使用Iron Assay Kit盒(MAK025;Sigma)測量血清和視網膜的鐵水平(總鐵、二價鐵和三價鐵);掃描透射電子顯微鏡TEM–測定RGCs具有鐵濃縮特征的線粒體。
1. 通過分析急性原發性閉角型青光眼(APACG,Ph-IOP損傷最典型的一類青光眼)患者外周血清鐵離子含量發現,青光眼患者血清中三價鐵離子含量較正常人群升高,推測鐵代謝可能參與調控了ph-IOP條件下RGC的損傷過程;
2. 體外和體內實驗證實了,ph-IOP可以在損傷早期導致細胞和視網膜內二價鐵離子異常積累,損傷后8h血清中三價鐵離子水平升高;
3. 進一步研究發現,核受體共激活劑4(NCOA4)介導的鐵蛋白重多肽1(FTH1)的降解是導致ph-IOP損傷后視網膜內鐵代謝紊亂的重要原因,體內敲低Ncoa4的表達可抑制FTH1的降解,并降低視網膜中二價鐵的水平;
4. ph-IOP導致的鐵代謝紊亂可以通過增加視網膜促鐵死亡因子的表達,減少抑鐵死亡因子的表達誘導RGC發生鐵死亡,加重青光眼損傷;去鐵酮口服后可有效通過血-視網膜屏障,ph-IOP損傷后螯合視網膜內異常升高的二價鐵,抑制RGCs鐵死亡,保護視覺功能。
總之,該研究首次揭示了NCOA4-FTH1介導的鐵代謝紊亂及鐵死亡在青光眼RGCs損傷中的作用,證明了去鐵酮靶向抑制RGC鐵死亡對青光眼的治療作用,為從鐵穩態及鐵死亡途徑理解和治療青光眼提供了新的研究方向。
1、Ph-IOP 損傷擾亂鐵穩態
檢測 APACG 患者和健康對照者的血清鐵含量發現,APACG 患者血清的總鐵和三價鐵水平高于健康對照組(圖1b),但二價鐵含量的變化并不顯著;與對照組相比,ph-IOP損傷體外模型組的細胞質中二價鐵顯著積累。
在ph-IOP損傷或假手術組(sham)誘導后24 h的小鼠視網膜進行ONT全長轉錄組測序分析,結果顯示,在 ph-IOP 損傷后,29個鐵代謝相關基因的轉錄水平顯著改變(圖1d);此外,與正常小鼠相比,ph-IOP 損傷后1h和8h,視網膜和血清總鐵水平均升高(圖1e, f)。這些結果顯示ph-IOP 干擾了正常的鐵穩態,導致體內和體外鐵離子的顯著積累,這主要發生在 ph-IOP 損傷后的早期。

圖1 ph-IOP損傷小鼠視網膜鐵穩態分析
2、NCOA4介導的FTH1降解導致 ph-IOP 誘導鐵離子積累
鐵蛋白(Ferritin)是一種廣泛存在的儲鐵蛋白,在 ph-IOP 損傷后1小時,FTH1(Ferritin亞基)的水平急劇下降(圖2h),這與 ph-IOP 損傷后早期的鐵積累一致;鐵自噬(ferritinophagy)是一種調節細胞內鐵代謝的選擇性自噬,檢測視網膜內源性NCOA4(鐵自噬關鍵調節蛋白)蛋白水平發現,pH-IOP 損傷后NCOA4與 FTH1之間的內源性相互作用增強(圖2i, j);敲降Ncoa4后增加了視網膜 FTH1水平(圖2m-o),并伴隨著 ph-IOP 損傷后視網膜中二價鐵離子水平的降低(圖2p)。

圖2 NCOA4介導的FTH1降解導致 ph-IOP 誘導鐵離子積累
3、Ph-IOP損傷誘導鐵累積導致早期視網膜鐵死亡
為了驗證PH-IOP損失引起的視網膜鐵積累可能導致視網膜鐵死亡這一假設,測量了氧化應激相關生化指標,發現Ph-IOP損傷早期階段MDA含量顯著增加,而GSH和NADPH水平顯著降低;進一步檢測鐵死亡核心標志物GPX4(抑鐵死亡因子)和ACSL4(促鐵死亡因子)發現,ph-IOP 損傷后24h,GPX4水平降低,在PH-IOP損傷后1h,ACSL4水平上調(圖3d-f);并且這些鐵死亡相關蛋白的變化主要集中在視網膜內層,尤其是神經節層(圖3g, h),提示鐵死亡誘導的細胞損傷可能集中在 RGC 中(位于視網膜最內層);TEM檢測發現PH-IOP引起RGC線粒體收縮和線粒體膜密度增加,表明ph-IOP誘導的視網膜鐵累積導致視網膜鐵死亡,特別是在 RGC中。

圖3 Ph-IOP損傷誘導鐵累積導致早期視網膜鐵死亡
4、去鐵酮減少Ph-IOP損傷誘導的鐵離子累積
去鐵酮DPF作為鐵螯合劑目前已應用于臨床治療鐵超負荷疾病,阻止患者血清鐵的蓄積。進一步研究DFP對ph-IOP損傷小鼠鐵代謝的影響。體內體外結果顯示,DFP處理可以顯著降低 ph-IOP誘導的視網膜二價鐵累積;DFP治療可降低ph-IOP損傷后視網膜MDA含量(圖4a),增加GSH和NADPH水平(圖5b, c );此外,在ph-IOP損傷小鼠中,DFP處理恢復了GPX4水平,并降低了ACSL4水平(圖5d-e)。以上結果表明,DFP可以改善ph-IOP誘導的視網膜鐵死亡。

圖4 DFP減少Ph-IOP損傷誘導的鐵離子累積
5、DFP抑制ph-IOP 損傷引起的RGC鐵死亡
H&E染色結果顯示,Ph-IOP損傷導致顯著的RGC丟失和視功能損害;接著從形態學和功能上驗證了DFP對RGC的藥理作用,在 ph-IOP 損傷后5天,DFP處理減弱了神經節細胞復合體(GCC)厚度,并增加了RGC數量(FG標記RGC形態)。這些結果表明,DFP在ph-IOP損傷后保護 RGC 損傷,因此使用DFP抑制鐵死亡是治療ph-IOP誘導的RGC 損失的有效治療策略。

圖5 DFP抑制ph-IOP 損傷引起的RGC鐵死亡

在生理狀態下,細胞內鐵處于動態平衡狀態,但在病理狀態下,這種平衡會被打破。Ph-IOP 損傷可以激活RGC細胞內的NCOA4,激活的NCOA4將結合FTH1并觸發溶酶體降解FTH1(稱為鐵自噬)。降解的FTH1會釋放大量的游離鐵離子,這種具有氧化還原活性的金屬會進一步參與脂質過氧化。最終,由鐵引起的脂質過氧化氫的積累導致RGC鐵死亡,但口服DFP可以螯合細胞內多余的游離鐵離子,抑制ph-IOP誘導的RGC鐵死亡。
參考文獻
Yao F, Peng J, Zhang E, et al. Pathologically high intraocular pressure disturbs normal iron homeostasis and leads to retinal ganglion cell ferroptosis in glaucoma [published online ahead of print, 2022 Aug 6]. Cell Death Differ. 2022;10.1038/s41418-022-01046-4. doi:10.1038/s41418-022-01046-4
如果您對nanopore全長轉錄組技術感興趣,歡迎點擊下方按鈕聯系我們,我們將免費為您設計文章思路方案。
]]>英文題目:Long-read sequencing reveals the complex splicing profile of the psychiatric risk gene CACNA1C in human brain
發表雜志:Mol. Psychiatry,2020年1月
影響因子:11.973
在人腦中,與精神分裂癥相關的基因組區域富集了在神經發育過程中表現出不同異構體使用的基因,RNA剪接是將遺傳變異與精神疾病聯系起來的關鍵機制。剪接圖譜在大腦中特別多樣,很難準確識別和量化。短讀長RNA-Seq方法不能準確地重建和定量大多數轉錄物和蛋白質異構體,為解決這一挑戰,本文將long-range PCR和nanopore全長轉錄組測序與一種新的生信分析流程結合。
CACNA1C是一種精神危險基因,編碼電壓門控鈣通道CaV1.2,CACNA1C基因很大而且很復雜,至少有50個注釋外顯子和31個預測的轉錄本。它的大小和復雜性使得用標準的基因表達方法準確鑒定和量化轉錄本變得極其困難,本文在人腦中鑒定了CACNA1C的全長編碼轉錄本,識別了38個新的外顯子和241個新的轉錄本,對異構體多樣性的詳細了解對于將精神病學基因組發現轉化為病理生理學見解和新的精神藥理靶點至關重要。
樣本:來自利伯腦發育研究所儲存庫的三名成年捐贈者的尸檢腦組織(提取小腦、紋狀體、背外側前額葉皮質、扣帶回、枕葉和頂葉皮質的RNA,并進行逆轉錄)
測序方法:使用PCR擴增CACNA1C全長CDS,使用MinION進行測序
分析流程:https://github.com/twrze/TAQLoRe
1、CACNA1C有很多外顯子和異構體
由于CACNA1C的復雜性,本文使用了兩種互補的方法來鑒定轉錄本:外顯子水平和剪接位點水平的分析,分析流程見補充圖2。該方法共鑒定了251種存在于人腦中獨特的CACNA1C轉錄異構體,其中241種是新的,包括使用新的外顯子,新的剪接位點和連接。

在CACNA1C基因座內總共注釋了39個潛在的新外顯子,其中38個在至少2個人或組織中被識別,并在每個文庫中得到至少5條nanopore reads的支持(圖2A)。通過PCR和Sanger測序確認了新的外顯子與其周圍的注釋外顯子之間的剪接連接,從而驗證了四個新的外顯子。這種新的外顯子的成功驗證提供了很高的可信度,即通過納米孔測序鑒定的新的外顯子是真實的,并且被整合到CACNA1C轉錄本中。表達量最高的10條轉錄本中,有9條是新的且其中有8條被預測保持CACNA1C閱讀框架,這表明這些最豐富的新轉錄本中有一些編碼功能不同的蛋白質異構體(圖2B,C)。這些結果表明,新的CACNA1C轉錄本表達豐富,數量也很多,目前的注釋缺少許多最豐富的CACNA1C轉錄本。

通過設置轉錄本的高置信度,在6個大腦區域確定了90個高可信的CACNA1C轉錄本,包括7個先前注釋的(GENCODE V27)和83個新的(補充圖3)。7個新的高置信度轉錄本包含新的外顯子,而其余76個包含以前未描述的連接和連接組合。

上述外顯子水平的轉錄本鑒定方法為鑒定新的外顯子和表征全長轉錄本結構提供了穩健和保守的手段。使用了更為保守的依賴于連接處無錯誤映射所支持的連接的識別,以及規范剪接位點的方法,確定了497個新的剪接位點,其中393個由至少10條reads支持,這些剪接位點,在篩選了至少24條reads支持的轉錄本后,鑒定了195個轉錄本,其中111個被預測為編碼的。
2、CACNA1C亞型在不同腦區的表達譜不同
小腦、紋狀體與皮質等組織觀察到了CACNA1C轉錄本差異,但在不同個體之間的表達是相似的。在小腦中觀察到了明顯的轉錄本表達轉換;在小腦之外,ENST00000399641是主要的轉錄本,而在小腦中,ENST00000399641和CACNA1C n2199的表達水平相似。

3、預測新isoforms對CaV1.2蛋白模型的影響
CACNA1C編碼CaV1.2 的主要成孔亞基。鈣孔由24個跨膜重復序列組成,由細胞內環連接成4個結構域(I-IV)(圖4A)。在我們鑒定的83個新的外顯子水平的轉錄本中,51個可能編碼功能性的CaV1.2通道?;疑娇虮硎拘碌摹⒖蚣軆鹊牟迦牒蛣h除的位置(值表示包含每個isoforms的reads的平均比例)。使用兩種分析方法(外顯子水平和剪切連接水平)鑒定變體的情況,外顯子水平計數用于得出豐度(紅色文本);僅使用剪接位點水平方法鑒定的變體用藍色文本表示。包含三個微缺失的蛋白質異構體的數量:(I)在I-II接頭中,(Ii)在IV4-5接頭中,以及(Iii)在IV3-4接頭中先前報道的微缺失(圖4B)。

長讀長測序技術的快速發展為準確獲得轉錄多樣性提供了可能,因為每一條read都包含一個完整的轉錄本。這對于具有復雜模型的基因尤其重要。由于CACNA1C剪接產生的CaV1.2蛋白對現有的鈣通道阻滯劑表現出不同的敏感性,因此有可能選擇性地針對疾病相關的CACNA1C亞型和/或那些在大腦與外周差異表達的CACNA1C亞型,提供既更有效又更無外周副作用的新型精神藥物。綜上,這些觀察結果證明了ONT長讀長測序對于準確描述轉錄本結構和選擇性剪接的重要性。
參考文獻:
Clark Michael B,Wrzesinski Tomasz,Garcia Aintzane B et al. Long-read sequencing reveals the complex splicing profile of the psychiatric risk gene CACNA1C in human brain.[J] .Mol. Psychiatry, 2020, 25: 37-47.
]]>
ONT測序技術在多個方面具有非常強悍的優勢,然而,一份合格的下機數據才是科研成功研究的基礎,為保證得到準確的轉錄組結構分析和定量結果,需要對測序數據進行嚴格的質控評估。那么我們今天一起學習一下《Summary statistics and QC tutorial》,ONT官方提供的對測序raw?data進行全面數據質控的教程。
此教程適用于指導對單個nanopore測序芯片產出的數據進行評估,評估的主要內容如下所示:
1、測序產出(測序得到多少reads,多大數據量);
2、測序數據的質量和長度分布;
3、如果加入了barcode序列進行混樣建庫,測序數據在不同樣品的分布。
直接到教程的github頁面下載或通過git命令下載:
git clone https://github.com/nanoporetech/ont_tutorial_basicqc.git QCTutorial
后續分析會用到下載目錄QCTutorial下的以下內容:
1) Nanopore_SumStatQC_Tutorial.Rmd:Rmarkdown文件,說明文檔和用于執行分析。
2) RawData/lambda_sequencing_summary.txt.bz2:示例文件,Guppy對測序reads進行堿基識別生成的相關信息文件。
3) RawData/lambda_barcoding_summary.txt.bz2:示例文件,用于區分混樣建庫時多樣品的barcode信息。
4) environment.yaml:指定分析所需軟件包及計算環境的文本文檔。
5) config.yaml:配置文件,用于指定分析所需的輸入。
2、創建Conda環境
為了方便執行分析所需軟件包及其依賴的安裝及管理,需要安裝Conda并創建用于此分析的環境。
1)?Conda安裝(Python3版本的Miniconda):
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
bash
2)?創建Conda環境及環境激活(第1步中下載的environmen.yaml用于環境初始化):
創建環境:conda env create –name BasicQC –file environment.yaml
激活環境:source activate BasicQC
進行分析之前需先準備配置文件,通過修改準備步驟下載的config.yaml中相應的參數來完成,需要修改的內容主要有:
| 修改內容 | 內容說明 | 示例 |
|---|---|---|
| inputFile | 堿基識別的統計信息 | sequencing_summary.txt.bz2 |
| barcodeFile | 混樣建庫的barcode信息 | barcoding_summary.txt.bz2 |
| basecaller | 堿基識別工具 | Guppy 2.1.3 |
| flowcellId | 測序芯片ID | FAK41706 |
注:如為單樣品測序無barcode信息,則barcodeFile部分為空。
準備完成后,可以通過命令行啟動分析,命令如下:
R –slave -e ‘rmarkdown::render(“Nanopore_SumStatQC_Tutorial.Rmd”, “html_document”)’
如果習慣圖形界面操作,也可以通過Rstudio載入Rmarkdown文件執行分析:

上述分析完成后會將分析結果存放至HTML文件,可用瀏覽器打開Nanopore_SumStatQC_Tutorial.html進行查看。對單個芯片約1M reads分析的部分結果展示如下(結果來自教程,堿基識別使用Guppy 2.1.3,根據識別序列的平均質量值將其分為pass和fail兩種,質量值閾值默認為7):
1、總結
展示了數據產出的總體情況(如下圖,本分析中堿基識別共產出991,715條序列,14.6G堿基)。

2、質量長度
此部分展示了對識別出的所有序列質量和長度信息的統計結果,包括序列的平均長度,N50和平均質量,序列長度和質量的密度分布等

3、測序表現
此部分內容統計了隨測序時間變化,測序累計序列個數,堿基個數,測序速度和有效工作納米孔數等指標的變化情況。

4、區分混樣
在加入barcode序列混樣測序的情況下,barcode識別區分的結果展示如下,包括barcode識別效率,區分的文庫個數及每個文庫中序列個數占比和長度信息等。

上面展示了分析結果的部分內容,更多細節的內容可參考底部的相關鏈接。
rawdata的質控評估只是整個信息分析的開始,是為了對測序數據有大致的整體認識,以便更好地指導后續分析。然而分析的每個環節都會對最終結果產生影響,因此每一步的處理都要深思熟慮。
2018年8月牛津納米孔公司與百邁客公司達成長期合作,擁有MinION、GridION X5和PromethION三種型號全套納米孔測序儀。至今已積累了豐富的項目經驗,全長轉錄組成功案例先后發表在《Plant Biotechnol J》、《J Hazard Mater》、《Biotechnol Biofuels》、《Sci Rep》、《Fish & Shellfish Immunology》等國際知名期刊,已發表文章研究物種分別有楊樹、吳松草、風箏果、甘薯、野生甘薯、兔子、跳甲、花羔紅點鮭和辣椒,覆蓋領域分別為林木、哺乳動物、昆蟲、水產和作物等。
如您有任何全長轉錄組等相關問題,歡迎點擊下方按鈕,我們將竭盡全力為您答疑、設計方案和提供高分成功案例等。
參考鏈接:
https@//github.com/nanoporetech/ont_tutorial_basicqc(@換成:)
https@//community.nanoporetech.com/knowledge/bioinformatics(@換成:)
]]>
1、材料和方法
材料:3只新西蘭母兔,分別取21日齡、49日齡、84日齡,7個不同部位的組織器官(腦、心臟、肺、肝、脾、腸竇、后腿骨骼肌),共21個樣本,分別提取RNA,等量RNA混合為單個樣品,分別進行二代和三代測序。
測序策略:
二代測序:Illumina平臺、PE150測序;
三代測序:構建0–1, 1–2, 2–3, 3–6 和5–10 kb五個文庫,PacBio RS II平臺測序,共測13個SMRT Cell
方法和思路:“3+2”測序模式,對混合的RNA進行測序,獲得高可信度的轉錄本,完善參考基因組注釋,比較三代全長轉錄組測序和二代轉錄組測序在旁系同源基因的還原上的優勢,由此說明通過PacBio鑒定得到的轉錄本能夠更好的注釋基因以及還原基因結構。
2、結果與分析
2.1三代測序和糾錯
共獲得802,358個ROIs序列,其中有1.466,034全長非嵌合(FL)序列和316,000非全長(nFL)序列。
同時,二代測序獲得~120百萬clean reads,這些序列用來對三代的測序結果進行校正,顯示總共135,178個序列(86.2%)被二代測序數據校正,錯誤片段的長度比例相對較低(中位數8%)。

Figure 1.ROIs的分類和糾錯
2.2 可變剪接和聚腺苷酸化
PacBio鑒定到多達24,797個AS事件,并對這些可變剪接進行分類統計(Table 1),在兔的參考基因組中僅發現2,398個AS事件,將數據合并后共得到34,173個AS事件,且可變剪接事件包含不同的4中類型,另外,鑒定到11,184個APA事件。挑選5個基因,并用圖表示出不同的isoform比對到參考基因模型上(Figure 2)。

Table 1.可變剪接事件分析(IR:內含子保留;ES:外顯子跳躍;Alt.5’:可變的5’端;Alt.3’:可變的)


Figure 2. 三代測得轉錄本的不同isoforms,在數據庫中的參考基因模型如圖示中被標記有染色體位置、基因ID和基因名稱
2.3 與已知參考基因比對分析
通過對PacBio鑒定到的轉錄本的分析發現,有3,334個基因位點包含了3,637個轉錄本在參考基因中沒有注釋,并且有12,112個轉錄本被注釋到參考基因的內含子上,這些新發現的轉錄本大部分長度為1000~2000bp。
2.4 非編碼RNA分類
通過比對到參考蛋白數據庫,有30,183個轉錄本可編碼蛋白、6,003個轉錄本不能編碼蛋白,并且這些非編碼的轉錄本外顯子少、表達量低、且外顯子與內含子在長度上的比值相較于可編碼蛋白的轉錄本略高(Figure 3)。對轉錄本進行分類(Table 2)。
對非編碼轉錄本基因進行分類,1,794個為基因間區、3,558個基因定位于可編碼轉錄本。


Figure 3.可編碼和非編碼轉錄本比較

Table 2. 分類非編碼轉錄本(U:上游;D:下游;E:外顯子;I:內含子)
2.5 旁系同源基因分析
選擇10個主要組織相容性復合體(MHC)旁系同源基因,這些基因都被注釋在1.2-Mbp的12號染色體上(Figure 4)。結果顯示除了HLA-A之外,與參考基因組注釋相比,PacBio轉錄本的所有基因結構都得到很好得恢復。 此外,PacBio數據還支持很多尚未注釋的轉錄本。所有的這些同源基因由于其轉錄本序列非常相似,很難通過二代組裝的方式都還原,而三代測序方式能夠很好地鑒定出旁系同源基因。

Figure 4.基因通過PacBio所測轉錄本和組裝得到的轉錄本還原10個MHC基因。染色體定位、命名和每個基因的Ensembl編號(在左側)。
如圖所示:從上到下排列依次為,Ensembl中的參考轉錄本(黑色),外顯子-內含子結構通過一個個方框分開;PacBio transcripts(紅色);Cufflinks(綠色)和Trinity(褐色)為組裝的轉錄本。
3、總結
二代測序由于短read組裝的困難,獲得全長轉錄本仍然是一個巨大的挑戰。在本研究中采用PacBio單分子長讀長測序技術,用于繪制兔的轉錄本圖譜。結果提供了一整套全面的轉錄本參考數據集,從而有助于改進兔基因組的注釋。
參考文獻
Chen S Y, Deng F, Jia X, et al. A transcriptome atlas of rabbit revealed by PacBio single-molecule long-read sequencing[J]. Scientific Reports, 2017, 7(1):7648.
]]>