Linked-reads技術(shù)簡介
10× Genomics 公司的linked-reads 技術(shù)本質(zhì)上是利用Chromium 平臺的微流控芯片對微量(1ng)基因組 DNA 進(jìn)行精確分區(qū),將DNA 片段分配到大量的攜帶特異性 barcode 序列的微滴中,每一個微滴都是一個獨(dú)立的反應(yīng)體系,在微滴中通過 PCR 擴(kuò)增制備10× Genomics 文庫,對制備好的文庫在 Illumina 測序平臺上測序。通過將來自同一長片段模板具有相同 barcode 的reads 進(jìn)行連接,輸出超長 linked-reads,獲得 DNA 長片段的遺傳信息。
De novo assembly工作流程
10× Genomics
de novo assembly 工作流程包括高分子量DNA 制備、Chromium 平臺進(jìn)行文庫構(gòu)建、Illumina 平臺測序以及組裝軟件進(jìn)行組裝等過程。
1、DNA 樣品制備:總量不低于2μg;主帶大于50Kb,大于100Kb更好。
2、文庫構(gòu)建:含有 barcode 信息的凝膠珠通過“雙十字”微流體,在第一個連接處結(jié)合 DNA 以及酶的混合物,第二個連接處包裹上油滴形成 GEMs 并進(jìn)行收集。凝膠珠溶解釋放含有 barcode 的序列,隨機(jī)引物結(jié)合在油滴反應(yīng)體系內(nèi)長鏈 DNA 模板的隨機(jī)位置上進(jìn)行PCR 擴(kuò)增,將每個油滴中擴(kuò)增后獲得的含有 barcode 信息的DNA 片段混合。在片段的另一端連接 Illumina Read 2, 最后通過樣品Index PCR 引入Illumina 測序P5/P7 接頭和樣品index,完成文庫構(gòu)建。
圖1 10× Genomics凝膠珠的特征
圖2 10× Genomics linked-reads文庫構(gòu)建
3、上機(jī)測序:在 Illumina/Hiseq X 平臺上進(jìn)行雙末端150bp 測序。
4
、De novo 組裝:利用10× Genomics 的Supernova™ Assembler 組裝,輸出結(jié)果
。
技術(shù)優(yōu)勢
10× Genomics
de novo assembly 僅需構(gòu)建一個 10× Genomics 文庫,利用Supernova™ Assembler 軟件即可進(jìn)行組裝,操作過程簡單,組裝成本低、質(zhì)量高。
1、DNA需求量低:僅需1ng基因組 DNA 即可得到長片段DNA 文庫(原始DNA 量需>2ug)。
2、長跨度信息:根據(jù) barcode 信息將多個Reads 進(jìn)行拼接,可獲得長達(dá)100Kb的跨度信息。
3、組裝周期短:從樣本 DNA 提取到組裝完成僅需2~3周。
4、二倍體組裝:10× Genomics可實現(xiàn)真正的二倍體組裝,揭示樣本特異性序列,發(fā)現(xiàn)真實的基因組信息,研究二倍體基因組結(jié)構(gòu)。
Supernova組裝案例(植物)
物種名稱 |
發(fā)表期刊 |
發(fā)表單位 |
技術(shù)策略 |
組裝軟件 |
組裝結(jié)果 |
玉米B73
Maize B73 |
BMC
Genomics 2018.9 |
愛荷華州立大學(xué) |
10×Chromium linked-reads read depth:45× |
supernova Assembler version 1.1.0 |
Contigs Number:234,153 Contig N50=14.5Kb Scaffolds Number: 172,000 Scaffold N50=89Kb Total Size: 1.28Gb Genome Coverage:50% |
糜子Panicum miliaceum |
BMC
Genomics 2018.9 |
愛荷華州立大學(xué) |
10×Chromium linked-reads read depth:107× |
Supernova Assembler version 1.1.5 |
Scaffolds Number:30,819 Scaffold N50=912Kb Total Size: 823Mb Genome Coverage:83% |
|
|
|
|
|
Contigs Number:134,573 |
辣椒Capsicum annuum |
Horticulture Research 2018.1 |
加州大學(xué) |
10×Chromium linked-reads read depth:56× |
Supernova Assembler version 1.1 |
Contig N50= 123Kb
Scaffolds Number:83,391 Scaffold N50= 3.69Mb Total Size: 3.21Gb |
|
|
|
|
|
Genome Coverage: 92% |
|
|
|
|
|
Contigs Number:66825 |
野Th大豆Glycine latifolia |
The Plant Journal 2018.4 |
伊利諾伊大學(xué) |
10×Chromium linked-reads read depth:56× |
Supernova Assembler version 1.1.5 |
Contig N50=62.61kb
Scaffolds Number:42,539 Scaffold N50=853.6 kb Total Size: 939.7Mb Genome Coverage:83.2% |
應(yīng)用方向
單個參考基因組的構(gòu)建
在一個物種已有參考基因組的情況下,對具有重要性狀的栽培種、野Th種開展10× Genomics
de novo 測序,可以快速獲得物種高質(zhì)量基因組,挖掘品種特有基因,鑒定重要基因結(jié)構(gòu)變異。
1、辣椒基因組(Horticulture Research,2018)
辣椒基因組是一個代表性的復(fù)雜植物基因組,基因組大小達(dá)3.5Gb,其中75%~80%為重復(fù)序列。研究利用10× Genomics linked-reads 技術(shù)對一個辣椒雜合 F1 個體進(jìn)行測序和組裝,最終獲得的基因組大小為3.21Gb,scaffold N50=3.69Mb,組裝得到的序列在準(zhǔn)確性和連續(xù)性上優(yōu)于目前所有的辣椒參考基因組。通過 phased 組裝方法,F(xiàn)1 中脂肪酰轉(zhuǎn)移酶
PUN1 基因中 2.5Kb 的插入/缺失單倍型(代表辣和不辣兩種類型)均被完整地組裝出來。高質(zhì)量的辣椒基因組組裝表明 linked-reads 技術(shù)為低成本組裝復(fù)雜植物基因組以及通過精確的單倍型構(gòu)建比較基因結(jié)構(gòu)變異提供了一個途徑。
圖3 F1中PUN1 基因2.5Kb的PAV 被完全重建
2、大豆野Th近緣種基因組(Plant Journal,2018)
Glycine latifolia 是大豆的27 個野Th多年Th 近緣種之一,具有許多大豆不具備的遺傳多樣性和優(yōu)異農(nóng)藝性狀。研究利用10× Genomics linked-reads 技術(shù)組裝了939Mb的G. latifolia 基因組草圖。利用遺傳圖譜和大豆基因組序列信息,將 Scaffolds 掛載到了20個染色體級別的假分子中。在組裝基因組中鑒定到了304個NBS-LRR 類抗病蛋白基因和367個參與基礎(chǔ)防御響應(yīng)和非Th物脅迫響應(yīng)的 LRR 類受體激酶基因。G. latifolia 基因組的組裝和注釋為促進(jìn)大豆的遺傳改良提供了寶貴資源。
右圖4 Glycine latifolia 基因組結(jié)構(gòu)
泛基因組研究
與常規(guī)的二代測序組裝方案相比,10× Genomics de novo 只需較少的 DNA 量和較短的組裝周期就可以獲得較好的組裝結(jié)果,非常適合于泛基因組研究。
17個人泛基因(Nature Communications,2018)
人類參考基因組被廣泛應(yīng)用于現(xiàn)代Th物學(xué)研究,然而一個參考基因組并不能代表人類群體的完整遺傳信息。研究利用 10× Genomics ed-reads 技術(shù),對來自5個不同人群的17個人(5個非洲人、3個北美人、4個東亞人、3個歐洲人和2個南亞人)進(jìn)行全基因組測序和 de novo組裝。在17個基因組中鑒定了1842個不存在于參考基因組且唯一的插入變異(non-reference unique insertions,NUIs),總長達(dá)2.1Mb。其中64%的NUI 在非人類的靈長類基因組中也有發(fā)現(xiàn),是人類祖先序列;37%的NUI 在人類轉(zhuǎn)錄組中發(fā)現(xiàn);14% 可能來自于Alu重復(fù)序列重組介導(dǎo)的刪除。研究強(qiáng)調(diào)需要一系列包含不同人種的參考基因組來繪制人群完整的遺傳多樣性變異圖譜。
圖5 NUI鑒定的策略和流程
技術(shù)策略與組裝指標(biāo)
|
10× Genomics de novo assembly |
基因組DNA |
總量不低于2μg;主帶大于50Kb,大于100Kb更好 |
文庫類型 |
一個10× Genomics文庫 |
測序數(shù)據(jù)量 |
120G或180G |
組裝指標(biāo) |
ContigN50>30Kb;ScaffoldN50>1Mb |
參考文獻(xiàn)
- Weisenfeld N I, Kumar V, Shah P, et al. Direct determination of diploid genome sequences[J]. Genome Research, 2017, 27(5):757-767.
- Hulse-Kemp A M , Maheshwari S , Stoffel K , et al. Reference quality assembly of the 3.5-Gb genome of Capsicum annuum from a single linked-read library[J]. Horticulture Research, 2018, 5(1):4.
- Liu Q , Chang S , Hartman G L , et al. Assembly and annotation of a draft genome sequence for Glycine latifolia, a perennial wild relative of soybean[J]. Plant Journal, 2018.
- Wong K H Y , Levysakin M , Kwok P Y . De novo human genome assemblies reveal spectrum of alternative haplotypes in diverse populations[J]. Nature Communications, 2018, 9(1).
bio-equip.com
北京諾禾致源科技股份有限公司于2011年3月在北京中關(guān)村生命科學(xué)園注冊成立,專注于開拓前沿分子生物學(xué)技術(shù)和高性能計算在生命科學(xué)研究和人類健康領(lǐng)域的應(yīng)用,致力于成為全球領(lǐng)先的基因科技產(chǎn)品和服務(wù)提供者。企業(yè)總部位于北京,在天津、南京、美國、英國和新加坡設(shè)有實驗室或?qū)嶒灮,并在香港、美國和英國設(shè)有子公司,辦公面積逾40'000m
2。目前,諾禾致源現(xiàn)已建立一支來自海內(nèi)外頂級名校、多學(xué)科交叉型的高素質(zhì)綜合團(tuán)隊,其中碩士及其以上學(xué)歷占比60%以上。公司建立了通量規(guī)模領(lǐng)先的基因測序平臺和高性能計算平臺,有效地支撐著生命科學(xué)研究和醫(yī)療健康兩大領(lǐng)域?qū)Υ髷?shù)據(jù)分析和存儲的需求。公司業(yè)務(wù)覆蓋全球6大洲超過60個國家和地區(qū),服務(wù)客戶超過2,000家,成為基因測序科研服務(wù)領(lǐng)域的領(lǐng)先企業(yè)。諾禾致源在全球范圍內(nèi)與眾多學(xué)術(shù)機(jī)構(gòu)建立了廣泛的合作關(guān)系,完成多項具有國際先進(jìn)水平的基因組學(xué)研究工作,截止2019年4月,諾禾致源與項目伙伴合作發(fā)表SCI文章總計429篇,累積影響因子大于2838;目前已取得軟件著作權(quán)149項,專利22項;合作伙伴遍布全球,包括超過1920家科研院所和高校、720余家醫(yī)院、1430余家醫(yī)藥和農(nóng)業(yè)企業(yè)等。
作為目前國內(nèi)基因測序領(lǐng)域的佼佼者,諾禾致源的業(yè)務(wù)覆蓋生命科學(xué)基礎(chǔ)科研服務(wù)、醫(yī)學(xué)研究與技術(shù)服務(wù)、建庫測序平臺服務(wù),為全球研究型大學(xué)、科研院所、醫(yī)院、醫(yī)藥研發(fā)企業(yè)、農(nóng)業(yè)企業(yè)等提供基因測序、質(zhì)譜分析和生物信息技術(shù)支持等服務(wù)。
自成立以來,諾禾致源先后獲得國家高新技術(shù)企業(yè)、北京市科技研究開發(fā)機(jī)構(gòu)、北京市專利試點(diǎn)單位、北京市企業(yè)技術(shù)中心及國家發(fā)改委基因檢測技術(shù)應(yīng)用示范中心等多項資質(zhì)與榮譽(yù),并建設(shè)有北京市工程實驗室。