由美国Pacbio公司开发研制的单分子实时测序在历史上首次实现了人类观测单个DNA聚合酶过程的梦想。该技术通过光学方法直接记录单个聚合酶在不受干扰的情况下的连续合成,已经使许多极富挑战性的基因组学研究成为可能。这种以Pacbio技术为代表的模拟天然DNA复制过程的新型测序方法被称为第三代测序技术。该技术不仅融合了天然DNA复制高效准确的特点,而且是可以在不影响聚合酶活性的前提下实时观测DNA合成,由于聚合酶的平均反应速度可达1bp/s以上,因为其测序速度比Sanger测序快了几万倍。参与第三测序技术研发的Korlach与Tuener,于2009年2月在《Science》杂志上发表了一篇介绍Pacbio单分子DNA测序技术的文章,代表了第三代测序技术的原理验证。其后,他们又利用SMRT技术,直接测定了DNA的甲基化,一成果发布在2011年5月的《Nature Met-hods》上。
一, Pacbio技术应用于水稻基因组的研究
冷泉港的Schat M 将Pacbio技术应用于水稻基因组的测序与拼接,通过XL/C2试剂进行测序。结果产生了平均读长3290bp,最大长度超过24kbp的数据。初始数据是原始基因组覆盖度的10倍,经修正也达到了6.2倍。50%的水稻基因组数据读长超过4800bp。仅使用长读长校正过的Pacbio数据进行拼接,基因组N50=13kbp。而将经校正的Pacbio数据与illumina数据进行混合拼接,使基因组N50达到25kbp(图4)。由此可见,通过NGS和第三代测序数据的混合拼接,可以大幅提高基因组拼接效率。NGS平台所获得的海量数据量,可在Pacbio测序步骤得到解读,从中获得更多有益的信息。
二, Pacbio技术应用于家畜的研究
Peter A Larsen 等运用Pacbio单分子实时测序技术对4头牛的免疫球蛋白IgG重链可变区的cDNA进行了测序。通过提取血液的RNA,反转录并特异性扩增抗体可变区,产生了49945个高质量序列。从中确定了49521个抗原结合区域。发现独特CDR3序列的一段长度为5-6和21-25氨基酸。随着CDR3 长度增加,半胱氨酸残基数也在增加,且位于CDR3s中心部位。实验发现在免疫球蛋白转录组中有19个极长的CDR3序列(62个氨基酸)。最终分析揭示所有实验个体中产生的抗体抗原结合区的不同类型(图5)。
冷泉港实验室运用Pacbio技术对渔民幼苗的cDNA进行了检测,得到了大约817bp长度的50130个redas,之后用17.8的illumina的数据,通过对PBcr进行错误矫正,最终99.1%与参照序列一致(图6)。
他们还对绵羊重要病原体Bibersteinia trehalosi 进行了测序,B.trehalosi主要引起绵羊严重系统性肺部感染。8个SMRT cell的Pacbio数据,获得了超过224*福海率,33*覆盖率数据大于6kb。覆盖了整个重复区域,这就使得校正过的Pacbio长读长数据(大于6kb)可以直接拼接成为1个完成Contig(图7)。
三,天津生物芯片大型生物基因组测序策略及实例
(1)某植物基因组测序,基因组大小为350Mb,高度纯化
(2)应用NGS+PacBio+Optical Mapping的策略
①NGS De novo拼接获得基础拼接版本;
②利用PacBio长读长构建scaffolds,并进行gaps填补;
③利用Optical Mapping进行指导拼接,构建super-scaffolds经过拼接优化,最终我们获得高度完整的基因组序列;
④ 拼接结果最大scaffolds长度超过20Mb,全部scaffolds N50值超过10Mb;
⑤并且通过BAC-FISH杂交技术,将其中大部分序列定位到染色体水平。
Pacbio单分子实时测序技术已经开始运用到农业领域的基础研究中,必将成为农业相关基因组测序的一个新的推动力,有利于发现更多地农作物增产,抗逆,抗虫相关基因及牲畜病相关基因,促进了现代农业科技的发展,助力人类生活的进步。