很多人认识错误,PacBio三代测序最大的死穴是:通量不足。如果通量不是限制因素,那么PacBio是目前最准确的测序方式:错误率可以无限接近罕见突变的发生率(即无法分辨是测序错误还是罕见突变)。因为三代的错误是完全随机发生的,可以靠覆盖度来纠错,而如果系统错误,这是不可纠正的。一图展现区别:
那么为何三代通量不足?技术瓶颈了,这要从三代测序原理说起。PacBio三代测序基本单位叫做SMRT Cell,它是这样的:
实际有效面积,接近成人的大拇指指甲,在这个面积上,均匀分布着15万个小孔。
测序时,当有一个DNA分子落入一个小孔内(0或多个DNA分子,则为无效孔),该小孔能生成有效数据(这里有一个有效小孔比率,Loading率,一般是1/3左右,即5W个小孔)。测序时,每合成(延伸)一个DNA残基时,会释放带荧光标记的磷酸残基。那么连续记录这数万个小孔的荧光信号,再通过机器学习算法,即可将波信号转化成碱基序列,甚至可以获得碱基修饰信息(碱基修饰会改变波的动力学特征)。这个过程里,对聚合酶有特殊要求:1. 速度慢 2.延伸性好 3.准确性高。
那么三代技术瓶颈,到底在哪里?
简单讲,SMRT Cell的密度不是技术瓶颈,而是激光光路和感光元件。目前做到的地步是,精确分出15万束激光,射进每个小孔,感光元件可以精确记录每个小孔每次合成时,单个磷酸残基上荧光信号。
目前提高三代的通量,有以下几个途径:
- 升级硬件。这个是最直接有效的,直接提升那几个硬件短板的规格。但是,这也是最不可能的。因为升级任何一个短板硬件,都需要整个测序仪的硬件、耗材回炉。以目前PacBio的财报来看,还未实现盈利。与Illumina相反,PacBio在硬件上的利润非常微薄。据业内人士估计,Illumina成本每台估计大约在6~10万美元(零售价直接加0),PacBio的售价略高于Illumina,但成本高好几倍,那个激光光路和感光元件放那里。。。。
- 提高Loading率。这个主要难度在建库和上样的优化上。
- 提高聚合酶延伸性并保持准确率。这个是目前PacBio(其实背后是某重组酶巨头)主要努力方向。以每Cell 5W条序列记,那么如果平均达到10kb读长,则产出为 5 x 10^8,也就是500M数据。提高到15kb则有750M。
目前在P6C4试剂下,大约每SMRT Cell平均可以做到 600M~1G数据量,个别用户达到2G(这个是DNA抽提和建库优化相当好了)。
来源:知乎 www.zhihu.com
作者:Tang Boyun
【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载
此问题还有 8 个回答,查看全部。
延伸阅读:
基因组测序为什么没完没了?
个人基因组测序有哪些意义?