欢迎登陆岩之澜医学官方网站
学习中心
NGS专区 当前您所在的位置:首页 > 学习中心 > NGS专区
高通量测序错误总结
 最后更新:2018-11-08  浏览:1147次

一、生信分析部分

1)Q20/Q30

 

碱基质量分数与错误率是衡量测序质量的重要指标,质量值越高代表碱基被测错的概率越小。Q30代表碱基的正确判别率是99.9%,错误率为0.1%。 同时我们也可以理解为1000个碱基里有1个碱基是错误的。Q20代表该位点碱基的正确判别率是99%,错误率为1%。 对于整个数据来说,我们可以认为100个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中,背景颜色沿y-轴将坐标图分为3个区:最上面的绿色是碱基质量很好的区,Q值在30以上。中间的橘色是碱基质量在一些分析中可以接受的区,Q值在20-30之间。最下面红色的是碱基质量很差的区。 在一些生信分析中,比如以检查差异表达为目的的RNA-seq分析,一般要求碱基质量在Q在Q20以上就可以了。但以检查变异为目的的数据分析中,一般要求碱基质量要在Q30以上。

 

一般来说,测序质量分数的分布有两个特点:

1.测序质量分数会随着测序循环的进行而降低。

2.有时每条序列前几个碱基的位置测序错误率较高,质量值相对较低。

 

在图中这个例子里,左边的数据碱基质量很好,而右边的数据碱基质量就比较差,需要做剪切(trimming), 根据生信分析的目的不同,要将质量低于Q20或者低于Q30的碱基剪切掉。

2)序列的平均质量

 

这个是碱基序列平均质量报告图。横坐标为序列平均碱基质量值,纵坐标代表序列数量。通过序列的平均质量报告,我们可以查看是否存在整条序列所有的碱基质量都普遍过低的情况。一般来说,当绝大部分碱基序列的平均质量值的峰值大于30,可以判断序列质量较好。如这里左边的图,我们可以判断样品里没有显著数量的低质量序列。但如果曲线如右边的图所示,在质量较低的坐标位置出现另外一个或者多个峰,说明测序数据中有一部分序列质量较差,需要过滤掉。

 

 

3)GC含量分布

这个是GC含量分布报告图。GC含量分布检查是检测每一条序列的GC含量。将样品序列的GC含量和理论的GC含量分布图进行比较,用来检测样品数据是否有污染等问题。理论上,GC含量大致是正态分布, 正态分布曲线的峰值对应基因组的GC含量。如果样品的GC含量分布图不是正态分布,如右图出现两个或者多个峰值,表明测序数据里可能有其他来源的DNA序列污染,或者有接头序列的二聚体污染。这种情况下,需要进一步确认这些污染序列的来源,然后将污染清除。

5)过量出现的序列

过量序列模块是查看数据是否有污染的另一种方法。如果某个序列的数量占全部序列的0.1%以上,FASTQC就定义该序列为over-represented。这些over-represented序列通常标示着污染序列的存在。这种污染如果是建库测序中的接头序列,fastqc可以检测并标示出可能的来源(possible source)。但如果污染是由于其他来源的DNA,比如其他生物的DNA,FASTQC就没法判断污染序列的来源。这就需要生信分析人员利用其他方法找出污染源。比如将大量出现的序列和NCBI的DNA数据库进行blast,看看污染序列是否来自其他物种。

6)过量出现的Kmer

 

检查是否有接头序列,还可以查看k-mer含量。如果有些k-mer过量出现,很有可能有序列污染。过量出现的k-mer可能会有三种情况:序列5'-端,序列中间,或者序列3'-端。5’-端过量出现的k-mer是建库PCR扩增时PCR引物无法和DNA模板很好地结合导致的,是技术误差。出现在中间的k-mer比较少见,可能是接头序列拼接到测序序列中间导致的。3'-端出现过量k-mer往往标示着接头序列的污染。

7)接头序列含量

 

对接头序列污染的查看还有一个更直观的模块,就是接头序列含量。这里的两个例子中,左图没有显著的接头序列污染,右图的接头序列污染就比较显著。


8)去除duplication序列

 

重复序列是怎么来的呢? 在全基因组或全外显子组测序的建库过程中,需要进行多轮的PCR扩增。由于扩增引物和不同模板结合力的差异,有些地方的序列扩增产物大于1。这些重复序列的存在会造成等位基因频率的定义以及基因型识别不准确。去除重复序列的原理是将所有比对到完全相同位置的序列对减少至一对。一般用picardtools软件里的Markduplcate功能去除重复序列。

9)碱基质量分数重新校正

对原始比对结果的另一个质量控制是对碱基的质量分数进行校正。为什么要对碱基质量进行校正呢?这是因为由于各种系统误差,测序仪报告的碱基质量不精确,比实际质量分数偏高或者偏低。系统误差和随机误差不同,不像随机误差,它其实是一种error。这可能来自于测序反应中的物理化学原因,也可能是测序仪本身存在的缺陷造成。碱基质量分数校正的原理是:利用机器学习的方法建立误差模型,根据建立的模型对碱基分数进行调整。调整后更精确的碱基质量分数能够提高后续变异识别的准确率,减少假阳性和假阴性的变异识别。碱基质量的校正一般使用GATK的recalibration功能。需要说明的一点是:碱基质量分数校正不能纠正碱基。也就是说,我们无法通过这个方法确定一个低质量的A是否应该为T。但可以告诉变异识别软件,它可以在多大程度上信任这个碱基A是正确的。

 

二、实验分析部分

测序错误主要有三大类,分别来自样品制备、文库制备,以及测序和成像。参考文献:The role of replicates for error mitigation in next-generationsequencing

1)来源于样品制备的测序错误 

1.  用户错误;例如,贴错标签。虽然这是个低级错误,但肯定不会没犯过。在芯片分析中,贴错标签和样品搞混可都是真事,有文献可查。

2.  DNA或RNA的降解;例如,组织自溶,福尔马林固定石蜡包埋(FFPE)组织制备过程中的核酸降解和交联(甲醛固定样品会随机产生C-T转化,导致肺癌T790M假阳性增多)。

3.  异源序列的污染;例如,那些支原体和异种移植的宿主。

4.  DNA起始量低。早在2005年人们就发现,在PCR过程中,DNA起始量低的模板会以序列依赖的方式产生虚假的突变,主要是从G转变为A。

2)来源于文库制备的测序错误

1.  用户错误;例如,一个样品的DNA残留到下一个,之前反应的污染。

2.  PCR扩增错误。这个同上面第4点。

3.  引物偏向;例如,结合偏向,甲基化偏向,错配导致的偏向,非特异性结合和引物二聚体的形成,发夹结构和干扰环,熔解温度太高或太低引入的偏向。 

4.  短捕获偏向,在高通量RNA测序的poly(A)富集过程中引入。

5.  独家突变;例如,那些由重复区域或独家变异的错配而引入的突变。 

 

版权所有  岩之澜(北京)医学科技有限公司     京ICP备:13010689号