查看原文
其他

落入窠(ke)臼(jiu):GATK best practice每个步骤都是必须的吗?

2017-07-02 洲更与阿尔的太阳 生信媛

昨天Jimmy发了一篇文章《GATK best practice每个步骤都是必须的吗?》,主要是讨论最佳实践里面的步骤有没有必要。

其实就是比较realign和recal步骤对最后找变异的影响大不大

如下是论点:

  • 对于高质量的SNP位点来说,3中bam文件得到SNP信息差别很微弱,在可接受的范围点。

  • 但是不能忽视原始bam和重排的bam得到的变异VCF要比recal后少了近两万

  • INDEL本身对参数就比较敏感,所以不好比较

  • realign的SNP基本上都在染色体附近

结论:

GATK最佳时间的BQSR步骤很重要,尤其是对于临床,这个步骤据说是根据机器学习,所以Jimmy认为可以改善结果。

我和朋友(阿尔的太阳,它的公众号:生信之光,一个非常喜欢太阳的小伙子,太阳=日?)认为如果要对不同的步骤进行比较,需要用到金标准基因组(什么叫做金标准?传送门),而不是用个人的基因组测序结果,毕竟没有参考答案的比较都是耍流氓。但是Jimmy认为金标准区域并没有覆盖全部区域,存在4%左右的blind region(盲区,说了一个专业单词,感觉自己好厉害),而在临床上是要看所有区域的。

但是我和阿尔的太阳(一个自称喜欢太阳的小伙子)讨论了一下,观点仅供参考:

96%约等于100%

二代测序存在测序盲区,染色体上有许多序列重复区域,被称为difficult region(困难的区域,会蹦英语就是开心),是二代测序难以覆盖的,金标准费了好大的力气,都没能把这个地方覆盖上。所以那些地方根本不是二代测序能够分析的,96%约等于100%.

在数据分析领域有一句名言:garbage in, garbage out。如果数据本身质量就不太好,别指望能得到什么好的结果。

金标准的意义

如果金标准区域不能当作二代测序Variant calling工具比较是的参考答案,那么请给出更好的标准。不然验证答案只能靠一代测序,别人辛辛苦苦得到金标准岂不是毫无意义。


染色体中心的SNP对疾病有影响吗?

Jimmy找到的位点基本都是位于染色体中心粒附件,根据我基础的生物学知识,这些区域高度重复,基本上不参与转录,而且我对人类疾病的了解比较少(我是做植物的),不知道有哪些疾病是有这些区域引起的,欢迎高手贴一些文献和我说。

反思以下BQSR的原理

BQSR的原理是,输入一个dbsnp数据库,里面收集了常见的人类突变,GATK对它进行机器学习, 然后重新评估各个碱基的质量。进行BQSR的原因是因为当年测序质量不太好,所以需要重新评估以下,现在质量普遍很高,所以这一步很有可能导致原先正确的出错,导致原先错误的变对,这都是tradeoff(代价,会说英语就是开心)

植物的同学注意了,由于dbsnp需要已知的突变碱基数据库,我们想要也没有呀!!! 所以做植物的同学目前阶段不需要考虑用BQSR,一点都不用纠结。或者你通过严格的筛选,过滤出一些“高质量”的突变位点当作输入。其实samtools + bcftools对于植物来说够用了。

realign的必要性

至于重排的bam和原始的bam为什么数量类似,这是因为HaplotypeCaller的工作本身就包含对hot region(热区,会蹦英语真开心)重新排列,所以realign这一步可以很放心的不要了

以上观点,仅供参考,欢迎高手提出意见。

个人观点

  1. 不要盲从机器学习

  2. 不要轻易相信你的数据和程序

  3. 不要轻易相信我说的


关于落入窠臼的梗:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存