GATK4如何正确进行Base Quality Score Recalibration？

在使用GATK4进行Base Quality Score Recalibration（BQSR）时，一个常见问题是：为何在缺乏已知变异位点数据库（如dbSNP）的情况下仍需运行BaseRecalibrator？许多用户误以为若无可靠SNP资源则应跳过BQSR，但GATK4建议即使使用小型或不完整变异集，也应执行BQSR以识别并校正系统性碱基质量偏差。正确做法是结合参考基因组附带的已知位点VCF（如Homo_sapiens.vcf），并在后续分析中通过VariantFiltration进一步过滤假阳性。忽略此步骤可能导致下游变异检测中出现偏倚，影响结果准确性。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

rememberzrr 2025-10-31 22:34

关注

1. 为何在缺乏dbSNP等已知变异数据库时仍需执行BQSR？

在使用GATK4进行高通量测序数据分析时，Base Quality Score Recalibration（BQSR）是一个关键预处理步骤。许多用户存在一个常见误解：认为若缺少高质量的已知变异集（如dbSNP），则应跳过BaseRecalibrator。然而，GATK团队明确建议——即使仅有少量或不完整的已知变异位点，也不应跳过BQSR。

BQSR的核心目标是识别并校正由测序平台、碱基上下文（如CG-rich区域）、读长位置等因素引起的系统性碱基质量评分偏差。这些偏差与是否拥有完整SNP数据库无关，而是普遍存在于所有Illumina等NGS数据中。

2. BQSR的工作机制解析

第一轮分析：BaseRecalibrator扫描比对后的BAM文件，统计不同协变量（如碱基上下文、读取位置、测序仪器模块）下的观测错误率。
已知位点作用：提供“可信变异”集合，用于区分真实变异与测序错误。但其缺失并不意味着无法建模误差模式。
误差模型构建：工具基于参考基因组中保守区域的匹配情况，推断出非变异位点上的错配率，进而建立校准表。

3. 缺乏可靠SNP资源时的替代策略

策略	描述	适用场景
使用参考基因组附带VCF	如Homo_sapiens.vcf中包含基础多态性位点	人类全基因组重测序
迭代式BQSR	先运行一次初步变异 calling，提取高置信SNP作为“已知位点”重新运行BQSR	非模式物种或无公共数据库
使用合成金标准集	基于多个样本联合call，生成内部共识变异集	群体研究项目
仅依赖参考一致性位点	将参考基因组视为“野生型”，所有偏离视为潜在错误	近交系动物或克隆样本

4. 实际操作流程示例（GATK4命令行）

# 第一步：运行BaseRecalibrator，即使使用小型VCF
gatk BaseRecalibrator \
   -I sample.bam \
   -R Homo_sapiens_assembly38.fasta \
   --known-sites Homo_sapiens.vcf \
   -O recal_data.table

# 第二步：应用校准模型
gatk ApplyBQSR \
   -I sample.bam \
   -R Homo_sapiens_assembly38.fasta \
   --bqsr-recal-file recal_data.table \
   -O sample_BQSR.bam

# 后续步骤中通过VariantFiltration过滤假阳性
gatk VariantFiltration \
   -V raw_variants.vcf \
   --filter-expression "QD < 2.0 || FS > 60.0" \
   --filter-name "basic_snp_filter" \
   -O filtered_variants.vcf

5. 忽略BQSR可能引发的问题

碱基质量被系统性高估，导致假阳性SNV增加
GC偏倚区域的变异检出率显著下降
不同批次间数据可比性降低，影响meta分析
低频变异检测灵敏度下降
在肿瘤异质性分析中引入技术噪声
影响后续机器学习模型（如CNN-based variant caller）的表现
降低家系分析中的孟德尔错误检测能力
干扰结构变异断点精确定位
影响RNA-seq中等位特异性表达分析准确性
造成群体遗传学参数（如π, Tajima's D）估计偏差

6. 技术演进与未来方向

graph TD A[原始BAM] --> B{是否有可靠SNP集?} B -->|是| C[使用dbSNP/1KG] B -->|否| D[使用参考附带VCF或迭代建模] C --> E[BaseRecalibrator] D --> E E --> F[ApplyBQSR] F --> G[HaplotypeCaller] G --> H[VariantFiltration] H --> I[最终VCF]

随着深度学习方法的引入（如DeepVariant），传统BQSR的重要性正在演变，但在当前主流pipeline中，它仍是保障变异检测稳健性的基石。尤其对于IT背景出身、从事生信系统开发的工程师而言，理解这一模块的设计哲学有助于构建更鲁棒的数据处理流水线。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

生信学习笔记：利用GATK call SNP
2019-09-19 15:01

ccArtermices的博客生信学习笔记：利用GATK call SNP SNP是指在基因组上单个核苷酸的变异,包括置换、颠换、缺失和插入。SNP在基因组中分布相当广泛，近来的研究表明在很多物种基因组中每300bp就出现一次。大量存在的SNP位点，使人们有...
GATK的BaseRecalibration程序在无标准SNP数据库情况下，是否还能进行BaseRecalibration?...
2016-07-24 16:49

weixin_30716725的博客 GATK(Genome Analysis Toolkit)是美国Broad Institute研发的一套检测SNP（SNP calling）的流程。测序后的碱基质量由于测序过程中的物理化学反应和测序仪的瑕疵会导致碱基质量偏离真实情况，为了矫正碱基质量，...
GATK使用方法详细介绍
2018-07-31 17:29

- **基础质量评分调整**：Base Quality Score Recalibration (BQSR)，通过已知变异信息提高变异调用准确性。 - **变异调用**：使用HaplotypeCaller或其他工具来识别SNPs和InDels。 - **变体质量评分调整**：...
GATK4实战：5分钟搞定HaplotypeCaller变异检测（附最新参数详解）
2025-10-09 08:49

SAM99的博客本文提供GATK4 HaplotypeCaller变异检测的快速实战指南。通过精讲核心参数与最新技巧，帮助用户5分钟内搭建分析流程，涵盖单样本与队列分析场景，并附有常见报错排查与性能优化建议，实现高效准确的变异检测。
GATK ReadUtils类介绍
2024-08-08 11:35

qq_27390023的博客 ReadUtils类是 Genome Analysis Toolkit (GATK) 中的一个实用工具类，使用静态方法处理读取、标头等的各种实用方法。主要用于处理和操作序列比对数据（即 BAM 文件中的 read）。GATK 是一个广泛使用的工具集，用于高...
GATK之BaseRecalibrator
2017-05-02 13:11

weixin_33984032的博客（Base quality score recalibration，BQSR)，就是利用机器学习的方式调整原始碱基的质量分数。它分为两个步骤: 利用已有的snp数据库，建立相关性模型，产生重校准表( recalibration table) 根据这个模型对原始...
gatk过滤_GATK--使用转载
2020-12-31 09:14

弄哦婆婆的博客 http://blog.sciencenet.cn/blog-1469385-819498.html文章目录一.准备工作二.流程概览三.流程首先说说GATK可以做什么...比如现在风行的exome sequencing找variant，一般通过BWA+GATK的pipeline进行数据分析。要run G...
GATK4最佳实践-数据预处理篇
2018-05-17 19:22

生信修炼手册的博客欢迎关注"生信修炼手册"！GATK4 官方针对不同的变异类型，给出了好几套用于参考的pipeline。所有的pipeline有一个共同点，就是数据预处理部分。数据预处理的...
生信软件24 - Samtools与GATK高效去除PCR重复的实战技巧解析
2025-10-16 02:06

寂静夜空35的博客文章对比了Samtools markdup与GATK MarkDuplicates两款核心生信软件的核心原理、适用场景及实战操作技巧，并提供了详细的参数调优与结果验证指南，帮助用户避免假阳性变异，提升数据分析可靠性。
GATK BQSR-碱基质量矫正
2024-08-28 14:04

QuYu~的博客 QualityScore（质量分数）代表的是测序仪器在初始测序时为每个碱基分配的质量分数。EmpiricalQuality（经验质量）代表的是通过分析实际测序数据计算得出的质量分数。这些经验质量分数是基于观察到的错误率（例如错配...
开箱即用版本满分室间质评之GATK Somatic SNV+Indel+CNV+SV（20240430更新）
2023-10-07 09:57

weixin_39900139的博客使用校准表对bam碱基质量校准，因为这一步gatk效率感人，所以同时计算insertsize，拆分interval list（后续mutect2并行运行需要），运行cnvkit batch，运行samtools depth计算测序深度，samtools flagstat 统计...
gatk过滤_肿瘤外显子数据处理系列教程（五）GATK的最佳实践
2021-01-07 03:38

房姐的博客上一节我们讲到了，讲bam文件载入igv中可视化，不过是番外篇，今天我们继续上一次比对后的流程：GATK的最佳实践。下载数据我们在肿瘤外显子数据处理系列教程(三)就说过了GATK流程需要哪些数据，不过当时没有演示，...
GATK流程
2016-11-24 15:52

zhu_si_tao的博客一、使用GATK前须知事项：（1）对GATK的测试主要使用的是人类全...（2）GATK是一个应用于前沿科学研究的软件，不断在更新和修正，因此，在使用GATK进行变异检测时，最好是下载最新的版本，目前的版本是2.8.1（2014-02
GATK & GATK best practices notes
2020-10-18 22:33

子诚之的博客 pipeline ########################### # way1: step-by-step ########################### # Map to Reference # Mark Duplicates # Base Quality Score Recalibration ########################### # way2: wdl ##...
一文详解BQSR-碱基质量矫正原理和实战
2022-03-15 18:04

JaneMarple️的博客 BQSR (Base Quality Score Recalibration)，指对bam文件中的碱基质量进行校正。在基于二代测序数据进行变异位点检测时，碱基质量是非常重要的。比如测序识别到的一个位点，其碱基和参考基因组上的碱基不同，但是其...
GATK4.1.9.0使用之BQSR
2021-01-15 18:47

谁曾经不是菜鸟啦的博客 GATK下载：2.BQSR（Base (Quality Score) Recalibration）,已知集已经下载；参考网站： https://qcb.ucla.edu/wp-content/uploads/sites/14/2016/03/GATKwr12-4-Base_recalibration.pdf①介绍②成功重新校准的重要...
GATK Germline Best Practice学习
2018-01-20 21:01

XiXicoming的博客想用GATK germline best practice的方法进行突变的分析。这里主要参考GATK Germline best practice的教程。1 这里用的是GATK3.7的版本，目前已经出到GATK3.8。最近4.0也发布了。部分步骤后续补完。。。 ...
GATK之HaplotypeCaller
2019-07-15 18:12

chengsi9809的博客 GATK的主要功能其实就是识别变异位点，其他功能都是锦上添花。所以这一次学习GATK寻找变异位点的工具。在GATK的文档中，与变异位点识别相关的有9个工具，分别是： Name Summary ...
GATK使用方法详解（原始数据的处理）
2017-02-22 14:50

whiffen_cann的博客 1. 对原始下机fastq文件进行过滤和比对（mapping）对于Illumina下机数据推荐使用bwa进行mapping。 Bwa比对步骤大致如下：（1）对参考基因组构建索引：例子：bwa index -a bwtsw hg19.fa。最后生成文件：hg19....
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月31日