plDDT怎么计算?常见公式有哪些?
- 写回答
- 好问题 0 提建议
- 关注问题
- 邀请回答
-
1条回答 默认 最新
爱宝妈 2025-09-22 12:10关注一、plDDT基础概念解析
plDDT(predicted local Distance-Dependent Threading score)是AlphaFold2中引入的关键评估指标,用于衡量蛋白质结构预测结果在局部残基上的可信度。其取值范围为0到100,数值越高表示该氨基酸残基所在区域的结构预测越可靠。
该评分并非基于全局结构比对,而是通过分析神经网络对每对残基之间距离分布的预测一致性来生成。具体而言,AlphaFold的Evoformer模块输出一个距离概率分布张量,维度为 (L, L, bins),其中L为序列长度,bins代表离散化距离区间(通常为64个bin)。
对于每个残基i,系统会聚合其与所有其他残基j的距离预测分布信息,并计算该残基周围预测的不确定性。常见的量化方式包括:
- 计算softmax后距离分布的标准差σ
- 使用交叉熵衡量预测分布与理想单峰分布的差异
- 将不确定性指标经线性变换映射至0–100区间
一种简化形式可表达为:
plDDT = 100 × (1 − σ / σ_max)
其中σ为某残基相关距离预测的标准差,σ_max为经验最大值(如设定为3.0Å或根据训练数据统计得出),从而实现归一化。二、plDDT的计算流程与技术实现
从AlphaFold源码角度出发,plDDT的生成嵌入在“StructureModule”之后的“PredictedLDDTHead”中。该模块接收最终的原子坐标(尤其是Cα、C、N、O)作为输入,通过多层感知机(MLP)学习每个残基的置信度。
以下是关键步骤的伪代码描述:
def compute_plddt(logits): # logits shape: [B, L, 36] - 36 bins for d=2-22Å prob = softmax(logits, axis=-1) bin_centers = create_bin_centers(36) # e.g., [2.0, 2.5, ..., 22.0] expected_dist = sum(prob * bin_centers, axis=-1) # [B, L] variance = sum(prob * (bin_centers - expected_dist[..., None])**2, axis=-1) std_dev = sqrt(variance) # uncertainty measure sigma_max = 3.0 plddt = 100.0 * (1.0 - torch.clamp(std_dev / sigma_max, 0, 1)) return plddt # shape [B, L], values in [0, 100]三、plDDT在实际应用中的表现与挑战
在真实蛋白质结构预测任务中,plDDT展现出良好的判别能力。以下为典型蛋白区域的plDDT分布示例:
残基编号 二级结构 平均plDDT 结构特征 可信度等级 10-25 α-螺旋 95.2 稳定核心区 极高 45-60 β-折叠 92.1 氢键网络完整 高 78-85 环区 70.3 柔性连接域 中等 102-110 无规卷曲 55.6 高度动态 低 130-140 α-螺旋 96.8 疏水核心 极高 160-175 环区 48.9 功能位点附近 极低 190-200 β-转角 82.4 部分受限 中高 210-220 无规卷曲 61.3 表面暴露 中等 240-250 α-螺旋 94.7 跨膜段 高 270-280 环区 50.1 结构域间铰链 低 四、多结构域蛋白中的plDDT分析案例
以典型的双结构域蛋白激酶为例(PDB ID: 1ATP),其N端和C端分别为激酶结构域与调节结构域,中间由柔性 linker 连接。AlphaFold预测结果显示:
- N端结构域:平均plDDT ≈ 93.5
- C端结构域:平均plDDT ≈ 91.2
- linker区域(残基150-165):plDDT下降至45–58
这表明模型准确识别了结构刚性区域与柔性区域之间的边界。值得注意的是,尽管linker区域plDDT偏低,但并不意味着预测错误,而反映了真实的构象异质性。
此类现象在抗体Fc/Fab区域、核苷酸结合开关蛋白中普遍存在,需结合生物背景进行解读。
五、可视化与集成分析流程
在现代结构生物学工作流中,plDDT常与3D可视化工具(如PyMOL、ChimeraX)集成。以下为基于Mermaid的分析流程图:
graph TD A[输入FASTA序列] --> B{运行AlphaFold} B --> C[输出PDB + pLDDT per residue] C --> D[加载至PyMOL] D --> E[按plDDT着色:蓝(>90)→红(<50)] E --> F[识别低置信区域] F --> G[设计实验验证:HDX-MS, Cryo-EM局部重构] G --> H[指导突变或结晶优化]该流程广泛应用于药物靶点评估、蛋白工程改造及功能位点预测中。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报