周行文 2026-01-02 13:10 采纳率: 98.7%

已采纳

Log-sum-exp数值溢出如何避免？

在深度学习和概率计算中，Log-sum-exp（LSE）常用于稳定计算对数概率之和，但易因输入值过大引发数值溢出。例如，当计算 $\log\left(\sum_{i} e^{x_i}\right)$ 时，若 $x_i$ 值较大，直接求指数会导致上溢。尽管引入 $\log\left(\sum_{i} e^{x_i - c}\right) + c$（其中 $c = \max(x_i)$）可缓解问题，但在某些场景下仍可能出现精度损失或下溢。如何在保证数值稳定的前提下，高效实现 Log-sum-exp 计算？这是实际工程中常见的挑战。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

扶余城里小老二 2026-01-02 13:10

关注

Log-sum-exp 数值稳定性问题的深度解析与工程实践

1. 问题背景：为何 Log-sum-exp 如此关键？

在深度学习与概率建模中，我们经常需要对对数空间的概率进行求和操作。例如，在 softmax 归一化、隐变量模型（如 HMM）、变分推断以及损失函数（如交叉熵）中，都会遇到形如：

\[ \log\left(\sum_{i=1}^n e^{x_i}\right) \]

的计算。直接计算该表达式极易引发数值溢出——当某个 $x_i$ 过大时，$e^{x_i}$ 可能超出浮点数表示范围（如 float32 的上限约为 $10^{38}$），导致结果为 inf，进而使整个 log 操作失败。

2. 基础解决方案：Log-sum-exp Trick

标准的稳定化技巧是引入一个常数 $c = \max(x_i)$，将原式重写为：

\[ \log\left(\sum_{i} e^{x_i}\right) = c + \log\left(\sum_{i} e^{x_i - c}\right) \]

由于所有 $x_i - c \leq 0$，因此 $e^{x_i - c} \in (0,1]$，有效避免了上溢。这一方法广泛应用于主流框架中，如 PyTorch 和 TensorFlow 的内置函数。

优点：实现简单，效果显著
缺点：当所有 $x_i$ 都极小（负得很大）时，仍可能导致下溢（即 $e^{x_i - c} \to 0$）
场景局限：在大规模并行或分布式训练中，最大值的同步可能成为性能瓶颈

3. 进阶挑战：精度损失与极端分布情况

考虑以下输入向量：

\[ \mathbf{x} = [-1000, -1000, -1000] \]

此时 $c = -1000$，则 $x_i - c = 0$，$e^0 = 1$，求和后为 3，最终结果为 $-1000 + \log(3)$。看似无误，但若使用低精度浮点类型（如 float16），中间步骤的舍入误差会累积，影响最终精度。

输入类型	最大值 c	exp(x_i - c)	sum(exp)	log(sum)	最终结果
[-10, -10]	-10	[1,1]	2	0.693	-9.307
[1000, 1000]	1000	[1,1]	2	0.693	1000.693
[-1000,-999]	-999	[0.368,1]	1.368	0.313	-998.687
[float('inf'), 5]	inf	NaN	NaN	NaN	NaN
[nan, 3]	nan	NaN	NaN	NaN	NaN
[-1e6]*5	-1e6	[1]*5	5	1.609	-999998.391
[0, 1, 2]	2	[0.135,0.368,1]	1.503	0.407	2.407
[1e308]*2	1e308	overflow	inf	inf	inf
[-1e308]*3	-1e308	underflow to 0	0	-inf	-inf
[log(1e-10), log(1e-5)]	log(1e-5)	[0.0001,1]	1.0001	~0	log(1e-5)

4. 工程优化策略与多层级实现

为了应对不同场景下的数值稳定性需求，可采用分级处理机制：

预检查阶段：检测是否存在 inf 或 nan
动态缩放：选择最优的 $c$，不仅限于 max，也可用 median 或 quantile 降低敏感性
分块累加：对超长向量分段处理，结合 Kahan 求和减少舍入误差
高精度路径：在关键路径启用 float64 计算
对数域近似：当项间差异极大时，忽略次要项（如 $|x_i - c| > 50$ 则视为 0）
GPU 并行优化：利用 warp-level reduce 实现快速 max 和 sum

5. 代码实现示例（Python + NumPy）


import numpy as np

def logsumexp_stable(x, axis=None, keepdims=False):
    """Stable log(sum(exp(x))) with multiple safeguards."""
    x = np.asarray(x)
    if np.any(np.isnan(x)):
        return np.full_like(x, np.nan) if axis is None else np.nan
    
    # Handle inf cases
    if np.any(np.isinf(x)):
        pos_inf = np.isposinf(x)
        if np.any(pos_inf):
            return np.full(x.shape[:axis] + (1,) if keepdims else (), np.inf)
    
    c = np.max(x, axis=axis, keepdims=True)
    shifted = x - c
    exp_shifted = np.exp(shifted)
    sum_exp = np.sum(exp_shifted, axis=axis, keepdims=keepdims)
    result = np.log(sum_exp) + (c.squeeze(axis) if not keepdims else c)
    return result

# 测试用例
test_cases = [
    np.array([-1000, -999]),
    np.array([1000, 1001]),
    np.array([0, 1, 2]),
    np.full(1000, -1e6)
]
for case in test_cases:
    print(f"LSE({case[0]:.0f}...) = {logsumexp_stable(case):.6f}")

6. 分布式环境下的 Log-sum-exp 扩展

在联邦学习或模型并行中，需跨设备聚合 LSE。设本地输入为 $x^{(k)}$，其最大值为 $c_k$，则全局 LSE 可通过两步完成：

graph TD A[各节点计算局部 c_k = max(x^k)] --> B[Gather 所有 c_k] B --> C[Global_c = max(c_k)] C --> D[各节点计算 exp(x^k - Global_c)] D --> E[AllReduce 求和] E --> F[log(sum) + Global_c] F --> G[输出全局 LSE]

此方案确保数值一致性，同时最小化通信开销（仅传递标量最大值）。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

log-sum-exp 的计算溢出解决
2019-10-02 17:19

Loy_Fan的博客原始的定义-1 Log⁡Sum⁡Exp⁡(x1…xn)=...\operatorname{Log} \operatorname{Sum} \operatorname{Exp}\left(x_{1} \ldots x_{n}\right)=\log \left(\sum_{i=1}^{n} e^{x_{i}}\right) LogSumExp(x1…xn)=log(i=1...
max函数的平滑（log-sum-exp trick）
2022-01-22 12:23

UQI-LIUWJ的博客 softmax的形式为，其中而在分类问题或者一些其他问题中，我们会使用到交叉熵，其中的每一项，我们都有形如其中，减号后面的部分，就是这一个博客需要说明的log-sum-exp (LSE) 2.1 softmax的上下溢出假设我们目前...
【漫话机器学习系列】111.指数之和的对数（Log-Sum-Exp）
2025-03-01 09:46

IT古董的博客在计算机科学和机器学习中，经常会遇到计算指数和的对数的情况，由于指数函数的值增长极快，直接...为了避免这些问题，我们可以使用 Log-Sum-Exp (LSE) 技巧，本篇文章将详细介绍该技巧的原理、推导过程以及实际应用。
CANN ops-math Softmax数值稳定技术溢出防护与log-sum-exp技巧详解
2026-02-07 07:07

six_1243096140的博客本文将深度解析中采用的max-val归一化机制和log-sum-exp魔法，揭秘如何在NPU上实现既快又稳的Softmax计算。关键亮点包括：逐行解码溢出防护逻辑、FP16下的梯度消失Bug实战修复案例、以及在企业级场景中的性能调优...
从不可微到可导：log-sum-exp如何成为max函数的平滑代理
2018-03-01 13:54

weixin_33711647的博客本文深入探讨了log-sum-exp（LSE）作为max函数平滑代理的数学原理与实践应用。通过分析LSE的温度参数调节、数值稳定实现技巧以及在深度学习中的具体案例，揭示了其在保持近似最大值的同时提供有效梯度的独特优势。...
log-MPA-迭代次数对比_SCMAcode_
2021-10-01 05:18

因为直接计算大量项的和可能导致数值溢出，所以通常会使用对数域的运算来避免这个问题。通过对这些文件的分析，我们可以深入理解SCMA系统的编码和检测过程，以及如何通过调整log-MPA检测的迭代次数来影响系统性能...
从Max到Softmax：Log-Sum-Exp Trick如何成为深度学习损失函数的“隐形守护者”
2026-04-28 09:37

沃娃的博客本文深入探讨了Log-Sum-Exp（LSE）技巧在深度学习中的关键作用，特别是如何作为'隐形守护者'解决从不可微的Max函数到可微的Softmax函数的平滑过渡问题。通过详细分析LSE在交叉熵损失函数、对比学习和注意力机制中的...
数值稳定性终极指南：ML-From-Scratch防止数值溢出完全解决方案
2025-09-19 07:01

仲玫千Samson的博客当使用纯NumPy实现复杂算法时，数值溢出和下溢可能导致模型收敛失败或预测结果失真。本文将以ML-From-Scratch项目为基础，全面解析数值稳定性问题的产生原因及实用解决方案，帮助开发者构建更健壮的机器学习系统。 ...
一文弄懂LogSumExp技巧
2021-12-11 09:55

愤怒的可乐的博客我们知道编程语言中的数值都有一个表示范围的，如果数值过大，超过最大的范围，就是上溢；如果过小，超过最小的范围，就是下溢。什么是LSE LSE被定义为参数指数之和的对数： LSE ( x 1 , ⋯ , x n ) = log ⁡ ...
SotMax函数的对数版本Log-SoftMax
2024-07-31 16:48

yiruzhao的博客 Log-Softmax在处理大规模多类分类问题时非常有用，尤其是在模型需要处理大量输出类别时。它使得从logits到损失计算的过程更直接、更高效，并且通过避免直接的概率计算，降低了因数值问题导致的误差。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月2日