矩阵乘积的秩为何满足 rank(AB) ≤ min{rank(A), rank(B)}?
- 写回答
- 好问题 0 提建议
- 关注问题
- 邀请回答
-
1条回答 默认 最新
舜祎魂 2026-02-03 11:20关注```html一、直观几何视角:列空间与行空间的嵌套关系
设 $A \in \mathbb{R}^{m\times n}$,$B \in \mathbb{R}^{n\times p}$。矩阵乘积 $AB$ 的第 $j$ 列为 $A\mathbf{b}_j$(其中 $\mathbf{b}_j$ 是 $B$ 的第 $j$ 列),故 $\operatorname{col}(AB) = \operatorname{span}\{A\mathbf{b}_1, \dots, A\mathbf{b}_p\} \subseteq \operatorname{col}(A)$。同理,$(AB)^\top = B^\top A^\top$,其列空间即 $AB$ 的行空间,满足 $\operatorname{row}(AB) \subseteq \operatorname{row}(B)$。由子空间维数不等式 $\dim(U) \le \dim(V)$ 当 $U \subseteq V$,立即得:
- $\operatorname{rank}(AB) = \dim \operatorname{col}(AB) \le \dim \operatorname{col}(A) = \operatorname{rank}(A)$
- $\operatorname{rank}(AB) = \dim \operatorname{row}(AB) \le \dim \operatorname{row}(B) = \operatorname{rank}(B)$
二、线性映射视角:复合变换的像空间压缩
将矩阵视为线性映射:$B: \mathbb{R}^p \to \mathbb{R}^n$,$A: \mathbb{R}^n \to \mathbb{R}^m$,则 $AB: \mathbb{R}^p \to \mathbb{R}^m$ 是复合映射。由像空间性质:
$\operatorname{Im}(AB) = A(\operatorname{Im}(B)) \subseteq A(\mathbb{R}^n) = \operatorname{Im}(A)$
因此 $\dim \operatorname{Im}(AB) \le \min\left\{ \dim \operatorname{Im}(A),\; \dim \operatorname{Im}(B) \right\}$。该视角揭示本质:秩下降源于“中间域” $\mathbb{R}^n$ 的维度瓶颈与映射非满射性。
三、SVD统一解释:奇异值的零化机制
设 $B = U_B \Sigma_B V_B^\top$,$A = U_A \Sigma_A V_A^\top$,则 $AB = U_A \Sigma_A (V_A^\top U_B) \Sigma_B V_B^\top$。关键观察:$AB$ 的非零奇异值个数 ≤ 非零 $\Sigma_A$ 个数(即 $\operatorname{rank}(A)$)且 ≤ 非零 $\Sigma_B$ 个数(即 $\operatorname{rank}(B)$),因为左/右乘可逆矩阵不改变秩,而中间矩阵 $V_A^\top U_B$ 可能引入额外零化——即 $\Sigma_A (V_A^\top U_B) \Sigma_B$ 中奇异值被“截断”或“抵消”。
四、等号成立的充要条件
以下三组条件等价(经典结论,见Horn & Johnson):
条件类型 数学表述 列满秩+行满秩 $\operatorname{rank}(AB) = \operatorname{rank}(B) \iff \operatorname{null}(A) \cap \operatorname{col}(B) = \{0\}$ 行满秩+列满秩 $\operatorname{rank}(AB) = \operatorname{rank}(A) \iff \operatorname{row}(A) \cap \operatorname{null}(B) = \{0\}$ 同时取等 $\operatorname{rank}(AB) = \min\{\operatorname{rank}(A), \operatorname{rank}(B)\} \iff$ 上述两交集均为零子空间 五、工程实践启示与反例验证
在深度学习中,权重矩阵连乘(如ResNet残差分支)若任一中间层秩亏(如因过正则化或低秩初始化),则整体表达能力受限;在推荐系统中,$U \in \mathbb{R}^{m\times k}, V \in \mathbb{R}^{k\times n}$ 的乘积 $UV^\top$ 天然满足 $\operatorname{rank}(UV^\top) \le k$ —— 这正是矩阵分解降维的理论根基。
反例:令 $A = \begin{bmatrix}1 & 0 \\ 0 & 0\end{bmatrix},\; B = \begin{bmatrix}0 & 0 \\ 1 & 0\end{bmatrix}$,则 $\operatorname{rank}(A)=\operatorname{rank}(B)=1$,但 $AB = \mathbf{0}$,故 $\operatorname{rank}(AB)=0 < \min\{1,1\}$。
六、算法级验证:数值秩计算流程图
flowchart TD A[输入 A∈ℝ^{m×n}, B∈ℝ^{n×p}] --> B[计算 AB] B --> C[对 AB 进行 SVD: AB = UΣVᵀ] C --> D[统计 Σ 中 > ε 的奇异值个数] D --> E[输出 rank_AB] A --> F[分别对 A, B 做 SVD] F --> G[提取 rank_A, rank_B] G --> H[验证 rank_AB ≤ min(rank_A, rank_B)]七、高阶推广:多矩阵乘积与张量秩类比
对 $A_1 A_2 \cdots A_k$,有 $\operatorname{rank}(A_1\cdots A_k) \le \min_i \operatorname{rank}(A_i)$。该性质在张量网络(如MPS/TN)中推广为“边秩约束”:任意收缩操作不增加超边的秩上界。这为大模型参数压缩(如LLM中的QKV低秩近似)提供理论安全边界。
```本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报