如何用矩阵求解最小二乘法的正规方程？

在使用矩阵方法求解最小二乘法的正规方程 $ \mathbf{A}^T\mathbf{A}\mathbf{x} = \mathbf{A}^T\mathbf{b} $ 时，一个常见问题是：当设计矩阵 $ \mathbf{A} $ 的列向量线性相关或存在多重共线性时，$ \mathbf{A}^T\mathbf{A} $ 将变为奇异矩阵，导致无法求逆，从而无法唯一求解参数向量 $ \mathbf{x} $。这种情况下，正规方程的解不唯一或数值不稳定。如何识别并处理矩阵奇异性？常用方法包括引入正则化（如岭回归）、对特征进行主成分分析（PCA）降维，或使用伪逆（如Moore-Penrose广义逆）进行求解。这些问题在实际数据拟合中尤为突出，尤其是在特征维度高、样本量不足的场景下。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

远方之巅 2025-11-05 09:02

关注

1. 矩阵奇异性问题的数学背景与成因

在最小二乘法中，正规方程 $ \mathbf{A}^T\mathbf{A}\mathbf{x} = \mathbf{A}^T\mathbf{b} $ 是求解参数向量 $ \mathbf{x} $ 的核心。当设计矩阵 $ \mathbf{A} \in \mathbb{R}^{m \times n} $ 的列向量存在线性相关或近似共线时，$ \mathbf{A}^T\mathbf{A} $ 将不再是满秩矩阵，其行列式为零，导致该矩阵奇异（不可逆）。

此时，正规方程无唯一解，或数值计算中出现极大条件数，引发参数估计不稳定。例如，在回归分析中，若多个特征高度相关（如“房屋面积”与“房间数量”的强正相关），则 $ \mathbf{A}^T\mathbf{A} $ 接近奇异，造成模型对数据扰动极度敏感。

2. 如何识别矩阵奇异性

秩检测：通过计算 $ \text{rank}(\mathbf{A}) $ 判断是否小于 $ n $，若成立，则存在线性相关列。
条件数（Condition Number）：计算 $ \kappa(\mathbf{A}^T\mathbf{A}) = \frac{\lambda_{\max}}{\lambda_{\min}} $，若远大于 $ 10^{15} $（双精度浮点阈值附近），表明严重病态。
特征值分析：对 $ \mathbf{A}^T\mathbf{A} $ 进行谱分解，若存在接近零的特征值，则说明多重共线性存在。
方差膨胀因子（VIF）：在统计建模中，VIF > 10 表示某特征与其他特征显著共线。

3. 常见处理方法对比

方法	原理	优点	缺点	适用场景
岭回归（Ridge）	引入L2正则项：$ (\mathbf{A}^T\mathbf{A} + \lambda \mathbf{I})\mathbf{x} = \mathbf{A}^T\mathbf{b} $	稳定求解，保留所有特征	偏差增加，需调参 $ \lambda $	高维小样本，共线性强
主成分回归（PCR）	PCA降维后回归	消除共线性，降噪	解释性下降，信息可能丢失	特征冗余严重
Moore-Penrose伪逆	使用SVD求广义逆 $ \mathbf{A}^+ $	无需可逆性，解最小范数	计算开销大	奇异系统、欠定方程
Lasso回归	L1正则化，稀疏化选择	自动特征选择	可能过度剔除相关特征	希望稀疏解

4. 实际代码实现示例

import numpy as np
from sklearn.decomposition import PCA
from sklearn.linear_model import Ridge
from scipy.linalg import pinv

# 模拟病态设计矩阵
np.random.seed(42)
X = np.random.randn(100, 5)
X = np.hstack([X, X[:, :2] + 1e-6 * np.random.randn(100, 2)])  # 引入近似共线列
y = X @ np.random.randn(X.shape[1]) + np.random.randn(100)

# 方法1：尝试直接求解（将失败或不稳定）
try:
    beta_naive = np.linalg.solve(X.T @ X, X.T @ y)
except np.linalg.LinAlgError as e:
    print("直接求解失败:", e)

# 方法2：使用岭回归
ridge = Ridge(alpha=1.0)
beta_ridge = ridge.fit(X, y).coef_

# 方法3：使用伪逆
beta_pinv = pinv(X) @ y

# 方法4：PCA降维后再回归
pca = PCA(n_components=5)
X_pca = pca.fit_transform(X)
beta_pcr = np.linalg.lstsq(X_pca, y, rcond=None)[0]

5. 处理流程图（Mermaid）

graph TD A[输入设计矩阵 A 和观测向量 b] --> B{检查 A 是否存在多重共线性?} B -- 是 --> C[计算条件数 / VIF / 特征值] C --> D{是否严重病态?} D -- 是 --> E[选择处理策略] E --> F[岭回归] E --> G[PCA降维 + 回归] E --> H[使用伪逆求解] D -- 否 --> I[直接求解正规方程] F --> J[输出稳定参数估计] G --> J H --> J I --> J

6. 高阶考量：正则化与泛化能力权衡

在深度学习和高维统计中，模型复杂度与泛化误差之间存在“偏差-方差权衡”。岭回归通过牺牲无偏性换取更低的方差，提升预测稳定性。从贝叶斯视角看，L2正则等价于参数服从高斯先验。

此外，Tikhonov 正则化是更一般的框架：$ \min_{\mathbf{x}} \| \mathbf{A}\mathbf{x} - \mathbf{b} \|^2 + \lambda \| \Gamma \mathbf{x} \|^2 $，其中 $ \Gamma $ 可编码结构先验（如平滑性）。

对于超大规模问题，随机SVD或迭代法（如LSQR）结合正则化更为高效，避免显式构造 $ \mathbf{A}^T\mathbf{A} $。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

2-LS.zip_最小二乘法求解线性方程组_线性方程组
2022-09-21 22:28

求解最小二乘问题的一种常见方法是采用正规方程（Normal Equations），这涉及到 A 的转置（A^T）以及 A 的伴随矩阵（如果 A 不是方阵，则需要伪逆）。正规方程是： \[ (A^TA)x = A^Tb \] 如果 A 是满秩的，正规...
使用最小二乘法，求线性回归分析的计算器（可显示过程）
2025-02-10 15:04

在实际计算过程中，通常需要通过矩阵运算来求解正规方程。为了简化计算过程，可以使用各种软件工具，如Excel、SPSS、R语言、Python等。这些工具可以帮助我们快速计算出线性回归的参数，并且有些工具还可以显示计算...
MATLAB最小二乘法完整源代码
2021-02-10 19:16

此外，为了提高效率和稳定性，源代码可能还会涉及到矩阵操作的优化，如预计算某些矩阵运算结果，或者使用QR分解代替正规方程组求解。对于大规模数据，可能需要考虑内存管理和并行计算策略。如果源代码包含这些内容，...
最小二乘法-使用Python实现的基于最小二乘法的一元线性回归方程.zip
2024-03-02 04:31

正规方程通过求解矩阵的逆来直接得到解，表达式为`theta = (X.T @ X)^(-1) @ X.T @ y`，其中theta是包含a和b的向量，X是自变量矩阵，y是因变量向量。Python的numpy库可以帮助我们进行矩阵运算，如`import numpy as ...
线性最小二乘正规方程组法
2012-04-16 08:27

接下来，使用**楚列斯基分解**（Cholesky Decomposition）来求解正规方程组 $A^TAx = A^Tb$。 - **楚列斯基分解定义**：如果矩阵 $M$ 是一个对称正定矩阵，则存在一个下三角矩阵 $L$，使得 $M = LL^T$。...
曲线最小二乘法.rar
2020-01-07 09:03

在实际编程中，可能会使用高斯消元法、LU分解或QR分解等方法来求解这个系统，这些都属于矩阵运算的范畴。总之，“曲线最小二乘法.rar”中的内容提供了一个实践性的例子，展示了如何利用矩阵运算和最小二乘法进行...
least squares_递推最小二乘法_matlab_leastsquares_遗忘因子最小二乘法_最小二乘法_
2021-10-03 10:29

对于线性模型y = Ax + b，其中A是输入矩阵，x是未知参数向量，y是观测向量，b是偏置项，最小二乘解可以通过求解正规方程得到，即(A' A)^{-1} A' y。 2. **递推最小二乘法（RLS）**：在处理大量实时或在线数据时，...
方程组c语言编程,最小二乘解方程组C语言编程.doc
2021-05-20 13:00

南方战士的博客最小二乘解方程组C语言编程#include#include"math.h"using namespace std;int main(){double **a,*x,*y;int i,j,m,r,u,k,n,*b;double max=0,mid,lx;cout<cin>>u;cout<cin>>m;m=m+1;x=new double[u...
c语言-最小二乘法曲线拟合
2018-12-20 11:30

C语言作为一门功能强大的编程语言，在实现最小二乘法曲线拟合方面也得到了应用。从提供的文件内容中，我们可以提炼出以下知识点： 1. 多项式拟合：在最小二乘法中，多项式拟合是最常见的方法之一。它通过拟合一个...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月5日