偏最小二乘法回归的Python代码看不懂，有大佬可以帮忙解释一下吗？

{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [],
"source": [
"#basic module\n",
"import warnings\n",
"warnings.filterwarnings('ignore')\n",
"from sklearn import preprocessing\n",
"from sklearn import metrics\n",
"from sklearn.decomposition import PCA \n",
"import numpy as np\n",
"import pandas as pd"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"

\n",
"\n", " .dataframe tbody tr th:only-of-type {\n", " vertical-align: middle;\n", " }\n", "\n", " .dataframe tbody tr th {\n", " vertical-align: top;\n", " }\n", "\n", " .dataframe thead th {\n", " text-align: right;\n", " }\n", "\n",
"\n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
" \n",
"

	Q41	Q42	Q43	Q44	Q45	Q46	Q47	Q48	Q49	Q410	Q411	Q412	Q413	Q414	A1	A2	A3
0	3	3	3	3	3	4	5	5	5	5	3	3	3	3	-1.61	1.91	-1.06
1	4	4	4	4	4	2	2	2	2	5	5	2	2	2	1.29	-2.49	-0.99
2	4	4	4	4	4	5	5	5	5	5	3	3	3	3	-0.04	1.89	-1.29
3	4	4	4	4	4	5	5	5	5	5	3	3	3	3	-0.04	1.89	-1.29
4	4	4	4	4	3	5	5	5	3	3	3	4	4	3	-0.23	0.77	-0.60

\n",
"

"
],
"text/plain": [
" Q41 Q42 Q43 Q44 Q45 Q46 Q47 Q48 Q49 Q410 Q411 Q412 Q413 Q414 \\n",
"0 3 3 3 3 3 4 5 5 5 5 3 3 3 3 \n",
"1 4 4 4 4 4 2 2 2 2 5 5 2 2 2 \n",
"2 4 4 4 4 4 5 5 5 5 5 3 3 3 3 \n",
"3 4 4 4 4 4 5 5 5 5 5 3 3 3 3 \n",
"4 4 4 4 4 3 5 5 5 3 3 3 4 4 3 \n",
"\n",
" A1 A2 A3 \n",
"0 -1.61 1.91 -1.06 \n",
"1 1.29 -2.49 -0.99 \n",
"2 -0.04 1.89 -1.29 \n",
"3 -0.04 1.89 -1.29 \n",
"4 -0.23 0.77 -0.60 "
]
},
"execution_count": 2,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"raw_data = pd.read_csv(\"257 928.csv\").loc[:,['Q41','Q42','Q43','Q44','Q45',\n",
" 'Q46','Q47','Q48','Q49','Q410',\n",
" 'Q411','Q412','Q413','Q414',\n",
" 'A1','A2','A3']]\n",
"raw_data.head()"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Index(['Q41', 'Q42', 'Q43', 'Q44', 'Q45', 'Q46', 'Q47', 'Q48', 'Q49', 'Q410',\n",
" 'Q411', 'Q412', 'Q413', 'Q414', 'A1', 'A2', 'A3'],\n",
" dtype='object')"
]
},
"execution_count": 3,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"raw_data.columns"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [],
"source": [
"def linear_model(X,w):\n",
" ,loop = np.shape(X)\n",
" sum = 0\n",
" for i in range(loop):\n",
" sum += w[i] * X[:,i]\n",
" return sum"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [],
"source": [
"def loss_function(x_train, y_train, w):\n",
" X = x_train\n",
" Y_pred = linear_model(X,w)\n",
" J = metrics.mean_squared_error(y_train, Y_pred)\n",
" return J"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [],
"source": [
"def model(x_train, y_train, mini=1e-10, alpha=0.001, delta = 0.005, max_iter = 100, max_step = 5000): \n",
" step = 0\n",
" _,loop = np.shape(x_train)\n",
" w = np.random.rand(loop)\n",
" while(True):\n",
" weights = np.array(w)\n",
" for i in range(0, len(w)):\n",
" step = 0\n",
" while (True):\n",
" # simplified gradient descent\n",
" w_backup = w[i] \n",
" loss_present = loss_function(x_train, y_train, w)\n",
" w[i] = w_backup + delta\n",
" loss_plus = loss_function(x_train, y_train, w)\n",
" w[i] = w_backup - delta\n",
" loss_sub = loss_function(x_train, y_train, w)\n",
" if (loss_present < loss_plus and loss_present < loss_sub) or step_ >= max_step:\n",
" break\n",
" # update weights\n",
" w[i] = w_backup - alpha*(loss_plus - loss_sub)/(2*delta)\n",
" #w[i] = w_backup + alpha if loss_plus < loss_sub else w_backup - alpha\n",
" step_ += 1\n",
" offset = np.sum(np.square(np.array(w) - weights))\n",
" # end condition\n",
" step += 1\n",
" if (offset < mini) or (step >= max_iter):\n",
" break\n",
" return w, loss_present"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [],
"source": [
"def obtain_elements(x_data, y_data, num):\n",
" comp_list = []\n",
" metric_list = []\n",
" w_list = []\n",
" pca_list = []\n",
" for comp in range(num):\n",
" n_comp = comp + 1\n",
" # pca\n",
" comp_list.append(n_comp)\n",
" pca = PCA(n_components=n_comp,svd_solver='auto')\n",
" X_ = x_data - np.mean(x_data)\n",
" pca.fit(X_, y_data)\n",
" X = pca.transform(X_)\n",
" # linear reg\n",
" pca_list.append(pca)\n",
" w, metric = model(X, y_data )\n",
" w_list.append(w)\n",
" metric_list.append(metric)\n",
" ind = metric_list.index(min(metric_list))\n",
" print(\"metrics :\" ,metric_list)\n",
" return comp_list[ind], pca_list[ind], w_list[ind]"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [],
"source": [
"# 第一组\n",
"x1_data = raw_data.loc[:,['Q41','Q42','Q43','Q44','Q45']]\n",
"y1_data = raw_data.loc[:,['A2']]\n",
"len1 = 5\n",
"# 第二组\n",
"x2_data = raw_data.loc[:,['Q46','Q47','Q48','Q49','Q410']]\n",
"y2_data = raw_data.loc[:,['A1']]\n",
"len2 = 5\n",
"# 第三组\n",
"x3_data = raw_data.loc[:,['Q411','Q412','Q413','Q414']]\n",
"y3_data = raw_data.loc[:,['A3']]\n",
"len3 = 4"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# 计算PLSR"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
" 第一组"
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"metrics : [0.937338177736278, 0.90366935147199, 0.9036905658620544, 0.9028029958313659, 0.9022534567720741]\n",
"第一组的主成分保留5个\n",
"回归系数为： [-0.17477811 0.25885742 -0.01157531 -0.07843881 0.06077944]\n"
]
}
],
"source": [
"comp_1, pca_1, w1 = obtain_elements(x1_data, y1_data, len1)\n",
"print(\"第一组的主成分保留%d个\"%comp_1)\n",
"print(\"回归系数为：\", w1)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
" 第二组"
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"metrics : [0.9216669179495057, 0.9126959565507735, 0.900633447790304, 0.8930927646735571, 0.8824868647839249]\n",
"第二组的主成分保留5个\n",
"回归系数为： [-0.19525742 -0.14575206 -0.20305816 -0.17987887 -0.22941539]\n"
]
}
],
"source": [
"comp_2, pca_2, w2 = obtain_elements(x2_data, y2_data, len2)\n",
"print(\"第二组的主成分保留%d个\"%comp_2)\n",
"print(\"回归系数为：\", w2)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
" 第三组"
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"metrics : [0.07356179930507709, 0.06803873635782488, 0.06747567528450515, 0.06722983639980304]\n",
"第三组的主成分保留4个\n",
"回归系数为： [-0.67029064 -0.10083604 0.0447786 -0.04806739]\n"
]
}
],
"source": [
"comp_3, pca_3, w3 = obtain_elements(x3_data, y3_data, len3)\n",
"print(\"第三组的主成分保留%d个\"%comp_3)\n",
"print(\"回归系数为：\", w3)"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.7.4"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
蔡能教授，网站特聘专家 2019-10-07 09:33
关注
https://download.csdn.net/download/hybing92/10176200

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

matlab改为python,偏最小二乘回归分析的一个程序 matlab python 最小二乘法有问必答
2021-10-28 09:10

回答 1 已采纳你把matlab的矩阵用python的numpy包包就行。 import numpy as np a = np.zeros([n,n]) for i in range(1,n+1): a[i-
VScode中Python代码不高亮显示？？ python vscode 有问必答
2022-04-10 22:05

回答 2 已采纳安装这两个插件然后设置颜色主题或者你也可以安装其它你喜欢的然后颜色主题插件
那位大佬帮忙看看这段代码，python小白 python
2019-07-16 21:56

回答 2 已采纳 self.spiderMan = self.createDict() 不要括号
【Python数据分析与可视化】期末复习笔记整理（不挂科）
2021-12-13 17:04

chaser&upper的博客【Python数据分析与可视化】期末复习笔记3. NumPy数值计算基础忘了的函数ndarray 对象属性和数据转换4. Pandas统计分析 3. NumPy数值计算基础忘了的函数 linspace(start, end, count)：创建等差数列 logspace...
用Python3.9不兼容Python3.8或者3.7吗？ python
2021-10-18 12:25

回答 2 已采纳最新版的Python3.9程序在 win7 上运行是有些问题。不过图中的这个错误明显是没有找到驱动呀，找找你的 IE 驱动到底在哪。另外删除线是提示某个函数即将被弃用，这个与Python版本其实没什
最小二乘法如何解决直线垂直于X轴的问题？ python 最小二乘法算法
2022-08-20 18:05

回答 1 已采纳你可以参考下这篇文章：线性最小二乘法与非线性最小二乘法
Python能做probit模型吗？ python
2022-05-01 21:54

回答 1 已采纳 python可以做probithttps://www.cnpython.com/qa/212857https://wenku.baidu.com/view/1bdfdf34cf7931b765ce05
盘点两种使用Python读取.nc文件的方法
2022-01-17 09:00

Python进阶者的博客点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤啼时惊妾梦，不得到辽西。大家好，我是Python进阶者。前言...
求解！python可以处理Mac OS的Numbers表格吗？ python
2020-12-30 21:13

回答 2 已采纳 numbers可以export成csv，然后用pandas就可以导入成DataFrame了，再转numpy啥的就是各展神通了
python里的range函数里面可以是变量吗？ python
2021-03-22 21:50

回答 3 已采纳 range里面可以是变量. 但是用上面的方法循环的时候range(num)并不变化, 可以通过list.append()的方法, 不断的增加num里面的数据,试试: num=10 lis_num
请问大佬们，用python二分查找，我这样写有问题吗？ python
2018-10-05 09:34

回答 2 已采纳不知道你要查找的是数据在排序后数组的位置还是排序前的，如果是排序后的就是正确的。（话说为何不用内置函数index()？用python列表类比C数组有些怪怪的hhh）代码最大的问题大概是没有考虑函数
一文速览机器学习的类别（Python代码）
2021-09-02 18:22

AI科技大本营的博客作者：泳鱼来源：算法进阶机器学习按照学习数据经验的不同，即训练数据的标签信息的差异，可以分为：*监督学习（supervised learning）*非监督学习（unsupervised l...
我用python搭建游戏为什么黑屏有一个解决方案吗?各位大佬 python
2019-07-20 19:10

回答 2 已采纳别人的代码能正常运行吗？如果是的话，还是要仔细比对一下区别。找个文本比对工具比对一下。
【点云、图像】学习中常见的数学知识及其中的关系与python实战[完]
2024-01-16 00:31

荒野火狐的博客平均值，方差，协方差，奇异值分解，主成分分析法，最小二乘法详解
NNDL 实验三线性回归
2022-09-14 23:08

别被打脸的博客这次实验我感觉思想是十分重要的，之前学机器学习的时候老师给我说，如果你学一个算法只会照着搭，但是不明白思想，不明白啥意思，这不是很可悲的吗?所以我每个代码段都写了思想，也写了注意事项，所以写了真不少，...
没有解决我的问题, 去提问

悬赏问题

¥30 python代码，帮调试
¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条

偏最小二乘法回归的Python代码看不懂，有大佬可以帮忙解释一下吗？

1条回答 默认 最新

悬赏问题

1条回答默认最新