氨氧化法硝酸生产过程数据的回归分析任务

问题遇到的现象和发生背景

回归分析任务
任务 1
数据（文件regres.txt）(数据见下面代码块)代表了21天内对氨氧化法硝酸生产过程的四个参数的测量。
氨氧化法的硝酸生产过程的四个参数。
X(1) - （air speed）空气速度。
X(2)-（ temperature of the cooled liquid）是冷却后的液体温度。
X(3)-（acid concentration）酸浓度。
X(4) - （loss of ammonia）氨的损失。
变量X(4)是因变量，变量X(1)、X(2)X(3)是独立变量。
1 确定哪些自变量是高度相关的。
2. 确定哪些自变量与因变量高度相关。
3. 建立一个多元线性回归方程，确定哪些自变量是显著的。
4. 使用逐步回归法，选择有信息的变量。
5.分析残留物。
6.构建因变量的预测，将第4天的数值作为自变量的数值。
任务2

1.建立岭回归模型（Ridge Regression Model）
2. 建立拉索回归模型（ Lasso Regression Model）
3. 构建每个模型的因变量预测，将第四天的数值作为自变量。
将第四天的数值作为自变量的数值。

数据（文件regres.txt）

  80.00000   27.00000   89.00000   42.00000 
  80.00000   27.00000   88.00000   37.00000 
  75.00000   25.00000   90.00000   37.00000 
  62.00000   24.00000   87.00000   28.00000 
  62.00000   22.00000   87.00000   18.00000 
  62.00000   23.00000   87.00000   18.00000 
  62.00000   24.00000   93.00000   19.00000 
  62.00000   24.00000   93.00000   20.00000 
  58.00000   23.00000   87.00000   15.00000 
  58.00000   18.00000   80.00000   14.00000 
  58.00000   18.00000   89.00000   14.00000 
  58.00000   17.00000   88.00000   13.00000 
  58.00000   18.00000   82.00000   11.00000 
  58.00000   19.00000   93.00000   12.00000 
  50.00000   18.00000   89.00000    8.00000 
  50.00000   18.00000   86.00000    7.00000 
  50.00000   19.00000   72.00000    8.00000 
  50.00000   19.00000   79.00000    8.00000 
  50.00000   20.00000   80.00000    9.00000 
  56.00000   20.00000   82.00000   15.00000 
  70.00000   20.00000   91.00000   15.00000

我想要达到的结果

使用Python和Jupyter notebook编写，完成任务要求，写一下注释

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

7条回答默认最新

社区专家-Monster-XH 2023-02-20 16:50

关注

基于Monster 组和GPT的调写：
任务1

# 导入所需的库
import pandas as pd
import numpy as np
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor

# 读取数据文件
data = pd.read_csv('regres.txt', header=None, delim_whitespace=True,
                   names=['air_speed', 'temp', 'acid_conc', 'loss_ammonia'])
X = data[['air_speed', 'temp', 'acid_conc']]
y = data['loss_ammonia']

# 确定哪些自变量是高度相关的
vif = pd.DataFrame()
vif["VIF Factor"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
vif["features"] = X.columns
print(vif)

# 确定哪些自变量与因变量高度相关
X = sm.add_constant(X)
model = sm.OLS(y, X).fit()
print(model.summary())

# 建立一个多元线性回归方程，确定哪些自变量是显著的
significant_features = ['air_speed', 'temp']
X_significant = X[significant_features]
model_significant = sm.OLS(y, X_significant).fit()
print(model_significant.summary())


# 使用逐步回归法，选择有信息的变量
def backward_elimination(X, y, sig_level=0.05):
    num_features = X.shape[1]
    for i in range(num_features):
        model = sm.OLS(y, X).fit()
        p_values = model.pvalues
        max_p_value = max(p_values)
        if max_p_value > sig_level:
            max_p_value_idx = p_values.idxmax()
            X = X.drop(max_p_value_idx, axis=1)
        else:
            break
    return X


X_backward_elim = backward_elimination(X, y)
model_backward_elim = sm.OLS(y, X_backward_elim).fit()
print(model_backward_elim.summary())

# 分析残留物
residuals = model_backward_elim.resid
print(residuals.describe())

# 构建因变量的预测，将第4天的数值作为自变量的数值
X_predict = [1, 62, 24, 93]
y_predict = model_backward_elim.predict(X_predict)
print(y_predict)

任务2

岭回归模型
Ridge回归模型是线性回归模型的改进版，它添加了L2范数正则化项。岭回归通过对系数进行缩减，降低了过拟合的风险。我们可以使用scikit-learn库的Ridge类来建立岭回归模型。


导入所需的库
import pandas as pd
import numpy as np
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error

读取数据文件
data = pd.read_csv('regres.txt', header=None, delim_whitespace=True, names=['air_speed', 'temp', 'acid_conc', 'loss_ammonia'])
X = data[['air_speed', 'temp', 'acid_conc']]
y = data['loss_ammonia']

将第四天的数据用作自变量
x_pred = X.iloc[3]

建立岭回归模型
ridge = Ridge(alpha=1.0)
ridge.fit(X, y)

使用模型进行预测
y_pred = ridge.predict([x_pred])

输出预测结果
print("预测值：", y_pred[0])

拉索回归模型
Lasso回归模型也是线性回归模型的改进版，它添加了L1范数正则化项。与岭回归相比，Lasso回归可以将某些系数缩减到0，因此可以用于特征选择。我们可以使用scikit-learn库的Lasso类来建立Lasso回归模型。

导入所需的库
import pandas as pd
import numpy as np
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error

读取数据文件
data = pd.read_csv('regres.txt', header=None, delim_whitespace=True, names=['air_speed', 'temp', 'acid_conc', 'loss_ammonia'])
X = data[['air_speed', 'temp', 'acid_conc']]
y = data['loss_ammonia']

将第四天的数据用作自变量
x_pred = X.iloc[3]

建立Lasso回归模型
lasso = Lasso(alpha=1.0)
lasso.fit(X, y)

使用模型进行预测
y_pred = lasso.predict([x_pred])

输出预测结果
print("预测值：", y_pred[0])

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(6条)

报告相同问题？

关注问题

氨氧化法硝酸生产过程数据的回归分析任务 python 数据挖掘机器学习
2023-02-20 16:41

回答 7 已采纳基于Monster 组和GPT的调写：任务1 # 导入所需的库 import pandas as pd import numpy as np import statsmodels.api as sm
为什么P型金属氧化半导体管gate是1时是断开的，而N型金属氧化半导体管gate是1时是连通的？硬件架构
2022-03-11 17:09

回答 1 已采纳这是半导体物理与器件的知识，不知道为啥软件的同学咋还要学这个简单解释一下N型为什么联通，衬底是P型的，gate端施加高电压，吸引电子到栅的底部，形成反型层，为什么叫反型层，因为衬底是positive掺
请问一下右上角的n怎么打出来，请问一下右上角的n怎么打出来， c语言
2022-09-14 00:17

回答 4 已采纳使用latex语法的话，就是^n
新库上线 | CnOpenData中国工业企业绿色专利及引用被引用数据简介
2021-07-30 11:08

CnOpenData的博客中国工业企业绿色专利及引用被引用数据简介改革开放以来，中国工业化迅速发展，但高增长的背后却隐藏着资源浪费、环境恶化等矛盾，在这些环境问题愈发突出的背景下，我国绿色发展新理念开始深入工业发展，近年...
dataframe中，怎样实现old列按照new列名字重新命名，然后把结果放在第三列 python vscode
2022-04-17 11:17

回答 1 已采纳要建一个别名字典，然后apply 替换
React 如何把从服务器拿到的 html 源码编译显示出来 react.js
2021-04-18 18:13

回答 2 已采纳在react中可以使用dangerouslySetInnerHTML来解析，例： let str='<p>三种不同尺寸可选，15W-35W-50W。轨道灯由压铸铝ADC12制成；表面
你想要的宏基因组-微生物组知识全在这(2022.4)
2022-04-01 07:00

刘永鑫Adam的博客宏基因组/微生物组是当今世界科研最热门的研究领域之一，为加强宏基因组学技术和...公众号每日推送，工作日分享宏基因组领域最新成果、科研思路、实验和分析技术，理论过硬实战强；周末科普和生活专栏，轻松读文看...
你想要的宏基因组-微生物组知识全在这(2021.12)
2021-12-01 07:00

刘永鑫Adam的博客北生院王金峰Gut：时序微生物组数据重现生物膜装配的动态过程 PPT+视频西湖大学鞠峰：环境微生物宏基因组学(报告视频+PPT,11月23日) 2020年12月8日中科院刘永鑫报告：宏基因组数据分析的机遇与挑战扩增子和宏基因...
你想要的宏基因组-微生物组知识全在这(2023.3)
2023-03-02 07:00

刘永鑫Adam的博客宏基因组/微生物组是当今世界科研最热门的研究领域之一，为...公众号每日推送，工作日分享宏基因组领域最新成果、科研思路、实验和分析技术，理论过硬实战强；周末科普和生活专栏，轻松读文看片涨姿势。目前分享3000...
你想要的宏基因组-微生物组知识全在这(2022.5)
2022-05-01 07:00

刘永鑫Adam的博客宏基因组/微生物组是当今世界科研最热门的研究领域之一，为加强宏基因组学技术和...公众号每日推送，工作日分享宏基因组领域最新成果、科研思路、实验和分析技术，理论过硬实战强；周末科普和生活专栏，轻松读文看...
你想要的宏基因组-微生物组知识全在这(2022.8)
2022-08-01 09:00

刘永鑫Adam的博客宏基因组/微生物组是当今世界科研最热门的研究领域之一，为加强宏基因组学技术和...公众号每日推送，工作日分享宏基因组领域最新成果、科研思路、实验和分析技术，理论过硬实战强；周末科普和生活专栏，轻松读文看...
你想要的宏基因组-微生物组知识全在这(2020.03)
2020-02-29 12:47

刘永鑫Adam的博客文章目录征稿、转载、合作文章分类导航目录精选文章推荐会议、招聘广告科研经验软件流程扩增子分析扩增子教程QIIME 2最新教程中文(2019.7)易生信-扩增子教程Webserver在线分析平台相关软件和数据库教程宏基因组分析...
你想要的宏基因组-微生物组知识全在这(2022.2)
2022-02-11 07:00

刘永鑫Adam的博客北生院王金峰Gut：时序微生物组数据重现生物膜装配的动态过程 PPT+视频西湖大学鞠峰：环境微生物宏基因组学(报告视频+PPT,11月23日) 2020年12月8日中科院刘永鑫报告：宏基因组数据分析的机遇与挑战扩增子和宏基因...
你想要的宏基因组-微生物组知识全在这(2022.1)
2022-01-01 07:00

刘永鑫Adam的博客北生院王金峰Gut：时序微生物组数据重现生物膜装配的动态过程 PPT+视频西湖大学鞠峰：环境微生物宏基因组学(报告视频+PPT,11月23日) 2020年12月8日中科院刘永鑫报告：宏基因组数据分析的机遇与挑战扩增子和宏基因...
你想要的宏基因组-微生物组知识全在这(2020.7)
2020-07-01 07:00

刘永鑫Adam的博客价值130欧元的《微生物组分析Microbiome Analysis》2018版电子书价值1143元的《R语言统计分析微生物组数据》系列图书微生物组领域近十年最重要的8个软件或算法扩增子教程扩增子16S分析专题研讨论会——背景介绍 ...
你想要的宏基因组-微生物组知识全在这(2021.8)
2021-08-02 07:00

刘永鑫Adam的博客北生院王金峰Gut：时序微生物组数据重现生物膜装配的动态过程 PPT+视频西湖大学鞠峰：环境微生物宏基因组学(报告视频+PPT,11月23日) 2020年12月8日中科院刘永鑫报告：宏基因组数据分析的机遇与挑战扩增子和宏基因...
你想要的宏基因组-微生物组知识全在这(2021.3)
2021-03-03 15:01

刘永鑫Adam的博客培训会议 3月19-21日，nanopore宏基因组测序数据分析,北京,11月7-9日 4月9-11日，微生物组-扩增子16S分析第11期 4月17-19日，高级转录组分析和R语言数据可视化第12期 5月7-9日，微生物组-宏基因组分析第11期上传...
mSystems：土壤化学计量特性影响土壤C、N和P循环微生物丰度及其对全球变化的抵抗力(一作解读)...
2021-07-25 07:00

刘永鑫Adam的博客功能基因主要参与以下功能：氨氧化（AOA和AOB 基因）、固氮（nifH）、反硝化（nirK、nirS、nosZ和norB基因）、硝酸盐还原菌（narG）、纤维素降解（fungcbhIR 和GH74基因）、淀粉降解（GH31）、木聚糖降解（GH51）...
宏基因组公众号4年精华文章目录，收藏贴(2021.1更新)
2021-01-01 07:00

刘永鑫Adam的博客扩增子分析价值130欧元的《微生物组分析Microbiome Analysis》2018版电子书价值1143元的《R语言统计分析微生物组数据》系列图书再读《数量生态学：R语言应用》微生物组领域近十年最重要的8个软件或算法扩增子...
你想要的宏基因组-微生物组知识全在这(2020.11)
2020-11-05 07:00

刘永鑫Adam的博客 lab 易生信-宏基因组积微学术论坛 ISME：基于大数据整合准确预测土壤的枯萎病发生-袁军/文涛 Gut：时序微生物组数据重现生物膜装配的动态过程精选文章推荐 10000+ 刘永鑫：想学菌群生物信息分析-21分钟带你入门 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月20日

悬赏问题

¥15 微信会员卡等级和折扣规则
¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
¥15 随身WiFi网络灯亮但是没有网络，如何解决？
¥15 gdf格式的脑电数据如何处理matlab
¥20 重新写的代码替换了之后运行hbuliderx就这样了
¥100 监控抖音用户作品更新可以微信公众号提醒
¥15 UE5 如何可以不渲染HDRIBackdrop背景
¥70 2048小游戏毕设项目
¥20 mysql架构，按照姓名分表
¥15 MATLAB实现区间[a,b]上的Gauss-Legendre积分