Python多元线性回归模型，结果报错

import pandas as pd
import statsmodels.api as sm
import os
from sklearn import model_selection

Profit = pd.read_csv(r'D:\Desktop\one\forestfires.csv')
pd.set_option('display.max_rows', None)
Profit.set_index(["num"], inplace=True)
# 清除序列号
Profit = Profit[Profit.Area > 0]
s = str(Profit)
lst = s.split('\n')
# 将数据集转换为字符串，并以换行符分割。
d = {}
for i in lst:
    if i in d:
        d[i] = d.get(i, 0) + 1
    else:
        d[i] = 1
# 将字符串转换为字典，得到重复出现项的次数。
lst1 = list(d.keys())
lst2 = list(d.values())
# 字典变成字符串。
lst3 = list()
lst4 = list()
for i in lst1:
    lst3 = i.split('  ')
    lst4.append(lst3)
del lst4[0]
del lst4[0]
del lst2[0]
del lst2[0]
# 清除转换过程产生的无用项
data1 = pd.DataFrame(lst4)
data2 = pd.DataFrame(lst2)
data3 = pd.concat([data1, data2], axis=1)
data3.columns = list('abcdefgh')
data3 = data3.drop(["a", "b","g"], axis=1)
# 清除无用项
train, test = model_selection.train_test_split(data3, test_size=0.2, random_state=4)
# 根据train数据集建模
model = sm.formula.ols('h~c+d+e+f', data=train).fit()
print('模型的偏回归系数分别为：\n', model.params)
# 删除test数据集中的Profit变量，用剩下的自变量进行预测
test_X = test.drop(labels='h', axis=1)
pred = model.predict(exog=test_X)
print('对比预测值和实际值的差异：\n', pd.DataFrame({'Prediction': pred, 'Real': test.h}))

报错：

Traceback (most recent call last):
  File "D:\Desktop\one\venv\lib\site-packages\patsy\categorical.py", line 346, in categorical_to_int
    out[i] = level_to_int[value]
KeyError: '20.4'

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "D:\Desktop\one\venv\lib\site-packages\statsmodels\base\model.py", line 1077, in predict
    exog = dmatrix(design_info, exog, return_type="dataframe")
  File "D:\Desktop\one\venv\lib\site-packages\patsy\highlevel.py", line 290, in dmatrix
    (lhs, rhs) = _do_highlevel_design(formula_like, data, eval_env,
  File "D:\Desktop\one\venv\lib\site-packages\patsy\highlevel.py", line 167, in _do_highlevel_design
    return build_design_matrices(design_infos, data,
  File "D:\Desktop\one\venv\lib\site-packages\patsy\build.py", line 888, in build_design_matrices
    value, is_NA = _eval_factor(factor_info, data, NA_action)
  File "D:\Desktop\one\venv\lib\site-packages\patsy\build.py", line 84, in _eval_factor
    result = categorical_to_int(result, factor_info.categories, NA_action,
  File "D:\Desktop\one\venv\lib\site-packages\patsy\categorical.py", line 359, in categorical_to_int
    raise PatsyError("Error converting data to categorical: "
patsy.PatsyError: Error converting data to categorical: observation with value '20.4' does not match any of the expected levels (expected: [' 0.1', ' 0.2', ..., '30.7', '32.5'])
    h~c+d+e+f
      ^

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "D:/Desktop/one/thenext.py", line 46, in <module>
    pred = model.predict(exog=test_X)
  File "D:\Desktop\one\venv\lib\site-packages\statsmodels\base\model.py", line 1084, in predict
    raise exc.__class__(msg)
patsy.PatsyError: predict requires that you use a DataFrame when predicting from a model
that was created using the formula api.

The original error message returned by patsy is:
Error converting data to categorical: observation with value '20.4' does not match any of the expected levels (expected: [' 0.1', ' 0.2', ..., '30.7', '32.5'])
    h~c+d+e+f
      ^

部分结果：

模型的偏回归系数分别为：
 Intercept     5.736380
c[T. 0.2]    -0.684095
c[T. 3.1]    -0.934095
c[T. 4.0]    -0.434095
c[T. 4.7]    -0.934095
c[T. 5.7]    -0.434095
c[T. 7.7]    -0.434095
c[T. 8.8]    -0.578793
c[T. 9.2]    -0.434095
c[T.11.1]    -0.434095
c[T.12.2]    -0.289397
c[T.12.4]    -0.289397
c[T.12.7]    -0.289397
c[T.13.2]     0.099492
c[T.14.4]    -0.233841
c[T.15.1]     0.099492
c[T.15.3]    -0.113289
c[T.15.4]     0.065905
c[T.15.6]     0.119391
c[T.15.7]    -0.113289

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有问必答小助手 2021-07-14 14:06
关注
你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答

本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为您补发到账户。

因为有问必答VIP体验卡有效期仅有1天，您在需要使用的时候【私信】联系我，我会为您补发。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python-实现多元回归及预测
2021-05-20 14:48

机智的小陈今天学习了吗的博客 1.实现一元（或多元）线性回归 a. 根据对客观现象的定性认识初步判断现象之间的相关性（略） b. 绘制散点图 c. 进行回归分析，拟合出回归模型 d. 对回归模型进行检验—计算相关系数、异方差检验 e. 进行回归预测 ...
线性回归梯度下降原理与基于Python的底层代码实现
2023-03-21 13:05

专注算法的马里奥学长的博客梯度下降是一种常用的优化算法，可以用来求解许包括线性回归在内的许多机器学习中的问题。
Python实现机器学习--实现多元线性回归
2017-11-10 23:52

WYN的养生之道的博客原博客：http://blog.csdn.net/lulei1217/article/details/49386295 接着上一次的一元线性回归http://blog.csdn.net/lulei1217/article/details/49385531往...1、什么是多元线性回归模型？当y值
python sklearn 线性回归报错_手写算法-Python代码实现非线性回归
2021-01-28 18:49

cleaniss的博客生成非线性数据集前面我们介绍了Python代码实现线性回归，今天，我们来聊一聊当数据呈现非线性时，这时我们继续用线性表达式去拟合，显然效果会很差，那我们该怎么处理？继续上实例(我们的代码里用到的数据集尽量...
用python求解多元线性回归方程的权重和残差
2020-04-24 18:40

xueli_123456的博客原来就是求三元线性回归的残差啊，害，这有什么难的，妹妹就是不会算权重，一直在网上寻找已经算好权重的数据，为此特意开通了什么会员，咱也不知道咱也不敢问。于是乎，利用自己所学的python，写下了这个程序。 ...
python多元非线性拟合csdn_手写算法-Python代码实现非线性回归
2020-12-08 14:28

weixin_39978749的博客生成非线性数据集前面我们介绍了Python代码实现线性回归，今天，我们来聊一聊当数据呈现非线性时，这时我们继续用线性表达式去拟合，显然效果会很差，那我们该怎么处理？继续上实例(我们的代码里用到的数据集尽量...
一文带你用Python玩转线性回归模型《加利福尼亚房价预测》回归模型评估指标介绍
2021-09-14 19:22

报告，今天也有好好学习的博客这一篇文章，我会详细介绍如何利用Python来实现线性回归以及线性回归的实战模拟，以及回归模型的评估指标的详细介绍，感兴趣的朋友可以看一看。目录前言1 线性回归的Scikit-learn实现1.1 导入模块后开始下载数据1.2...
通过房价预测简要介绍十种线性回归算法及python实现
2023-10-24 14:21

小知识猿的博客线性回归是机器学习中最简单的算法，它可以进行不同的训练。在本笔记本中，我们将介绍以下线性算法：线性回归稳健回归山脊回归 LASSO回归弹性网多项式回归随机梯度下降法人工神经网络随机森林回归器支持...
最新波士顿房价预测多元线性回归模型代码（最小二乘，岭回归，Lasso）及其数据集
2023-05-04 22:46

_小豫的博客大家可以发现，网上大部分找的代码会运行报错，这是更新后的代码。最近机器学习的实验课要求做这个，本来是让GPT写，或者找别人的代码搬运过来，结果发现这个波士顿的数据集在sklearn更新中被删除了。故就自己学着写...
【机器学习笔记1】一元线性回归模型及预测
2022-07-28 17:05

Twilight Sparkle.的博客一元线性回归、代价函数、梯度下降算法、样例（含数据）及代码
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月9日

Python多元线性回归模型，结果报错

1条回答 默认 最新

问题事件

1条回答默认最新