Python查看xgb特征重要性输出报错

ValueError: Booster.get_score() results in empty. This maybe caused by having all trees as decision dumps.

import os
import pandas as pd
import xgboost as xgb
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import GridSearchCV
from xgboost import plot_importance
import matplotlib.pyplot as plt
import numpy as np
import docx

dir_path = 'F:/Test/Test/Test/Test/Test'
pre_path = 'F:/Test/Test/Test/Test/Test/Pre'
excel_files = [os.path.join(dp, f) for dp, dn, filenames in os.walk(dir_path) for f in filenames if f.endswith('.xlsx')]

# 创建结果文档
result_doc = docx.Document()

for file in excel_files:
    xls = pd.ExcelFile(file)
    df_old = pd.DataFrame()
    mse = pd.DataFrame()
    mae = pd.DataFrame()
    r2 = pd.DataFrame()
    y_pred = pd.DataFrame()
    for sheet_index, sheet_name in enumerate(xls.sheet_names):
        df = pd.read_excel(xls, sheet_name=sheet_name)
        df = df.sort_values(by='日期')
        testing_cutoff = int(0.75 * len(df))
        train_df, test_df = df[:testing_cutoff], df[testing_cutoff:]
        x_train, y_train = train_df.iloc[:, 6:21], train_df.iloc[:, 21]
        x_test, y_test = test_df.iloc[:, 6:21], test_df.iloc[:, 21]

        if sheet_index == 0:
            df = pd.read_excel(xls, sheet_name=sheet_name)
            df = df.sort_values(by='日期')
            testing_cutoff = int(0.75 * len(df))
            train_df, test_df = df[:testing_cutoff], df[testing_cutoff:]
            x_train, y_train = train_df.iloc[:, 6:21], train_df.iloc[:, 21]
            x_test, y_test = test_df.iloc[:, 6:21], test_df.iloc[:, 21]
            # 超参数调整
            params = {
                'learning_rate': [0.01, 0.05, 0.1, 0.2, 0.3],
                'max_depth': [3, 4, 5, 6, 7],
                'n_estimators': [50, 100, 150, 200, 250],
                'gamma': [0, 0.01, 0.05, 0.1, 0.2],
            }
            xgb_model = xgb.XGBRegressor(objective='reg:squarederror', booster='gbtree')
            grid_search = GridSearchCV(xgb_model, params, scoring='neg_mean_squared_error', cv=5)
            grid_search.fit(x_train, y_train)
            xgb_model = grid_search.best_estimator_
        elif sheet_index < len(xls.sheet_names) - 1:
            df = pd.read_excel(xls, sheet_name=sheet_name)
            df = df.sort_values(by='日期')
            testing_cutoff = int(0.75 * len(df))
            train_df, test_df = df[:testing_cutoff], df[testing_cutoff:]
            x_train, y_train = train_df.iloc[:, 6:21], train_df.iloc[:, 21]
            x_test, y_test = test_df.iloc[:, 6:21], test_df.iloc[:, 21]
            xgb_model.fit(x_train, y_train)
            y_pred = xgb_model.predict(x_test)
            mse = mean_squared_error(y_test, y_pred)
            mae = mean_absolute_error(y_test, y_pred)
            r2 = r2_score(y_test, y_pred)
            df_old = df.copy()
        else:
            df = pd.read_excel(xls, sheet_name=sheet_name)
            df = df.sort_values(by='日期')
            x_p = df.iloc[:, 6:21]
            y_p = xgb_model.predict(x_p)
            # y_p = xgb_model.predict(np.array([x_p]))[0]

            # 保存结果到result.docx
            result_doc.add_paragraph(f"Excel file: {file}")
            result_doc.add_paragraph(f"RMSE: {np.sqrt(mse):.5f}, MAE: {mae:.5f}, R^2: {r2:.5f}")
            result_doc.add_paragraph(f"预测收益率为: rp: {y_p.item():.5f}")
            result_doc.add_paragraph("\n")

            # 保存预测收益率到Excel文件
            pd.DataFrame({'预测收益率': [y_p]}).to_excel(os.path.join(pre_path, f'pr_{os.path.basename(file)}.xlsx'), index=False)

    # 绘制特征重要性并保存为图像
    plot_importance(xgb_model)
    plt.savefig(os.path.join(pre_path, 'image', f'{os.path.basename(file)}.png'))
    plt.close()

# 保存结果文档
result_doc.save(os.path.join(pre_path, 'result.docx'))

print("程序结束")

帮我看看这个问题怎么解决？？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Jiawen9 2023-05-31 20:22
关注
来自于chatgpt：
这个错误是由于使用的XGBoost模型中所有的树都被导出为决策树的转储文件，导致Booster.get_score()方法返回为空。为了解决这个问题，你可以尝试以下几种方法：
使用Booster.get_fscore()方法替代Booster.get_score()：get_fscore()方法是用于获取特征重要性的方法，它不依赖于树的转储文件，因此可以避免出现空结果的问题。
确保模型中包含了树的转储文件：在训练XGBoost模型时，通过设置dump_model参数为一个非空的路径，可以将模型的树导出为转储文件。确保这些文件存在并且包含有效的树信息。
检查模型的参数设置：请确保在训练模型时使用了正确的参数设置。特别是，检查booster参数是否正确设置为gbtree，以确保使用了基于树的模型。
如果尝试了上述方法后仍然遇到问题，可能需要进一步检查代码和数据，以确保没有其他潜在的错误。另外，确保你使用的是最新版本的XGBoost库，可以从官方文档获取更多信息和示例代码来解决该问题。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python面部表情分析py-feat报错 python
2022-12-28 22:10

回答 2 已采纳这个跟修改文件名称没关系，你看看download_url(url,...)中url的值是多少，是不是无法访问下载。
随机森林比xgb性能好 r语言决策树随机森林
2023-01-15 11:01

回答 3 已采纳望采纳！！！点击回答右侧采纳即可！！可能是样本量太少导致的，因为样本量越少，模型的泛化能力越差，容易出现过拟合现象。另外，数据集的误差也可能是原因之一，因为误差越大，模型的泛化能力也会受到影响。要让X
python绘制的ROC曲线与结果不符 python 分类机器学习
2023-03-16 21:13

回答 9 已采纳该回答引用chatGpt根据您提供的信息，所有评价指标都为1，但是ROC曲线不符合预期，这表明评价指标的结果可能不正确。有以下几个问题需要检查和调整：对于多类别问题，需要使用label_binari
Python特征工程
2021-08-12 18:00

thisissally的博客将数据转换为能更好地表示潜在问题的特征，从而提高机器学习的性能二、内容缺失：加入先验知识异常：清除噪声集中：数据集中（归一化、标准化）、变量集中（特征筛选、降维）有价值：数据有价值（数据分桶）、...
python 循环创建多个字典 python
2021-12-04 16:57

回答 1 已采纳 a = ['oc2P70Ph14EBiLrX3jI-c138f4tg', 'oc2P70Gt9duc-1Km4WE4FbxUsHpU', 'oc2P70MfrRM5lYRVI1d1fthWh3qM'
使用其他模型预测结果没报错但使用xgboost却报错了Invalid missing value python sklearn 有问必答机器学习
2021-10-31 01:56

回答 3 已采纳 xgboost最后一个参数missing删了就行
Python中XGBoost库Param使用问题。 python
2020-09-03 20:33

回答 2 已采纳 https://www.cnblogs.com/pinard/p/11114748.html
时间序列预测模型实战案例(四)(Xgboost)(Python)(机器学习)图解机制原理实现时间序列预测和分类(附一键运行代码资源下载和代码讲解)
2023-09-25 13:58

Snu77的博客在本次实战案例中基于Python和机器学习来实现Xgboost完成时间序列预测和时间序列分类任务。Xgboost是一种强大的梯度提升树算法，其采用贪心算法来求得最优解，适用于各种机器学习任务，它最初主要用于解决分类问题，...
这一段的print无法输出最优结果，为什么，怎么改 python
2022-09-07 10:57

回答 6 已采纳这是个函数定义，你调用函数了么？
matlab（请教下这种报错该怎么处理） matlab
2022-04-03 20:23

回答 1 已采纳先检查路径是否存在错误，比如斜杠是否经过转义等然后检查使用的函数或者方法是否能够处理当前类型的文件，如果不能则换一种读取函数。
Classification metrics can't handle a mix of continuous and multiclass targets python
2022-04-02 21:52

回答 1 已采纳这里感觉是y_test, test_result的类型不一致，之前fit时y_train已转为'int'类型，因此test_result也为'int'类型，而y_test大概不是'int'类型。建议可
Linux运行xgboost训练报错,资源 | XGBoost 中文文档开放：上去就是一把梭
2021-05-11 17:10

weixin_39892842的博客然后, 安装相关的编程语言软件包（例如. Python 软件包）。重要提示：最新版本的 xgboost 使用子模块来维护软件包, 所以当你 clone repo 时, 记得按如下方式使用递归选项。 git clone--recursive ...
训练集和测试集上多个模型ROC大小排序不一致 r语言支持向量机随机森林
2023-01-13 13:17

回答 1 已采纳你用的平台是什么平台
ML之Tree：树类模型的简介、决策树模型常见分类(CART、ID3、C4.5)、【数值型】特征中“离散型”特征和“连续型”特征的处理区别、树类模型处理【类别型】特征的两种策略及其代码实战
2023-05-12 00:53

一个处女座的程序猿的博客 ML之Tree：树类模型的简介、决策树模型常见分类(CART、ID3、C4.5)、【数值型】特征中“离散型”特征和“连续型”特征的处理区别、树类模型处理【类别型】特征的两种策略及其代码实战目录相关文章树类模型...
Python数据分析高薪实战第十二天网络服务用户流失预测分析和国产电视剧评分预测分析
2022-05-05 11:04

办公模板库素材蛙的博客绝大多数互联网公司都面临一个非常重要的问题：用户流失问题。随着互联网和移动互联网的充分发展，发展新用户（也就是一般所说的拉新）的成本越来越高，往往要几块或者几十块的成本才能发展出一个新用户。但如果...
python人工智能算法的方式_这是一篇关于如何成为一名AI算法工程师的长文
2020-11-24 12:39

weixin_39995943的博客来看看你距离成为一名 AI 工程师还有多远吧~⭐具体内容：我是因为什么开始接触敲代码人工智能/机器学习/深度学习自学如何寻找学习资料如何选择编程语言/框架校招/社招/实习/面试经验一碗鸡汤⭐声明：本篇内容均属于...
深度分析|《电信用户流失预测模型》(所有分类模型精度平均得分在0.8以上)
2020-06-03 20:48

猫有九条命*的博客本文对于老手，今后处理“分类问题”有借鉴意义。啥分类模型都碰瓷一遍，选得分最高的模型。本文对于新手，是刻意练习python数据分析的不二选择。同一份数据，反复操练，以培养python代码的肌肉记忆
如何成为一名AI人工智能算法工程师？
2019-06-30 12:25

喜欢打酱油的老鸟的博客经常有朋友私信问，如何学python呀，如何敲代码呀，如何进入AI行业呀？正好回头看看自己这一年走过的路，进行一次经验总结。来看看你距离成为一名AI工程师还有多远吧~ ⭐具体内容：我是因为什么开始接触敲...
这是一篇关于如何成为一名AI算法工程师的长文
2019-06-25 09:08

Datawhale的博客点击上方“Datawhale”，选择“星标”公众号第一时间获取价值内容这是一篇关于如何成为一名AI算法工程师的长文~经常有朋友私信问，如何学python呀，如何敲代码呀，...
Python 实用技巧
2017-07-19 16:01

weixin_30715523的博客 1. 和时间有关的函数和用法　1.... 　import time ...　2....　3....　4....　5....这是一种完全独立于编程语言的数据交换格式，而且由于 JavaScipt 中，任何数据都是对象，因此 Json 表示的值可以是数值、...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月31日

悬赏问题

¥15 CPU卡指令整合指令数据都在图片上
¥15 火车票关联12306问题
¥15 odoo17处理受托加工产品
¥15 如何用MATLAB编码图三的积分
¥15 圆孔衍射光强随孔径变化
¥15 MacBook pro m3max上用vscode运行c语言没有反应
¥15 ESP-PROG配置错误，ALL ONES
¥15 结构功能耦合指标计算
¥50 AI大模型精调（百度千帆、飞浆）
¥15 非科班怎么跑代码？如何导数据和调参

Python查看xgb特征重要性输出报错

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新