lightgbm调用模型pkl，出现需要先调用拟合？

问题遇到的现象和发生背景

joblib调用模型，预测数据时出现raise LGBMNotFittedError("Estimator not fitted, call fit before exploiting the model.")
sklearn.exceptions.NotFittedError: Estimator not fitted, call fit before exploiting the model.

用代码块功能插入代码，请勿粘贴截图

import numpy as np
import pandas as pd
import os
import collections
import lightgbm as lgb
import graphviz
import joblib
from lightgbm import LGBMClassifier
from tools import globalTool as gt
from sklearn.metrics import accuracy_score, confusion_matrix, cohen_kappa_score, f1_score, precision_score, recall_score, precision_recall_fscore_support
from sklearn.model_selection import train_test_split, KFold

class model:
    def __init__(self, f_path):
        print(f_path)
        self.data = None
        self.x_train = None
        self.x_test = None
        self.y_train = None
        self.y_test = None
        self.model_path = ''
        self.row = 0
        self.col = 0
        self.data_columns = []  # 列名
        self.in_data(f_path)  # 初始化部分类变量

    def in_data(self,f_path):
        self.data = pd.read_csv(f_path)  # 读取数据
        y_data = self.data['oreClass']  #
        x_data = self.data.drop('oreClass', axis=1)
        # x_data = gt.lgb_dropList(x_data)
        self.data_columns = x_data.columns

        self.data_split(x_data, y_data)

    def data_split(self, x_data, y_data):
        x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.4, random_state=2020)

        self.x_train = np.asarray(x_train)
        self.x_test = np.asarray(x_test)
        self.y_train = np.asarray(y_train)
        self.y_test = np.asarray(y_test)

    def train(self):
        x_train, y_train, x_test, y_test = self.x_train, self.y_train, self.x_test, self.y_test
        kfolder = KFold(n_splits=5, shuffle=True, random_state=2020)  # 5折交叉验证
        kfold = kfolder.split(x_train, y_train)  # 返回分类后数据集的index

        oof_cb = np.zeros(len(x_train))
        pred_cb = np.asarray([np.zeros(len(x_test))], dtype=np.int64)

        param = {'boosting_type': 'gbdt',
                 'num_leaves': 20,
                 'objective': 'multiclass',
                 'max_depth': 3,
                 'learning_rate': 0.1,
                 'num_class': 45,  # 一共45种矿物
                 }  # 设置模型参数
        model_lgb = LGBMClassifier(**param)  # 创建分类器

        for train_index, vali_index in kfold:
            k_x_train = x_train[train_index]
            k_y_train = y_train[train_index]
            k_x_vali = x_train[vali_index]
            k_y_vali = y_train[vali_index]

            model_lgb = model_lgb.fit(k_x_train, k_y_train, eval_set=[(k_x_vali, k_y_vali)], verbose=1,
                                      early_stopping_rounds=15)  # eval_set:评估数据集,list类型;verbose:True显示,False不显示
            # early_stopping_rounds:提前结束模型训练

            oof_cb[vali_index] = model_lgb.predict(k_x_vali, num_iteration=model_lgb.best_iteration_)
            tmp = model_lgb.predict(x_test, num_iteration=model_lgb.best_iteration_).ravel()
            pred_cb = np.append(pred_cb, [tmp], axis=0)

        pred_cb = pred_cb[1:].T  # 去除第一行0值，得到最终的预测结果
        result_pred, result_true = [], y_test
        for line in pred_cb:
            result_pred.append(np.argmax(np.bincount(line)))

        # 计算评价指标
        acc_score = accuracy_score(result_true, result_pred)
        kappa = cohen_kappa_score(result_true, result_pred)
        macro_f1 = f1_score(result_true, result_pred, average='macro')
        precision = precision_score(result_true, result_pred, average='macro')
        recall = recall_score(result_true, result_pred, average='macro')

        print('AC score: {:.3f} Kappa:{} macro_f1:{} precision:{} recall:{}'
              .format(acc_score, kappa, macro_f1, precision, recall))

        now = gt.timeTitle()
        self.evaluate(result_true, result_pred, './分析结果/性能评价/' + now + '.csv')
        joblib.dump(model_lgb,
                    './model/saveModel_lgb/lgb_model' + now + 'ac' + '{:.3f}'.format(acc_score) + '.pkl')  # 保存模型

        # self.getImportance(model_lgb, now)
        # self.getCmat(result_true, result_pred, now)
        # self.getViewer(model_lgb)
        # self.getCmat(y_test, res)

    def loadMod(self, f_path):
        for root, dirs, files in os.walk(f_path):
            m_path = max(files)

        print('lgb_model : ', m_path)
        model_lgb = joblib.load(f_path + '/' + m_path)
        return model_lgb

    def classify(self, data):  # 用准确率最大的模型预测数据形成一列数组
        f_path = 'D:/Personality/paper/矿物识别/model/saveModel_lgb'
        model_lgb = self.loadMod(f_path)

        data = pd.DataFrame(data)
        result = model_lgb.predict(data).ravel()
        return result

    def getResult(self, f_path='D:/Personality/paper/矿物识别/datasource/classData'):
        Data = pd.DataFrame(columns=self.data_columns, dtype=float)  # 用以存储所需样本的所有元素值
        # print(Data.columns)

        files = []  # 存储当前文件夹下的所有文件名
        for root, dirs, f in os.walk(f_path):
            files = f
            break

        for file in files:
            elem = file.split('_')[-1].split('.')[0]  # 获取当前文件代表的元素
            dtmp = pd.read_csv(f_path + '/' + file, header=None)  # 读取当前元素的csv
            self.row, self.col = dtmp.shape  # 将当前元素的行列号存储到row、col中
            dtmp = np.asarray(dtmp).ravel()  # 将当前元素的值变为一列
            Data[elem] = dtmp  # 将当前元素的值存储到Data对应的元素中

        # Data = gt.lgb_dropList(Data)
        Data = np.array(Data)  # 将dataframe转换为array
        # print(Data.shape)
        # print(self.classify_prob(Data))
        result = self.classify(Data)  # 对数据进行分类预测
        print(result,result.shape)







    # ---- 计算各类性能 ----#
    def evaluate(self, y_true, y_pred, save_path):
        dt_CSV = pd.DataFrame()
        unique_Value = np.unique(list(y_true)+list(y_pred))
        print("当前种类数：", len(unique_Value))
        print('类别序号：', sorted(unique_Value))
        dt_CSV['oreClass'] = sorted(unique_Value)

        name = []
        for i in sorted(unique_Value):
            name.append(gt.no_remap(i))
        dt_CSV['name'] = name

        p_class, r_class, f_class, support_micro = precision_recall_fscore_support(y_true=y_true, y_pred=y_pred)
        print(len(p_class), len(r_class), len(f_class))
        dt_CSV['precision'], dt_CSV['recall'], dt_CSV['f1'] = p_class, r_class, f_class

        dt_CSV.to_csv(save_path, index=False, encoding='utf_8_sig')




model_m = model("D:/Personality/paper/矿物识别/datasource/fullData/data20201101_160248.csv")

re = model_m.getResult()

运行结果及报错内容

我的解答思路和尝试过的方法

在网上查找时发现我的预测数据存在NAN，后续我将NAN转换为0，结果问题相同。还尝试将lightgbm3.3.2降到3.3.0，但问题还是存在。一直在说调用函数时要先调用拟合，但调用的模型是训练完成的pkl格式模型，这应该是没问题的。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
herosunly 优质创作者: python技术领域 2022-10-17 09:57
关注
得看你模型保存的方式，如果是通过save_model函数保存的模型，读取方法就得是model_lgb = lgb.Booster(model_file_path)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

lightgbm 保存模型过大_机器学习-LightGBM
2021-01-02 10:40

晓荼的博客 LightGBM深入理解LightGBM1 LightGBM介绍1.1 LightGBM简介GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练...
lightgbm 保存模型过大_Kaggle神器LightGBM最全解读（附代码说明）！
2021-01-02 10:40

谷桐羽的博客 LightGBM简介GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用...
13、机器学习模型的多语言调用与容器化实践
2025-09-04 01:30

zero1的博客本文探讨了机器学习模型的多语言调用与容器化实践。内容涵盖从C#客户端调用Python模型、模型容器化部署、使用ONNX实现跨语言调用，以及利用ML.NET在C#中构建机器学习模型的方法。同时，文章通过对比不同方法的优缺点...
深入理解LightGBM
2020-01-04 23:13

Microstrong0305的博客预排序算法XGBoost每遍历一个特征值就需要计算一次分裂的增益，而直方图算法LightGBM只需要计算 k k k 次（ k k k 可以认为是常数），直接将时间复杂度从 O ( # d a t a ∗ # f e a t u r e ) O(\#data * \#...
LightGBM入门
2024-06-23 17:21

绎岚科技的博客 LightGBM（Light Gradient Boosting Machine）是一种基于决策树算法的快速、分布式、高性能梯度提升（GBT、GBDT、GBRT、GBM 或 MART）框架，用于排名、分类和许多其他机器学习任务。
LightGBM简介
2024-06-04 13:55

逍遥_yjz的博客 LightGBM 简介及其与XGBoost的比较优缺点
10、Optuna与LightGBM：超参数优化与实际应用
2025-09-28 11:53

julia4scientist的博客本文深入探讨了如何使用Optuna框架优化LightGBM模型的超参数，涵盖CMA-ES与TPE算法对比、多种剪枝策略（如中位数剪枝、逐次减半和Hyperband）的应用，并结合实际案例展示了在客户流失预测、个人信用评分和风力发电...
Python手册(Machine Learning)--LightGBM
2024-02-27 16:13

WilenWu的博客 LightGBM（Light Gradient Boosting Machine）是一种高效的 Gradient Boosting 算法，主要...而在实际建模环节，LGBM支持Python、Java、C++等多种编程语言进行调用，并同时提供了Sklearn API和原生API两套调用方法。
LightGBM 原理、代码最全解读！
2022-01-20 11:01

Python数据之道的博客来源：Microstrong本文主要内容概览：1. LightGBM简介GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型，其主要...
白话机器学习算法理论+实战番外篇之LightGBM
2020-04-10 10:37

翻滚的小@强的博客如果想从事数据挖掘或者机器学习的工作，掌握常用的机器学习算法是非常有必要的，在这简单的先捋一捋，常见的机器学习算法：监督学习算法：逻辑回归，线性回归，决策树，朴素贝叶斯，K近邻，支持向量机，集成算法...
LightGBM最强解析，从算法原理到代码实现~
2020-02-18 12:27

夕小瑶的博客一只小狐狸带你解锁NLP/ML/DL秘籍正文来源：Microstrong1 LightGBM简介GBDT (Gradient Boosting Decision Tree) 是机器学习中...
Kaggle神器LightGBM最全解读！
2020-12-20 10:33

qq_28168421的博客点击机器学习算法与Python学习，选择加星标精彩内容不迷路来源：Microstrong，编辑：AI有道1. LightGBM简介GBDT (Gradient Boosting De...
深入理解lightGBM
2020-01-31 10:54

金戈_旭日东升的博客本文主要内容概览： ...GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。...
lightGBM实战
2022-01-15 03:57

神洛华的博客文章目录一、使用LGBMClassifier对iris进行训练1.1 使用lgb.LGBMClassifier1.1.2使用pickle进行保存模型，然后加载预测1.1.3 使用txt和json保存模型并加载1.2使用原生的API进行模型训练和预测1.2.2 使用txt/json格式...
14、利用 FLAML 和 LightGBM 实现自动化机器学习及构建机器学习管道
2025-09-28 11:53

julia4scientist的博客本文介绍了如何利用FLAML和LightGBM实现自动化机器学习，涵盖CFO与BlendSearch超参数优化算法，并结合Featuretools进行自动化特征工程。通过构建基于Scikit-learn的机器学习管道，实现从数据预处理到模型训练的流程...
xgb模型加载老版本模型 pkl 文件不同依赖版本不兼容，不重新拟合模型，直接将pkl文件格式转换bin文件，用于模型部署
2023-04-06 14:30

Tunac的博客模型pkl 文件不同依赖版本不兼容，不重新拟合模型，直接将pkl文件格式转换bin文件，用于模型部署。在新的环境中生成模型文件。
人工智能大模型原理与应用实战：AI模型转换为API的步骤和方法
2023-11-06 03:17

光子AI的博客在这种背景下，越来越多的公司将重点转移到研发人员的产品思维上，希望能够将自己的AI模型转换为一个可供他人调用的API接口。但是对于许多从事AI领域的研发人员来说，如何将自己的AI模型转换为API是一个比较棘手的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 10月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月15日