利用lightgbm进行顺序向前选择算法


# 分离特征和目标变量
y = '23h结果'
X= [x for x in data.columns if x not in [y, '23h结果']]

X=pd.DataFrame(X)
# 定义LightGBM模型
params = {'boosting_type': 'gbdt',
          'objective': 'regression',
          'metric': ('mae','mse','r2'),# 默认使用MAE作为评价指标
          'num_leaves': 31,
          'learning_rate': 0.05,
          'feature_fraction': 0.9}

# 顺序向前选择特征
selected_features = []
score_list = []
for i in range(len(X.columns)):
    scores = []
    for feature in X.columns:
        if feature not in selected_features:
            features = selected_features + [feature]
            X_selected = X[features]
            # 划分训练集和测试集
            X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.2, random_state=42)
            lgb_train = lgb.Dataset(X_train, y_train)
            lgb_test = lgb.Dataset(X_test, y_test, reference=lgb_train)
            # 训练模型并预测
            gbm = lgb.train(params, lgb_train, num_boost_round=1000, valid_sets=lgb_test, early_stopping_rounds=10,
                            verbose_eval=False)
            y_pred = gbm.predict(X_test)

运行上述代码时，出现了如下错误

Traceback (most recent call last):
  File "C:/Users/86187/PycharmProjects/pythonProject10/23h预测.py", line 49, in <module>
    X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.2, random_state=42)
  File "D:\py\anaconda3\lib\site-packages\sklearn\model_selection\_split.py", line 2559, in train_test_split
    arrays = indexable(*arrays)
  File "D:\py\anaconda3\lib\site-packages\sklearn\utils\validation.py", line 443, in indexable
    check_consistent_length(*result)
  File "D:\py\anaconda3\lib\site-packages\sklearn\utils\validation.py", line 397, in check_consistent_length
    raise ValueError(
ValueError: Found input variables with inconsistent numbers of samples: [18, 5]

具体解决方是什么？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
妖王辣妹儿 2023-08-30 14:21
关注
根据报错信息，输入变量的样本数量不一致，X_selected的样本数量为18，而y的数量为5。可能是由于在分离特征和目标变量时，没有对y进行正确的处理。应该修改为：

# 分离特征和目标变量 y = data['23h结果'] X = data.drop(['23h结果'], axis=1)
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

《机器学习算法竞赛实战》学习笔记4.特征工程
2022-03-15 19:47

全自动学习机器的博客吴恩达老师有言：“机器学习在本质上还是特征工程，数据和特征决定了机器学习的上限，模型和算法只是逼近这个上限而已。” 特征工程主要分为：数据预处理、特征变换、特征提取、特征选择四部分 #mermaid-svg-Ybe7a9...
【信息科学与工程学】【解决方案体系】第五篇商旅平台解决方案03 主要算法——第一部分
2026-02-13 14:02

flyair_China的博客算法分类体系（按功能模块）系列编码算法类别子类别数量算法数量编号范围 SR01 搜索算法 12 12,000 00001-12000 SR02 推荐算法 15 15,000 12001-27000 SR03 排序算法 8 8,000 27001-35000 SR04 预测算法 10 10...
【信息科学与工程学】【管理科学】计算机科学与自动化—第七十二篇互联网社交平台内容审计分析领域算法及模型表01
2026-03-13 10:29

flyair_China的博客这些模型覆盖了主题模型(LDA)、时间序列预测(Prophet, DeepAR)、异常检测(Isolation Forest)、推荐系统(DeepFM)、多模态学习(CLIP)、相似性搜索(HNSW)、强化...等关键类别，均是互联网社交平台监控分析领域的核心算法。
Python机器学习：从入门到精通
2025-07-18 17:01

莲华君的博客本书将带您，以Python为舟，泛游于算法之海。我们不只传授“术”，更探求其后的“道”——从数据的生灭流转中观照规律，于模型的迭代演进里体悟得失。愿您合上书卷时，收获的不仅是驾驭数据的技能，更有一双洞悉复杂...
DS/ML：数据科学技术之机器学习领域六大阶段最强学习路线(初步探索性数据分析EDA→数据预处理/广义的特征工程→模型训练/评估/推理→模型分析/反思/再优化→模型部署与监控→模型全流程优化)详解
2022-12-31 23:47

一个处女座的程序猿的博客导读：数据科学和机器学习实战最强学习路线，博主这次花了真的是好久好久的时间(大概数不清的凌晨吧)，以数据科学生命周期和机器学习工程化的视角进行了精心整理，今天终于结束了，真心不容易……希望能够对家学习...
Python机器学习：从零基础到项目实战
2026-01-04 13:22

莲华君的博客本书将带您，以Python为舟，泛游于算法之海。我们不只传授“术”，更探求其后的“道”——从数据的生灭流转中观照规律，于模型的迭代演进里体悟得失。愿您合上书卷时，收获的不仅是驾驭数据的技能，更有一双洞悉复杂...
算法岗常见面试题
2019-09-03 23:10

csdn_jiayu的博客其方法是首先用Selective Search算法选出约2000-3000个候选区域(region proposal)，然后将这些区域图块归一化成227*227的图像，再通过CNN提取特征，得到4096维的特征。接下来分为两步：对上面每一个区域得到的特征都...
【信息科学与工程学】【管理科学】第三十篇公司治理及公司工作内容04 生产和制造领域
2026-03-27 09:23

flyair_China的博客甚至扩展到供应链、质量、设备、能源、仓储、物流、环境、安全、人力资源、数据治理、供应商管理、客户投诉、知识管理、数字化等多个维度，形成完整的生产制造算子体系，便于企业进行全面数字化管理和智能化决策。...
2020算法面经问题汇总
2020-08-11 11:33

ming6383的博客！！Linux系统！！ linux查看文件（大文件）的命令 cat、vi、大文件用less linux如何查看系统状态如何查看哪个进程对cpu的占用最大 vi 命令 vi如何跳转到行尾 shift+4 ...xgboost和lightgbm区别
【剑指offer】高频ML/DL面试题
2021-05-25 01:24

山顶夕景的博客阅读并理解五大算法的论文（需配合贪吃蛇代码的完成顺序）对分布式相关知识的学习：按顺序完成学习A3C DPPO IMPALA seed-rl的论文及其相关文章成果验收（1）考察智能体在贪吃蛇的得分三个算.
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月30日

利用lightgbm进行顺序向前选择算法

2条回答 默认 最新

问题事件

2条回答默认最新