R语言中LightGBM实践问题

问题遇到的现象和发生背景

R语言LightGBM包进行多分类，使用的是tif数据，但是得到的结果非常差，原先使用python实现的时候得到的准确度很正常，R中也不知道是什么原因导致的这种现象。我是先随机选取60个区块的数据当做初始数据集，然后进行训练预测，将准确度最低的5个区数据重新加入到训练数据集中，然后再次训练，直至迭代完成。我原先在python中使用相同数据进行相同学习器进行训练，得到的结果并不相同。

问题相关代码，请勿粘贴截图

但是训练出的模型不管是用于训练集还是测试集，得到的预测结果都非常低，不管尝试多少次都只有20%一下：

library(raster)
library(sampling)
library(stringr)
library(lightgbm)
library(dplyr)
library(base)
library(tiff)
library(paradox)
library(mlr3extralearners)
library(mlr3verse)
library(mlr3tuning)


# 读取选取tif

readtif_vector <- function(x){
  # 将读取到的tif转化为向量
  label <- raster(x)
  label = as.matrix(label)
  label <- as.vector(t(label))
  return(label)
}

readfeature <- function(pathDir,sample){
  path = pathDir
  i = j = 1
  tif = matrix(ncol = 16, nrow = 1)
  while(i <= length(sample[[1]])){
    data = matrix(ncol = 1,nrow = 1476)
    pathsampel = paste(path, sample[[1]][i], sep = '\\')
    while(j <= 15){
      path_i = dir(pathsampel)
      k = readtif_vector(paste(pathsampel, path_i[j], sep = '\\'))
      data = cbind(data,k)
      j = j + 1
    }
    j = 1
    i = i + 1
    tif = rbind(tif,data)
  }
  tif <- tif[-1,-1]
  colnames(tif) <- c(1:15)
  return(tif)
}

readlabel <- function(pathDir, sample){
  path = pathDir
  tif = matrix(ncol = 2, nrow = 1)
  i = j = 1
  while(i <= length(sample[[1]])) {
    data = matrix(ncol = 1,nrow = 1476)
    while(j <= length(dir(path))){
      if(paste('dilei',sample[[1]][i],'.tif',sep='')==dir(path)[j]){
        k = readtif_vector(paste(path,dir(path)[j],sep = '\\'))
        data = cbind(data,k)
      }
      j = j + 1
    }
    j = 1
    i = i + 1
    tif = rbind(tif, data)
  }
  tif <- tif[-1,-1]
  return(tif)
}

readtestfeature <- function(pathDir){
  getfeaturetestname = list.files(pathDir, pattern = "*.tif$", full.names = TRUE)
  tif = matrix(nrow=165312,ncol=1)
  i = 1
  while(i <= length(getfeaturetestname)){
    k = readtif_vector(getfeaturetestname[i])
    tif = cbind(tif, k)
    i = i + 1
  }
  tif = tif[,-1]
  colnames(tif) <- c(1:15)
  return(tif)
}

# 保存图像tif
orginal_param <- raster('D:\\Personality\\paper\\GBDT\\label\\dilei.tif')
save_tif <- function(preds, iteration){
  t <- matrix(preds$response,nrow = 252,ncol=656,byrow = TRUE) %>% as.numeric()
  t2<-raster(ncol = 252, nrow = 656, 
             resolution = c(0.0007515805, 0.0007515805),
             ext = extent(orginal_param), vals = t)
  output = paste('D:\\Personality\\paper\\GBDT\\R\\',iteration,'.tif')
  writeRaster(t2,output,overwrite = TRUE)
}


# 概率选区
probability_block <- function(lgb.pred){
  n = 41 * 36
  i = 1
  result = c()
  test <- as.matrix(y_test,ncol=1)
  while(i <= 165312){
    k = i+n-1
    a <- test[c(i:k),1] == lgb.pred[i:k]
    cnt1 <- sum(a[a=TRUE])
    acc <- cnt1/165312
    result = c(result,acc)
    i = i+n
  }
  result = result[-sample_block[[3]]]
  num = order(result,decreasing=T)[1:5]
  list = list()
  list[[3]] = c(sample_block[[3]],num)
  list[[1]] = orginal_block_name[list[[3]]]
  list[[2]] = orginal_block_name[-list[[3]]]
  return(list)
}

# 初始数据集创建

orginal_block_name = c()
for(i in 0:6){
  for(j in 0:15){
    k = paste(i,j,sep='_')
    orginal_block_name = c(orginal_block_name,k)
  }
}

sampleblock <- function(x){
  
  #随机选区
  
  path = orginal_block_name # 获取当前目录文件名
  s<-srswor(x,112)  # 随机获取x个区块
  ind<-(1:112)[s!=0]
  sample<-path[ind]
  path <- path[-ind]  # 删除x个随机区块
  return(list(sample, path, ind))
} # 随机选区

sample_block = sampleblock(90) # 选取70个

# 测试数据
y_test = readtif_vector('D:\\Personality\\paper\\GBDT\\label\\dilei.tif')
x_test = readtestfeature('D:\\Personality\\paper\\GBDT\\train')

# 迭代

iteration = 1
itera_acc <- list()
while (iteration <= 6) {
  
  # 训练数据集
  
  y_train = readlabel('D:\\Personality\\paper\\GBDT\\testshiyan\\label', sample = sample_block)
  x_train = readfeature('D:\\Personality\\paper\\GBDT\\testshiyan\\train', sample = sample_block)
  
  # 随机搜索，使用mlr3包进行调优
  dtrain <- cbind(x_train, y_train) %>% data.frame()
  dtrain$y_train <- factor(dtrain$y_train)
  dtest <- cbind(x_test, y_test) %>% data.frame()
  dtest$y_test <- factor(dtest$y_test)
  
  dtrain<-as_task_classif(dtrain,target = "y_train",id="a")
  dtest<-as_task_classif(dtest,target = 'y_test',id="b")
  
  learner <- lrn("classif.lightgbm")  # 创建学习器
  search_space <- ps(learning_rate = p_dbl(lower = 0.001, upper = 0.5),
                     num_iterations = p_int(lower = 200, upper = 600),
                     num_leaves = p_int(lower = 10, upper = 60),
                     max_depth = p_int(lower = -1, upper = 10)
  )  # 设置搜索空间
  resampling <- rsmp("holdout") # 选择重抽样方法
  terminator <- trm("evals", n_evals = 10) # 设定何时停止训练
  measure <- msr("classif.acc") # 选择评价指标
  tuner <- tnr("random_search") # 选择搜索方法
  
  # 搜索
  at <- AutoTuner$new(
    learner = learner,
    resampling = resampling,
    search_space = search_space,
    measure = measure,
    tuner = tuner,
    terminator = terminator
  )
 
  # 训练模型
  at$train(dtrain)
  # 预测
  preds <- at$predict(dtest)
  print('-----------------------\n准确度为：')
  
  preds$score(measures = msr("classif.acc"))
  
  print('-----------------------------------')
  
  # 概率选区
  
  sample_block <- probability_block(preds$response)
  
  # tif保存
  
  save_tif(preds,iteration)
  
  iteration = iteration + 1
  
}

运行结果及报错内容

我的解答思路和尝试过的方法

我尝试使用lightgbm自身的lgb.train进行预测，也尝试使用mlr3的调参后的模型进行预测，但是得到的预测准确度都很低，甚至循环多次后，准确度还降低了。

我想要达到的结果

我想解决这一问题，并能进行正常的模型训练以及预测。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有问必答小助手 2022-06-20 09:51
关注
你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答

本次提问扣除的有问必答次数，已经为您补发到账户，我们后续会持续优化，扩大我们的服务范围，为您带来更好地服务。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

lightgbm调用模型pkl，出现需要先调用拟合？ python 分类机器学习
2022-10-15 14:33

回答 1 已采纳得看你模型保存的方式，如果是通过save_model函数保存的模型，读取方法就得是model_lgb = lgb.Booster(model_file_path)
gbm模型预测值的置信区间计算 r语言有问必答
2023-02-21 21:28

回答 1 已采纳该回答引用ChatGPT 在R中，可以使用 gbm 包中的 predict 函数来进行预测。要计算每个预测值的置信区间，可以使用 gbm 包中的 predict 函数的 type = "respon
写一个计算gbm模型预测值置信区间的函数 r语言有问必答
2023-02-22 15:11

回答 3 已采纳基于Monster 组和GPT的调写：以下是一个按照GBM模型计算预测值置信区间的函数，与上述随机森林模型函数类似，主要是基于构建置信区间所需的样本重复抽样（bootstrap）的思想，其中用到了gb
LightGBM中的错误树构建及作用
2023-07-26 00:47

禅与计算机程序设计艺术的博客 LightGBM(Light Gradient Boosting Machine) 是由微软亚洲研究院提出...LightGBM 中的错误树错误树的概念错误树的构造方法及原理错误树的作用为什么要用错误树？使用错误树构建模型的注意事项模型训练中错误树的作用。
关于预测的滑动窗口数的大小问题人工智能图像处理机器学习
2022-04-26 16:08

回答 6 已采纳窗口大小是10，滑动是1
采用Catboost模型调用sklearn的permutation_importance计算贡献率时报错，如何解决？(语言-python) python sklearn 机器学习
2022-10-10 22:00

回答 6 已采纳 skelarn的permutation_importance不支持catboost等非sklearn原生模型。
深度学习使用joblib保存模型报错can't pickle weakref objects python 机器学习深度学习
2022-07-02 15:32

回答 1 已采纳你试试看下保存成pkl格式看看，感觉应该是格式的问题
基于LightGBM的特征选择算法研究
2023-07-13 00:56

禅与计算机程序设计艺术的博客基于 LightGBM 的特征选择算法研究》 1. 引言 1.1. 背景介绍随着机器学习预处理工作的不断深入，特征选择作为数据预处理的重要环节，逐渐引起了人们的广泛关注。特征选择能够有效地去掉多余特征，提
PHP表单未在FireFox 26.0中正确提交 html php
2014-02-12 17:07

回答 1 已采纳 If you are posting with Javascript check your Javascript. Also clear cache on the browser that is
运行import miceforest as mf时出现 image not found python
2022-03-24 21:45

回答 1 已采纳你是Mac吗，我搜这个问题只有Mac出现，可以参考以下链接的方法尝试一下，重新安装一下lightgbmMac下安装lightgbm-image not found - 冉溪 - 博客园或者按照这个博客
仅当类别没有子类别时才尝试删除类别 mysql php
2014-04-01 23:57

回答 1 已采纳 I think you're just missing a simple line. $readDeleteCategory->bindValue(1, $idDel); $readD
图解机器学习算法(11) | LightGBM模型详解（机器学习通关指南·完结）
2022-03-10 17:39

ShowMeAI的博客 LightGBM是GBDT的进化版本，在效率、内存、准确率方面表现优秀。本文讲解LightGBM的动机、优缺点及优化点、决策树算法及生长策略、类别性特征支持、并行支持与优化等重要知识点。
Classification metrics can't handle a mix of continuous and multiclass targets python
2022-04-02 21:52

回答 1 已采纳这里感觉是y_test, test_result的类型不一致，之前fit时y_train已转为'int'类型，因此test_result也为'int'类型，而y_test大概不是'int'类型。建议可
机器学习-集成学习LightGBM
2023-02-21 10:07

太阳是白的的博客 LightGBM 是微软开发的一个强大的开源梯度提升框架。它旨在高效和可扩展，能够处理大型数据集和高维特征。...此外，它还为流行的编程语言（如 Python、R 和 C++）提供接口，使其易于集成到现有的数据科学工作流程中。
数据分析-R语言资料整理
2018-07-05 10:47

ejinxian的博客精选 | 2018年1月R新包推荐.一款脑洞大开的表格可视化神器独家分享--48页PPT解密数据可视化！【R图秀-4】情人节快乐！杜雨：重要的是图表思维，而不是工具是时候展现真正的技术了——让你的图表舞动起来~数据可视化...
社交网络分析4（下）：社交网络链路预测分析、LightGBM框架、LLSLP方法（LightGBM 堆叠链路预测）、堆叠泛化、社交网络链路预测分析的挑战
2023-12-18 11:26

是Yu欸的博客 Exclusive Feature Bundling (EFB)是LightGBM中的一个创新算法，旨在有效减少用于构建直方图的特征数量，从而降低计算复杂度，特别适用于特征中包含大量稀疏特征的场景。高效快速：LightGBM在速度方面具有显著优势，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 6月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月15日

悬赏问题

¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料