数据挖掘比赛上的一些小问题

如何对数据挖掘的BaseLine进行相应改进？
我有一个关于数据挖掘方面的一个问题，我们首先会设置一个Baseline，然后再这个基础上不断进行优化，而我现在有个关于这方面的问题。

1：列如我们以lgb做为基线模型，通过固定随机种子来绑定模型从而不断修改特征。这里假设我们通过原始特征进行预测得到的acc为0.82.我们通过构建了一个新的特征，使我们原始线下baseline精度acc为0.83，那我是不是以为他是一个很好的特征，当我将它提交后我的acc却为0.81，这是为什么，如何去解决？

2：我该如何去构建新的特征的？以baseline为例，我们没构建一个特征都需要跑一遍baseline的吗，或者说我每一次建立新特征都要与老特征们相关性分析来剔除高相关性变量，这个整体顺序是如何呢？

3：当我构建了所有需要的特征后，我企图通过贝叶斯搜索或者网格搜索的方法来寻找最优参数，我如何来去选择合适的训练集来进行？假设我们后期需要交叉验证，交叉验证得到的每一组数据集都是不同与我起初trantestspilt使用的训练集来找到的最佳参数在不同数据集上不同，得分也肯定不一样，那我该如何使用？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
submarineas 2022-10-17 23:19
关注
既然题主是以比赛为前提，那么很多东西就好解释了。
第一个问题：构建新特征后，本地acc提升，但是提交后反而下降，这个东西是我在做比赛过程中经常出现的，这就是线上和线下的区别，因为线下是自己验证，而线上，主办方是拿着他们的答案进行验证。为何差距那么大，我可以举个例子，比如说一个时间序列，我拿到的是11月，12月的火车回家数据，但是测试集是1月2月的数据，包含春运，数据分布都不统一，那自然差距大。
第二个问题：怎么构建新特征，这里树模型还有网络模型都有各自的方法，基于第一个的基础上，我们无法对线上成绩做出判定，只能说尽量提升自己线下的acc，这里不再展开，可以参考大佬的方案或者我之前打比赛的笔记，关于特征的剔除，其实算是主观的，但也很随机，我一般喜欢一发入魂，或者交叉验证选择一批我认为相对好的，因为比赛时间很短，题主的想法固然可以，但事实上根本没那么多时间去验证。
第三个问题：我没看懂想表达的意思，以light为例，搜索是搜索的树分支，以及几个参数，还有轮数或者很多其它参数不能确定，这个过程也很随机，并且过拟合的几率很大，最终提交的肯定是在没过拟合的基础上，本地acc最好的版本，如果线上降了，首先看评价函数，第二就看数据分布了

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

数据挖掘学习规划建议人工智能数据挖掘有问必答机器学习
2022-11-11 13:27

回答 4 已采纳 1. 计算机科学基础和编程 2. 概率论和数理统计 3. 数据建模及评估 4. 应用机器学习算法和库 5. 软件工程和系统设计工程能力（ 1 ）编程基础：需要掌握一大一小两门语言，大的指 C++
关于决策边界上点的一些问题人工智能数据挖掘机器学习
2022-02-27 18:19

回答 1 已采纳对于判别式模型来说，一般决策边界上的样本比较有价值。例如支持向量机只取决于离决策边界最近的样本，这些样本叫做支持向量；但对于生成式模型来说，并不依靠决策边界进行决策，所以样本一视同仁，例如各种概率模型
python在数据挖掘中依靠pandas进行excel操作的问题 writer = pd.ExcelWriter python 人工智能数据挖掘有问必答
2021-11-18 15:15

回答 1 已采纳试试在writer中添加 mode='a'看看如何，writer = pd.ExcelWriter(filename, engine='openpyxl', mode='a')
HQU电子信息、人工智能专业研究生课程：数据挖掘翻转讲堂PPT
2023-10-10 15:03

强化学习（RL）在数据挖掘中也有重要应用，尤其是在优化问题和决策制定上。通过与环境的交互，智能体能够学习最优策略，如谷歌DeepMind的AlphaGo就是在围棋比赛中运用了强化学习。此外，数据挖掘与大数据紧密相关...
请问数据挖掘要学什么？数据挖掘
2022-12-18 11:34

回答 2 已采纳 01 什么是数据挖掘 数据挖掘（Data Mining）应该是一门大家都听说过，但又不太容易说清楚的课程。在数据科学领域，乃至在更大的计算机科学领域，数据挖掘就好比山东蓝翔，大家不一定都知道挖掘机要怎
数据挖掘 决策树分类结果报错 python 决策树数据挖掘
2022-11-27 16:16

回答 2 已采纳额，好吧，你重新提交了一个问题，那就在这个问题上跟进你的解决情况吧
求解答数据挖掘三道题数据挖掘
2022-05-24 09:48

回答 2 已采纳 数据挖掘题，应该是手写解答过程和手算的题，不需要编程吧。我写个 =============1，该数据的均值为就是数据的总和/数据的个数=30.35，中位数有序集合的中间值，即25。该数据的众数为25和
2018泰迪杯数据挖掘c题（酒店、景区评论分析）
2022-05-30 23:19

本项目不仅涉及到数据挖掘的核心技术，还融合了C语言编程和人工智能的应用，为参赛者提供了一个实践与理论结合的绝佳平台。 1. **数据预处理**：在处理文本数据时，首要任务是进行数据清洗，包括去除标点符号、停用...
数据挖掘需要学hadoop，spark，flink这些吗。数据挖掘
2022-12-19 11:35

回答 1 已采纳 Python是一种跨平台的计算机程序设计语言，属于面向对象的动态类型语言，python是 人工智能首选的编程语言。而Hadoop，Spark、Flink是目前重要的三大分布式计算系统，Hadoop用于
请问数据分析与数据挖掘有教程推荐吗？或者有书推荐吗？大数据数据分析数据挖掘
2022-03-21 22:42

回答 1 已采纳个人感觉大数据的话，sql得要熟练吧因为大数据逐渐sql化了 flink sql spark sql hive sql kafka sql
什么是数据挖掘？？？？数据挖掘
2017-03-13 11:40

回答 3 已采纳 http://blog.csdn.net/qq_23473123/article/details/61925847
数据挖掘技术在NBA球队比赛应用研究.pdf
2021-07-14 12:14

联赛管理层在球员薪资和球队收入问题上面临着挑战，尤其是在数据日益复杂化的背景下，球队需要利用数据挖掘技术去分析和决策，以解决球员的技术能力搭配和薪资匹配问题。综上所述，数据挖掘技术在NBA球队比赛的...
数据挖掘中数据的处理 python 数据分析
2022-12-15 11:33

回答 1 已采纳上面的错误信息提示是说，你的输入文件地址不存在，你确认一下你的文件是不是在这个路径呢。或者你简单一点处理，把文件挪到当前运行代码的同级目录下，就不用加一堆路径前缀了，直接用文件名就可以。
第十届“泰迪杯”数据挖掘挑战赛B题完整解题代码
2022-04-24 15:10

在第十届“泰迪杯”数据挖掘挑战赛中，B题是一个典型的综合应用问题，它涉及到数据挖掘和人工智能的关键技术。本次比赛旨在检验参赛者在数据处理、模式识别、预测建模等方面的能力。完整的解题代码是实现这些任务的...
基于人工鱼群算法的乒乓球数据挖掘.pdf
2021-07-14 17:24

在乒乓球技战术分析中，基于改进人工鱼群算法的数据挖掘方法相较于传统的关联规则挖掘，能够更全面地捕捉比赛中的技战术信息，尤其是在挖掘技战术关联性方面具有显著优势。因此，该方法不仅能够为教练员和运动员提供...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月15日

悬赏问题

¥20 指导如何跑通以下两个Github代码
¥15 大家知道这个后备文件怎么删吗，为啥这些文件我只看到一份，没有后备呀
¥15 C++为什么这个代码没报错运行不出来啊
¥15 一道ban了很多东西的pyjail题
¥15 关于#r语言#的问题：如何将生成的四幅图排在一起，且对变量的赋值进行更改，让组合的图漂亮、美观@（相关搜索：森林图）
¥15 C++识别堆叠物体异常
¥15 微软硬件驱动认证账号申请
¥15 GPT写作提示指令词
¥20 根据动态演化博弈支付矩阵完成复制动态方程求解和演化相图分析等
¥15 华为超融合部署环境下RedHat虚拟机分区扩容问题

数据挖掘比赛上的一些小问题

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新