如何对数据挖掘的BaseLine进行相应改进?
我有一个关于数据挖掘方面的一个问题,我们首先会设置一个Baseline,然后再这个基础上不断进行优化,而我现在有个关于这方面的问题。
1:列如我们以lgb做为基线模型,通过固定随机种子来绑定模型从而不断修改特征。这里假设我们通过原始特征进行预测得到的acc为0.82.我们通过构建了一个新的特征,使我们原始线下baseline精度acc为0.83,那我是不是以为他是一个很好的特征,当我将它提交后我的acc却为0.81,这是为什么,如何去解决?
2:我该如何去构建新的特征的?以baseline为例,我们没构建一个特征都需要跑一遍baseline的吗,或者说我每一次建立新特征都要与老特征们相关性分析来剔除高相关性变量,这个整体顺序是如何呢?
3:当我构建了所有需要的特征后,我企图通过贝叶斯搜索 或者网格搜索的方法来寻找最优参数,我如何来去选择合适的训练集来进行?假设我们后期需要交叉验证,交叉验证得到的每一组数据集都是不同与我起初trantestspilt使用的训练集来找到的最佳参数在不同数据集上不同,得分也肯定不一样,那我该如何使用?