两个问题
1.对整个数据集数据标准化后再划分训练集、测试集和先对训练集标准化再将规则用于测试集。
2.如果是第一个种肯定会发生数据泄露,那么既然假设了训练集和测试集的分布是相近或者差不多的,那是否还有必要考虑数据泄露的事情呢?
我的考虑
如果我是对整个数据集数据标准化后再划分训练集、测试集的话那结果肯定很好,毋庸置疑。
但是如果是要预测未来数据的情况下,我无法确定未来的数据分布是否与现有数据一致的,所以是否是先标准再划分还有待考究。
1.对整个数据集数据标准化后再划分训练集、测试集和先对训练集标准化再将规则用于测试集。
2.如果是第一个种肯定会发生数据泄露,那么既然假设了训练集和测试集的分布是相近或者差不多的,那是否还有必要考虑数据泄露的事情呢?
如果我是对整个数据集数据标准化后再划分训练集、测试集的话那结果肯定很好,毋庸置疑。
但是如果是要预测未来数据的情况下,我无法确定未来的数据分布是否与现有数据一致的,所以是否是先标准再划分还有待考究。