Tony Einstein 2022-02-22 15:49 采纳率: 45%
浏览 101
已结题

对整个数据集数据标准化后再划分训练集、测试集和先对训练集标准化再将规则用于测试集 的思考

两个问题

1.对整个数据集数据标准化后再划分训练集、测试集和先对训练集标准化再将规则用于测试集。
2.如果是第一个种肯定会发生数据泄露,那么既然假设了训练集和测试集的分布是相近或者差不多的,那是否还有必要考虑数据泄露的事情呢?

我的考虑

如果我是对整个数据集数据标准化后再划分训练集、测试集的话那结果肯定很好,毋庸置疑。

但是如果是要预测未来数据的情况下,我无法确定未来的数据分布是否与现有数据一致的,所以是否是先标准再划分还有待考究。

有没有比较官方的说话,就是那种有论文去验证的,得到著名人士的支持的说话和结论、或者论文?
  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 3月2日
    • 创建了问题 2月22日

    悬赏问题

    • ¥20 西门子S7-Graph,S7-300,梯形图
    • ¥50 用易语言http 访问不了网页
    • ¥50 safari浏览器fetch提交数据后数据丢失问题
    • ¥15 matlab不知道怎么改,求解答!!
    • ¥15 永磁直线电机的电流环pi调不出来
    • ¥15 用stata实现聚类的代码
    • ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
    • ¥20 docker里部署springboot项目,访问不到扬声器
    • ¥15 netty整合springboot之后自动重连失效
    • ¥15 悬赏!微信开发者工具报错,求帮改