Tony Einstein 2022-02-22 15:49 采纳率: 47.6%
浏览 133
已结题

对整个数据集数据标准化后再划分训练集、测试集和先对训练集标准化再将规则用于测试集 的思考

两个问题

1.对整个数据集数据标准化后再划分训练集、测试集和先对训练集标准化再将规则用于测试集。
2.如果是第一个种肯定会发生数据泄露,那么既然假设了训练集和测试集的分布是相近或者差不多的,那是否还有必要考虑数据泄露的事情呢?

我的考虑

如果我是对整个数据集数据标准化后再划分训练集、测试集的话那结果肯定很好,毋庸置疑。

但是如果是要预测未来数据的情况下,我无法确定未来的数据分布是否与现有数据一致的,所以是否是先标准再划分还有待考究。

有没有比较官方的说话,就是那种有论文去验证的,得到著名人士的支持的说话和结论、或者论文?
  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 3月2日
    • 创建了问题 2月22日