训练和测试的区别(五)

本文探讨了机器学习中训练和测试的区别,核心问题是能否确保E(in)≈E(out)以及如何找到最小的E(in)。文章分析了假设函数集的大小M对这两个问题的影响,并引入霍夫丁不等式来处理无限大的M。通过讨论不同维度下的成长函数,揭示了在有限样本下找到有效假设函数的挑战,为后续的机器学习理论奠定了基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、

下面我们讲的是:为什么需要机器学习?

上节课中,我们讲了机器学习的大致的训练过程是这样的:

1.从样本出发,把样本传给机器。

2.机器从一群的假设函数中找到一个最好的h使得E(in)(h)最小,这样的话,由于如果假设函数集合较小的话,我们认为E(in)(h)≈E(out)(h),也就是说

此时E(out)(h)也是最小的

      那么有一个问题是,既然我们想找到一个E(in)(h)最小的假设函数,干脆我们直接让机器记忆所有的样本集合算了,这样的话假设函数的E(in)(h)一定是0,但是这不是我们想要的,我们其实目的是为了让E(out)(h)最小,但是由于我们不知道E(out)(h)最小,所以我们只能用E(in)(h)来代替,我们要让机器找出来的E(in)(h)最小的那个假设函数g在E(out)(h)也要近似最小,这就需要机器学习了。

此时,我们可以把机器学习的核心总结为两个问题:

1.我们是否能确认E(in)≈E(out)

2.我们怎么找到最小的E(in)

那么我们来看一下我们的假设函数集的数目M和以上两个问题的关系:

如果M很小的话,我们第一个问题可以大的概率保证,但是第二个问题,M很小的话,我们的算法选择假设函数范围就变小,找到一个很小的E(in)(h)的可能性就很低

如果M很大的话,我们的第二个问题就有大的几率保证,M很大,选择的空间越多,找到E(in)(h)很小的几率就会很大,但是对于第一个问题就不行了,M很大,那么

       根据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值