强化学习之父Richard Sutton:AGI研究的下一个范式

1f46a80c066e7078d6d90ea692cfbab9.jpeg


OpenAI下一代GPT近期被爆遇到瓶颈,这让“Scaling Law撞墙”的声音变得更响,尽管业内对此争论不休,但现实情况是,大模型确实不再像年前那样有突飞猛进的进展。


作为启发大模型领域提出Scaling Law的研究者,强化学习之父、阿尔伯塔大学教授Richard Sutton在2019年发表了后来被AI领域奉为经典的The Bitter lesson。在这篇文章中,他指出,AI研究在过去70年的一大教训是过于重视人类既有经验和知识,利用大规模算力才是王道。不过现在,他也不时发声称,AI社区过于沉迷深度学习,通过语言大模型方向来实现智能没有前途。

此前,他在《强化学习之父Richard Sutton:通往AGI的另一种可能》一文中指出,实现AGI需要明确的目标和一个世界模型,并利用这个模型来制定行动计划以实现目标。

只靠当前的深度学习显然无法实现这一目标。在Amii(加拿大阿尔伯塔机器智能研究所)近期的视频访谈中,他批评深度学习完全主导了这一领域的研究,却忽视了它的局限性,这让他感到失望,不得不自己下场研究。

他认为,深度学习做的是瞬态学习,在学习一个特定的阶段后不再学习,他呼吁研究者要应该研究在现实环境中持续学习和适应的系统。对此,他最看好持续学习,也就是进行元学习、表示学习、学会如何学习、学会如何泛化、以及构建状态表示特征。这个过程将是一种全新的深度网络学习方式,他称之为动态学习网络。

在这一期访谈中,Richard进一步阐述了持续学习,并对年轻研究者给予了研究建议。正如他反对一股脑投入热门的深度学习研究,他希望研究者对流行趋势保持中立心态,选择一个既重要又可能出成果的问题。


(本文由OneFlow编译发布,转载请联系授权。视频:https://www.youtube.com/watch?v=NvfK1TkXmOQ)
 

来源 | Amii

OneFlow编译

翻译|张雪聃、林心宇、刘乾裕

1

强化学习研究的早期灵感

Alona Fyshe(主持人):最初你为什么开始会去研究强化学习,哪方面吸引了你?

Rich:我一直对那些能与外界互动并从中学习的系统很感兴趣。我们先有一个目标,把它形式化为一种奖励,这就是强化学习要做的事。

令人惊讶的是,回顾人工智能领域,我从1970年代入行到现在,真正涉及到系统与外界互动、从中学习并拥有目标的内容并不多。甚至,在控制论的早期以及整个模式识别和监督学习的过程中,那些系统都没有目标。它们只是试图识别一种模式,这固然是智能的一个重要部分,但它们并不会为了达成某个目标而与外界互动。刚开始研究时还没有强化学习,没人在做这件事,我需要自己去开创这个领域。

Scott Lilwall(主持人):有没有某个特别的时刻,让你有种“具有明确目标的系统就是我想研究的方向”的感觉?

Rich:这是一个循序渐进的过程。我们研究了人们之前研究过的所有不同东西,比如模式识别、控制理论等等。我们一直在寻找那种能让系统去尝试达成某个目标的研究方向。当时在Bandit(指“多臂老虎机问题”,研究在多个选择中如何通过探索和利用最大化收益的决策问题)这个问题一直存在,你不断采取行动,直到获得最多的奖励,但也仅此而已,这些问题并不会告诉你 “我记得在这种情况下应该这么做,在那种情况下应该那么做,以便达成我的目标” 。Bandit只是重复做同一件事,是无状态的。

Alona:为什么一开始所有的重点都放在预测上?

Rich:根据我对历史的理解,其实一开始并不这样。他们最初是想通过与世界互动来实现目标,然后逐渐转向了模式识别,因为模式是清晰而简单的,然而他们渐渐地忘记了一些非常早期的东西。1954年,B.G. Farley和W.A. Clark谈到了试错法,然后逐渐发展为监督学习。这是一条清晰的简化的道路,一直都是这样。

Alona:世界是什么?它是某个特定构建出来的世界?

Rich:世界就是我们与之互动并向其发送信息的地方。世界本身就是被构建出来的,我们向世界发送信息,世界也向我们的眼睛等感官反馈信息,所以,我们可以理解我们向其发送信息并接收信息的整个过程。关键在于构建和转换模型,这样你就能进行规划,如果你能够规划,并通过反复试错来学习,这就是我对思维的理解。

2

线性与非线性的两难选择

Alona:在当前的强化学习背景下,你有什么想法?

Rich:描述这些的唯一方法就是不谈强化学习,而是谈整个人工智能,人工智能中需要什么、发生了什么、没有发生什么以及需要发生什么。

我仍然认为,人工智能是与世界互动以实现目标。这意味着,我们需要强化学习,但如果你只是与世界互动以实现目标,那么你就必须建立一个世界模型。你必须有一个目标,必须在多个时间尺度上建模世界,必须学习理解世界的正确结构、特征和概念。我没有说我们从哪里开始,但这就是你必须尝试的事情,看看什么有效,而这正是强化学习的起点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值