
神经网络
文章平均质量分 88
3A是个坏同志
SG-Studio负责人
展开
-
ChatGPT技术解构
使用有监督学习方式,基于GPT3.5微调训练一个初始模型;训练数据约为2w~3w量级根据InstructGPT的训练数据量级估算,参照P33 Table6),由标注师分别扮演用户和聊天机器人,产生人工精标的多轮对话数据;值得注意的是,在人类扮演聊天机器人时,会得到机器生成的一些建议来帮助人类撰写自己的回复,以此提高撰写标注效率。以上精标的训练数据虽然数据量不大,但质量和多样性非常高,且来自真实世界数据,这是很关键的一点。原创 2022-12-14 19:25:54 · 13921 阅读 · 5 评论 -
神经网络可以解决一切问题吗:一场知乎辩论的整理
前言:2014年,Deepmind提出了神经图灵机。其后,各种传统软件系统的可微版本被提出,基于自动微分框架的反向计算能力,神经网络被应用于大量新颖的场景。基于这些事实,一些机器学习外围的理论研究人员认为,由于神经网络与图灵机的计算模型(可以被认为)等价,因此可以解决一切有价值的问题;或者认为,一切人脑有可能解决的问题,都可以通过深度学习解决。昨天在刷知乎的时,针对这一观点,我与一个同学展开了讨论,由于里面有一些有价值的信息,因此把讨论记录整理到这里。本文所述的内容可以看作是之前《Policy Evalua原创 2022-07-31 18:20:37 · 1774 阅读 · 1 评论 -
Policy Evaluation的收敛性是怎么一回事
完美的学习算法昨天和同学在群里讨论DRL里bad case的问题。突然有同学提出观点:“bad case其实并不存在,因为一些算法已经理论证明了具有唯一极值点,再加上一些平滑技巧指导优化器,就必然可以收敛。”当听到这个观点时,我是一时语塞。因为当前深度学习研究的最大问题就是,花了很大资源训练的千万参数神经网络根本不work,一切都白白浪费。因此才有NAS之类方法尝试根据一些训练初期的动力学性质调整结构,找出合适的超参数,但也是效果平平。如果真有一个这么完美的学习算法,那岂不是任何问题都能解决了?但根原创 2022-03-31 21:30:39 · 1579 阅读 · 0 评论 -
针对多轮推理分类问题的软标签构造方法
Motivation在非对称博弈中,我们常常要对对手的状态(如持有的手牌类型)进行推理。此类推理问题有两个特点:(1) 虽然存在正确结果,但正确结果往往无法经过一次推理得到。因为随着游戏的进行,才能获得足够的信息 (2) 虽然无法一次性获得正确的结果,但可以基于现有信息推理获得更正确的分布。更正确的分布会有益于我们在接下来的游戏中做出正确决策。基于这两个特点,我们考虑一个简化的问题:我们想要知道对手持有的(唯一)一张手牌的类型。该问题可以被理解为多分类问题。考虑使用神经网络的情况,由于需要进行多轮推原创 2022-02-19 02:15:54 · 3593 阅读 · 0 评论 -
使用预训练语言模型进行文本生成的常用微调策略
译自Pretrained Language Models for Text Generation: A Survey 第六节数据角度小样本学习:在许多任务中,获取足够标记数据既困难又昂贵。预训练模型可以编码大量的语言和现实知识,这为数据稀缺提供了有效的解决方案。通常采用的方法是使用预训练参数插入现有模块。然后用几个、一个甚至没有研究任务的case对它进行微调。比如将小样本学习应用于数据到文本的任务,如表到文本的生成[1,2]和KG到文本的生成[3]。Chen[1]直接向 GPT-2 提供少量序列化的翻译 2021-12-08 22:29:09 · 1439 阅读 · 0 评论 -
针对垂直问题的高性能机器学习算法设计
这是我前几天在CCF青年大会学生论坛的报告内容。因为台上每个人就给十分钟,所以算法细节和一些我自己的想法都没讲,这是15分钟的完整讲稿。现在深度学习非常火,像计算机视觉、自然语言处理这些面向很多问题的泛领域都有很强大的预训练模型。这些预训练模型能解决很多问题,所以现在面对一个特定问题,很多人的基本操作就是基于预训练模型套上数据调一下,看看效果怎么样。这么做能解决很多问题,但因为预训练模型体量一般都很大,这么搞不管是训练还是推断都有很大的计算开销。而且本身调这个过程也充满了不确定性,所以大家说深度学.原创 2021-05-17 16:33:47 · 384 阅读 · 0 评论 -
策略梯度算法简明教程
为什么需要策略梯度基于值的强化学习方法一般是确定性的,给定一个状态就能计算出每种可能动作的奖励(确定值),但这种确定性的方法无法处理一些现实的问题,比如玩100把石头剪刀布的游戏,最好的解法是随机的使用石头、剪刀和布并尽量保证这三种手势出现的概率一样,因为任何一种手势的概率高于其他手势都会被对手注意到并使用相应的手势赢得游戏。再比如,假设我们需要探索上图中的迷宫拿到钱袋。如果采用基于值的方法,在确定的状态下将得到确定的反馈,因此在使用这种方法决定灰色(状态)方格的下一步动作(左或右)是确定的,即翻译 2021-01-13 23:21:02 · 3393 阅读 · 1 评论 -
让深度学习歇一会吧
本来想写长文,但是这几天休息不好,就简单写了。几个月前我看到一篇“用深度学习解微分方程”的文章,号称“AI攻破高数,吊打Mathematica”,各大“AI媒体”大概都推送了,很多人应该也都知道。其实速度上吊打没什么稀奇的,毕竟神经网络的推断相当于是O(1)的,如果愿意,可以吊打任何算法(当然准确度就……)。关键是解微分方程的过程其实是一种形式推理,神经网络作为一个通过数据来拟合函数的方法,是如何能保证推理步骤的准确性的呢?于是下载看了一下那个文章,惊奇的发现它居然有一个表在拿自己和Mathematic原创 2020-05-25 03:01:03 · 1388 阅读 · 3 评论 -
关于神经网络预训练的讨论
简单来说,预训练模型(pre-trained model)是前人为了解决类似问题所创造出来的模型。你在解决问题的时候,不用从零开始训练一个新模型,可以从在类似问题中训练过的模型入手。比如说,如果你想做一辆自动驾驶汽车,可以花数年时间从零开始构建一个性能优良的图像识别算法,也可以从Google在ImageNet数据集上训练得到的inception model(一个预训练模型)起步,来识别图像。一个预...转载 2018-10-14 13:47:31 · 2635 阅读 · 1 评论