【极速版 -- 大模型入门到进阶】快速了解大型语言模型


🌊 大模型作为一种生成式人工智慧,厉害在哪儿?-> 通用能力

🌊 LLM 如何生成输出:简而言之就是文字接龙

🌊 GPT 之前 …:模型规模和数据规模概览

  • 之前都是从网络上各类文字资料学习 …
  • 之后开启下一个阶段:【督导式学习】由人类告诉 GPT 我们想要的答案是什么,这一阶段并不需要大量资料 (上万的资料就可以)

🌊 ChatGPT 有三个训练阶段:预训练 (Self-supervised Learning)、督导式学习 (Supervised Learning)、强化学习 (Reinforcement learning)

  • Reinforcement Learning from Human Feedback (RLHF):原理复杂概念简单;模型要有一定能力(偶有佳作),进入 RLHF才有意义
督导式学习重过程 vs. 强化学习重结果

🌊 ChatGPT 使用:人类向 chatgpt 靠近

  • 讲清需求

  • 提供足够的信息,也可以上传档案

  • 提供范例: in-context learning (注意,是没有训练,没有改变参数的)

  • 鼓励 chatgpt 想一想 (例如使用下面的魔法咒语表 🔮 Chain of Thought (CoT))

  • 使用外挂 (例如 +搜索引擎, 具体怎么学习呢 -> 参考:https://youtu.be/ZlD220t Mpl?feature=shared)

  • 拆解任务后执行 (可以让 chatgpt 自己拆解)

  • 让它反思 (例如:告诉它请检查上述答案是否正确)

🌊 ChatGPT 跟真实环境互动 (例如可以操控机器臂)


参考资料:面向每个人的生成式AI, 【李宏毅 LLM 大模型】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值