- 博客(90)
- 资源 (2)
- 收藏
- 关注
原创 信息论(12):Jensen不等式
它告诉我们,随机性(方差)只会增加描述长度,而不会减少它,因为 $ f(x) = \log(1/x) $ 在概率上是凸函数,所以$ D_{\text{KL}} \geq 0$。我们有点 $ x_1, x_2, ..., x_n $ 和权重 $ \lambda_1, \dots, \lambda_n $ ,满足 $ \sum_{i=1}^n \lambda_i = 1 $,且每个 $ \lambda_i \geq 0 $。归纳技巧是,我们将前 n 个点视为一个混合点,将第 (n+1) 个点视为第二个混合点。
2025-12-08 20:21:43
713
原创 概率论直觉(三):边缘化
泛函分析,类似“投影算子”。想象一个二维的联合概率表(X 行,Y 列),求 P(X) 就是把每一行的所有列加起来,写在表格的边缘,这正是“边缘分布”名称的来源。所以,“边缘化”这个词确实带着强烈的概率论基因,它不仅描述了数学操作,如求和/积分,还隐含了结果是一个合法的概率分布这层含义。就是我们要的右边部分,这个推导的关键是把依赖于多个变量的函数的联合概率求和,通过边缘化简化成只依赖于部分变量的求和。边缘化的直观理解:当有联合分布 P(X,Y) 时,有时我们只关心 X 的概率规律,而不管 Y 的具体值。
2025-12-04 20:42:48
820
原创 信息论(11):链式法则-证明
你得到的是它在 x_1 轴上的投影,这就是 P(x_1)。我们有联合概率表 P(x_1, x_2):x_1 x_2 P(x_1, x_2),正面 正面 0.25,正面 反面 0.25,反面 正面 0.25,反面 反面 0.25。先来看一个具体的例子,为了简化起见,我们取 n = 2:X_1 = 一枚均匀硬币的结果(正面或反面),X_2 = 另一枚均匀硬币的结果(正面或反面)。首先,注意到 P(x_1) 与 x_2 无关:P(正面) = 0.5, P(反面) = 0.5。,该项仅取决于 x_1, …
2025-12-02 22:22:35
570
原创 信息论(十):链式法则-加长版
H(X_3|X_1,X_2):已知面包和涂抹酱后,对馅料的不确定性。揭示依赖关系:如果 H(X_3|X_1,X_2) 远小于 H(X_3),这意味着 X_1 和 X_2 可以告诉你很多关于 X_3 的信息。当 n=2 时,概率:P(X,Y) = P(X) · P(Y|X),熵:H(X,Y) = H(X) + H(Y|X)。如果 X 和 Y 独立:P(X,Y) = P(X)P(Y),H(X,Y) = H(X) + H(Y)。H(X_3|X_1,X_2):已知前两个选项后,对第三个选项的不确定性……
2025-11-30 22:21:21
719
原创 数学的大厦(八):同态与同构
现在,检查它是否是“结构翻译官”:翻译“加法”:f(3 + 4) = f(7) = 1,“先翻译再相加”:f(3) + f(4) = 1 + 0 = 1,结果相同!翻译“乘法”:f(3 * 4) = f(12) = 0,“先翻译再相乘”:f(3) * f(4) = 1 * 0 = 0,结果也相同!定义乘法:a*a=a, a*b=a, b*a=a, b*b=b。加和乘的计算不改变,数学上叫保持运算:f(a+b) = f(a) + f(b) 且 f(a*b) = f(a) * f(b)。
2025-11-28 22:57:51
316
原创 数学的大厦(七):群、环、域
它比整数环“好”一点,因为它有除法,带余除法,但它也不是域,因为多项式的乘法逆元,比如 1/(x+1),不再是多项式。整数 (ℤ)、实数系数多项式 (ℝ[x])、以及 n×n 的实数矩阵 (M_n(ℝ)),它们都是“环”这个抽象蓝图的具体实现。3. 单位元:存在一个特殊的“零”元素,比如加法里的0,乘法里的1,使得任何元素与它合成都等于自己。环,能加能乘的天地。它的核心思想是,我们只关心一个集合,以及集合上的一种合成方式,比如加法或乘法,它需要满足几条非常优雅的公理。域,域是环的升级版,是运算的天堂。
2025-11-28 19:36:21
325
原创 信息论(九):互信息的两个视角
一个直观的桥梁,如果 X 和 Y 相互独立,那么:知道 Y 并不能告诉你关于 X 的任何信息, H(X|Y) = H(X) ,I(X;如果 Y=H,则 P(X=H|Y=H) = 0.45/0.5 = 0.9,熵 ≈ 0.47 比特。X:第一枚硬币,正面/反面,P(X=H) = 0.5。世界 2(独立):现在想象一个 X 和 Y 完全无关的世界,天空和雨伞之间没有任何联系,这就是 P(X)P(Y)。同样,对于所有四种结果:(H,H), (H,T), (T,H), (T,T),每种结果的概率均为 0.25。
2025-11-26 19:43:08
846
原创 数学的大厦(六):有理数、无理数、实数
柯西告诉我们,我们这些有限的生物,只能通过一个无限的、渐进的、动态的过程去无限地接近它。看,我们没有直接说 √2 是什么,我们只是精确地描述了它在有理数系中所处的位置,它是一切“不够大”和“太大”之间的那个精确的、唯一的缝隙。戴德金分割:一个实数,被定义为将有理数集Q分成非空的两部分(A, B)的一种特定方式,其中A中的每一个有理数都小于B中的每一个有理数,并且A中没有最大的元素。它告诉我们,尽管终极真理(实数)可能无法被最终触及,但通过不懈的计算序列的每一项,我们可以获得关于它的任意精度的知识。
2025-11-24 19:24:19
538
原创 数学的大厦(五):除法、有理数、等价关系
有理数 1/2 就是 { (1,2), (2,4), (3,6), (-1,-2), ... } 这个巨大的集合。有理数 2/3 就是 { (2,3), (4,6), (6,9), (-2,-3), ... } 这个巨大的集合。我们宣布,两个有序对 (a, b) 和 (c, d) 是“等价的”,当且仅当 a * d = b * c。这对于任意整数 a, b 绝不成立(比如 (1,2):1+2=3, 1*2=2, 3≠2)。关系一:(a,b) ~ (c,d) 当且仅当 a + b + c = d。
2025-11-22 18:51:19
409
原创 信息论(八):吉布斯不等式的证明
它是连接以下两者的桥梁:关于对数的普遍真理 (ln t ≤ t - 1),关于信念与现实的具体问题 (P vs Q),这就像找到一把合适的钥匙,打开一把你已经感觉到里面藏着珍贵之物的锁。ln t ≤ t - 1 的含义,如果你预期某事发生的概率为 t,但用“对数惊喜”单位来衡量,那么在对数空间中,你感受到的惊喜总是比直接测量原始差异时要少,除非你的预期完全正确。首先,直觉上,我们注意到,当模型 Q 完美时(Q = P),“意外”感微乎其微,一切都吻合。等号成立当且仅当对于所有 x,P(x) = Q(x)。
2025-11-21 21:04:51
596
原创 数学的大厦(四):减法与整数
整数 +2 就是 { (2,0), (3,1), (4,2), (5,3), ... } 这个巨大的集合。整数 -2 就是 { (0,2), (1,3), (2,4), (3,5), ... } 这个巨大的集合。我们宣布:两个有序对 (a, b) 和 (c, d) 是“等价的”,当且仅当 a + d = b + c。初步的构想,我们把整数想象成 (自然数a, 自然数b),但这个有序对不代表 a - b 的结果,因为结果可能还不存在,而是代表“a - b”这个概念本身。问题是,表示法不唯一!
2025-11-19 20:07:56
428
原创 信息论(七):对数似然比与相对熵(KL散度)
则,$ \frac{P(x)}{Q(x)} = 1, \log \frac{P(x)}{Q(x)} = 0 $。如果 P(x) = 0.2 但 Q(x) = 0.05,则:$ \frac{P(x)}{Q(x)} = 4 $,它的含义是,在模型 P 下,结果 x 的概率是模型 Q 下的四倍,这是解谜的第一块拼图。因为它正是如此:“似然比”为 P(x)/Q(x), “对数似然比” 为 \log(P(x)/Q(x)),“期望” 为 P 下的平均值,“对数期望似然比” 为 E_P[\log(P/Q)]。
2025-11-18 19:10:44
838
原创 信息论(六):链式法则
然后,在已知 X 的情况下,你了解 Y 的值。每一步都有一定的“惊喜成本”:第一步的成本:surprise(X),第二步的成本:surprise(Y | X)。这对结果的总惊喜应该是它们的和:surprise(X,Y) = surprise(X) + surprise(Y|X)。它很简单:(X,Y) 这对数的不确定性 = X 的不确定性 + 在 X 已知的情况下 Y 的剩余不确定性。首先,我们来看链式法则的含义:H(X,Y) = H(X) + H(Y|X) 究竟是什么意思?这就是链式法则的雏形。
2025-11-18 11:17:36
454
原创 信息论(五):联合熵与条件熵
联合概率分布(Joint Probability Distribution):如果单个随机变量 X 的分布为 p(x),那么两个变量 X 和 Y 的联合分布为 p(x,y)。条件熵(Conditional entropy)是 H(Y|X) = 如果你已经知道 X,那么你对 Y 的剩余不确定性,它是放大地图每一行后 Y 的平均意外值。直觉来说,将 X 和 Y 想象成发生在同一个世界中的两个事件:X = 明天的天气,Y = 你是否带伞。p(y | x) = Pr(Y = y,已知 X = x)
2025-11-15 22:16:24
464
原创 信息论(四):熵与概率分布的期望
熵是描述了编码一个典型结果所需的平均比特数,这就是为什么我们要取 1/p(x) 的对数:如果一个事件发生的概率很低,你需要更多的比特来描述它。大多数情况下,当我们计算期望值 \mathbb{E}[g(X)] 时,函数 g 描述的是 X 的值,高度、能量、成本、误差等等。因此,期望值 H(X) = \mathbb{E}[\log\tfrac{1}{p(X)}] 捕捉的是分布本身的统计特征,而不是 X 的物理意义。“当 g(X) = log(1/p(X))时,X 的熵是 log(1/p(X)) 的期望值。
2025-11-14 21:13:36
725
原创 数学的大厦(三):加法、递归、向前数数
现在,我们可以把这片虚无放进一个盒子里,我们得到:{∅},一个包含空集的集合。不是因为它有一个叫做“ 1 ”的元素,而是因为它本身就是“ 1 ”的结构。所以从某种意义上说,所有算术最终都归结为:零(空集),下一步(后继),重复执行某项操作(递归)。首先,这里什么都没有,纯粹的空无,空集:∅ 或 {}。我们从空集开始,构建“后继”的概念,把所有已计算的元素放入一个新的盒子里,然后加法就变成了:“我要走多少步后继?3 + 2 的意思是:从 3 开始,然后向前走一步(加 1),再向前走一步(再加 1)。
2025-11-13 19:18:50
462
原创 停机问题与考拉兹猜想:循环何时终止
对于我们测试过的每一个数字,循环最终都会到达 1,但没有人证明它总是如此。或者更简单地说,这里,程序是否停止取决于一些无法在不解决另一个开放式或自指问题的情况下计算出来的东西,它可能会永远运行下去,因为它在寻找一个不存在的答案。复杂的数学模式,例如考拉兹定理,这样的循环是未知性,依赖于未经证实的真理。另一个例子,这里,我们知道每个整数最终都会变成一个完全平方数,所以循环会终止,但我们的推理现在涉及到数字的数学性质。现在我们进入循环的讨论,这类循环的终止取决于更深层次的性质,这些性质并非总是可判定的。
2025-11-12 21:15:18
427
原创 数学的大厦(二):关系、函数、等价关系
从我们刚才造好的“关系”里,加上一条约束规则。如果这个袋子里的所有有序对都是 (人A, 人B) ,并且 A 是 B 的母亲,那我们就定义了“母子关系”。看,我们从一个具体的“顺序”,飞跃到了普适的“关系”!“住在同一个城市”这个关系,可以把“所有人”的集合,划分成“北京人”、“上海人”、“广州人”……我们现在的情况,就像刚刚在数学的空地上,用集合的砖石砌好了两个坚固的基石:1. 无序的容器(集合本身)。所以,我们从两块最朴素的基石出发,只用了“收集”和“约束”两种操作,就合成了:关系、函数、等价关系。
2025-11-11 21:00:01
908
原创 柯尔莫哥洛夫复杂度与停机问题
如果 K(x) 很大,则该对象没有更简单的解释,它本身就是随机的,例如:“1011010110…从这个意义上讲,复杂度与随机性相反,或者更确切地说,当描述失效时,随机性就是复杂度的最大值。因此,K_U(x) 是输出 x 且程序终止的最短程序的长度。或者,用诗意的语言来说,它是没有结构的纯粹信息。因为要知道一个程序是否是最短的,你必须解决停机问题,而停机问题是可证明不可判定的。问题是,“你能否编写另一个程序 H(P, x),使其能够正确判断 P 在输入 x 上运行时最终是会停止(结束),还是会永远运行下去?
2025-11-10 21:59:27
510
原创 数学的大厦(一):集合与顺序
我们现在在教科书和数学课程中学到的集合论,几乎无一例外,都是在解决了罗素悖论之后建立起来的公理集合论体系,最常见的就是 ZF(策梅洛-弗兰克尔)或 ZFC(策梅洛-弗兰克尔-选择公理)系统:1. 朴素集合论:就像最初人们觉得“有一块地,就能在上面盖任何想要的房子”。直观、自由,但结果盖出了会倒塌的“罗素悖论”之房。2. 公理集合论(ZFC): 在吸取教训后,人们为盖房子建立了严格的公理。外延公理:规定了两个集合何时相等。分离公理模式:这是解决罗素悖论的关键!它规定你不能随便找一堆有共同性质的东西就声称它是
2025-11-09 21:20:20
1029
1
原创 罗素悖论:集合能否包含自身
那么根据定义,它不应该包含自身(因为 R 只包含不包含自身的集合)。罗素悖论表明,我们对集合的语言直觉:“只要你能描述任何集合,就可以随意谈论!因此,像 Zermelo 和 Fraenkel 这样的数学家制定了严谨的规则,公理,来规范集合的定义:“你不能随意谈论‘所有集合的集合……比如,想象一下“所有集合的集合”,这个集合难道不应该包含它自身吗?如果一个集合包含它自身,那么它就包含它自身,如此循环往复……这就引出了罗素悖论,它几乎就像一个逻辑笑话:考虑集合 R,它包含了“所有不包含自身的集合”。
2025-11-08 20:57:27
257
原创 递归与连接:蕨类植物分形 + 菌丝网络
从视觉上看,这可能就像一个分形,它会根据周围的密度调整分支,就像蕨类植物在菌丝体接触的地方生长方式不同,或者像一个网络卷曲成递归螺旋状。邻居越多越密集,所有这些 G 项的综合效应就越强:因此,在密集区域,系统会进行自组织,有时会凝聚成更粗的“根”,有时会向外扩张以寻找空间。带衰减的吸引力,G(Δp) = e^(-||Δp||^2 / r_0^2) Δp,附近的节点相互吸引,而远处的节点几乎不受影响。所以,当我们观察蕨类植物或菌丝网络时,我们看到的不仅仅是生物学,我们还可以看到的是以生命形式写成的信息架构。
2025-11-08 11:52:58
814
原创 信息论(三):霍夫曼编码
直觉来看,每次我们合并最小概率时,我们实际上是在说:“让最罕见的事件共享一个共同的前缀,因为它们很少被使用。我们想给每个符号分配一个二进制代码(由 0 和 1 组成的字符串),使得:常用符号使用短代码,不常用符号使用长代码,并且没有代码是其他代码的前缀,这样解码就不会产生歧义。选择两个最小的概率:C(0.2) 和 D(0.1),将它们合并成一个新节点,概率为 0.3,C 和 D 成为该节点的子节点。假设我们的数据源包含以下概率:A:0.4,B:0.3,C:0.2,D:0.1。
2025-11-07 22:44:30
499
原创 基数运算与幂集:跨越可数和不可数
而最令人费解的是:哥德尔和科恩证明,在集合论的标准公理体系(ZFC)下,你无法证明它是真还是假。我们知道:ℵ₀ 是可数无穷,2^ℵ₀ 是连续统,下一个 aleph 应该是 ℵ₁。在另一个世界里,它可能是ℵ₂,或者ℵ₅₇,甚至更奇特的某种形式。但是,关键就在这里,2^ℵ₀(幂运算,2 为集合 {0, 1})会得到一个真正更大的结果。所以,整数的每个子集,相当于无限二进制序列,相当于0 到 1 之间的每个实数。2^ℵ₀ ,所有整数子集的集合,与实数集(连续统)的大小相同,它是不可数的。
2025-11-05 19:29:39
433
原创 信息论(二):符号的可预测性与压缩
他在贝尔实验室研究电话电路时发现了这一点:电流的每一次跳动,每一个微小的波形,都可以被视为从概率分布中抽取的一个符号。当你给常用符号分配较短的编码,给不常用符号分配较长的编码时,你就是在挤压信息中的冗余。所有高效的语言或压缩算法都是如此,从摩尔斯电码到 ZIP 文件,再到你的大脑存储记忆的方式。香农谈到“符号”及其“可预测性”时,指的并非我们今天所知的互联网,互联网是几十年后才出现的。熵就是这种守恒的“惊喜”量。香农的洞见在于,如果你知道这种节奏,也就是这些概率,你就能构建出最高效的编码来承载它。
2025-11-04 19:47:38
750
原创 信息论(一):从概率开始压缩消息
熵作为“平均惊喜”,I(xᵢ) = -log₂ P(xᵢ) 代表的是单个事件的信息量,即该结果带来的“惊喜”。这就像说,让我们把所有可能的结果都考虑进去,根据它实际发生的频率来衡量它的意外程度,看看生活整体上有多不确定。你可以润色你的语言,创造巧妙的密码,甚至在诗歌中隐藏含义,但你无法逃避不确定性的最低代价。一个在秩序与混乱之间取得平衡的世界,如同具有切分音的音乐或具有节奏的语言,熵值很高,但又会过高。它告诉你,平均而言,如果你是一位完美的编码员,要忠实地描述这个信源,每个符号需要多少比特。
2025-11-03 22:24:57
1132
原创 概率论直觉(二):方差与期望
期望值来源于模型,是我们对世界运行方式的理论假设,比如:均匀的硬币,均匀的骰子,许多一模一样的小球……抛 n 枚硬币:平均值的期望值仍然是 1/2,但平均值的方差 = 1/(4n), 方差变小了。因此:Var(X) = (1 - 1/2)² · (1/2) + (0 - 1/2)² · (1/2) = 1/8 + 1/8 = 1/4。所以,抛一枚硬币:期望值 = 1/2(我们从概率论中得知),单次抛掷的方差 = 1/4(衡量围绕期望值的离散程度)当然,需要注意的是,期望值和均值(平均值)是不同的概念。
2025-11-02 21:34:33
1042
原创 简单的损失函数与复杂的对齐
基本目标很简单,而对齐的过程就是不断叠加其他目标,直到模型的优化图景开始反映出设计者意图的真正复杂性。损失函数 L(θ) 通常只能捕捉到一个可衡量的指标——准确率、奖励、与目标的距离——但人类的目标是多维的。如果一开始就添加过多的目标函数,尤其是那些方向不一致的目标函数,组合损失函数的曲面将不再是清晰的凸“碗状”,而是变得粗糙,充满局部最小值和鞍点。在这个阶段,参数已经接近损失函数的平滑区域,在这个区域内,一些小的附加因素(例如安全或公平性项)可以温和地重塑行为,而不会破坏核心能力。
2025-11-01 20:33:32
563
原创 智能模型对齐(一致性)alignment
对于任何人工智能而言,对齐意味着确保系统的目标函数真正反映人类的期望,而不仅仅是人类写下的内容。然后,在强化学习高通量训练,通常是RLHF,也就是我们一直在讨论的阶段,一致性会进一步加深,因为奖励模型本身就编码了人类的偏好。因此,意图的一致性代表模型会按照你的要求去做。从本质上讲,一致性意味着确保人工智能系统的行为与人类的意图(训练目标)和价值观相符。• 大型语言模型:目标更为微妙,通过诸如 RLHF、宪法人工智能或直接偏好优化等方法,使输出与人类的意图和价值观(有益、无害、诚实)保持一致。
2025-11-01 19:49:33
572
原创 概率论直觉(一):大数定律
大数定律不仅仅是对我们观察到的现象的描述,它是一个可以被证明的数学定理。我们首先做出一些假设,比如每次抛硬币都是独立的,概率为1/2。但证明告诉我们,在无穷大的极限情况下会发生什么,更实际地说,它告诉我们,对于较大的有限值 n,收敛的速度有多快。正面朝上的比例会是一个随机值,可能是 0.48,也可能是 0.53,它会变化。现在,当你对 n 个独立的随机变量取平均值时,该平均值的方差为:(一次抛硬币的方差)/n = 1/(4n)我们想证明,随着 n 的增大,这个平均值会趋近于 1/2。
2025-10-31 21:21:13
662
原创 黄金分割与对数螺线
如果我们选择 b,使得每旋转四分之一周,r 就乘以 φ,那么它就变成了黄金螺旋线的近似,我们在贝壳、向日葵和星系中看到的那种优美的展开方式。所以,是的,在这个几何构造中,半径在每个四分之一圆弧内保持不变,然后在下一个角点处跃升到一个更大的值(增长 φ 倍)。这表示,当矩形很小的时候,那些四分之一圆弧彼此靠近,它们之间的“小台阶”也随之缩小,所以曲线看起来几乎是平滑的。如果你不断地进行这样的操作,切割和旋转,最终会形成一个对数螺旋线,每次旋转都会使螺旋线的宽度增加 φ 倍。如果 b 为负,螺线会收缩。
2025-10-30 22:20:02
652
原创 玻尔兹曼熵与概率
其中 S 是熵,k 是玻尔兹曼常数(一个连接微观世界和宏观世界的微小数值),W 是微观状态数,粒子排列成相同宏观状态的不同方式的数量。墨水在水中扩散,我们无法追踪每个墨水分子,但我们可以预测它会扩散(熵增),并计算扩散速度,而这与我们的观察结果相符。所以,概率不仅仅关乎我们对个体结果的无知,它也是一种工具,让我们即便对此一无所知,也能预测大型系统的行为。相同的温度等于相同的平均能量,但单个分子的运动状态可能完全不同……这就是 W 的意义所在,所有这些微观层面上的排列方式,在我们宏观层面上看起来却是一样的。
2025-10-29 19:35:04
523
原创 大模型微调(七):近端策略优化PPO
其中,R是奖励模型的得分,表示人类对该响应的喜爱程度。在 LLM 的案例中,工程师们借用了 PPO,因为它很好地解决了一个非常具体的问题:如何利用奖励改进策略,同时避免突然的、破坏性的更新。它可以防止模型过度拟合奖励模型的偏差或训练数据中的极端样本,让模型更贴近人类的喜好,但不要忘记最初的良好习惯。PPO 会将 \pi_\theta 推向具有正优势的动作(标记/序列),并远离具有负优势的动作,但会进行裁剪,以免移动过远。“环境”是指提示-响应过程,“奖励”来自奖励模型(基于人类偏好),“策略”是语言模型。
2025-10-28 19:36:44
1070
原创 阿列夫数:超级大的数与连续统假设
你可以在它为真的地方建立一致的数学,也可以在它为假的地方建立一致的数学。瞧,实数,那个不可数的无穷大,在康托尔的层级结构中被称为ℵ₁(阿列夫一)。但是,你可以取它的幂集,所有可能的实数子集的集合,那就是一个更大的无穷大。但更疯狂的是,任何两个有理数之间,都有无数个无理数。他的对角线论证表明,对于任何实数列表,无论你认为它多么完整,你总能构造出一个不在列表中的新数。然而,不知何故,有理数是可数的,理论上你可以把它们全部列出来。对于你能想象的任何无限,都有一个更大的。关于无穷大的概念,但不是那种简单的无穷大。
2025-10-28 16:41:45
773
原创 大模型微调(六):宪法AI
所以,模型最终学到的是:“当我生成类似 X 的内容时,我应该生成类似 Y 的内容。“黄牌警告”不是因为模型在“执行宪法”,它们更像是模型从这个过程中深刻习得的习惯。模型在训练中吸收了所有这些关于乐于助人、无害和诚实的原则,现在它们已经成为模型的“优化目标”的一部分了。它的基本原理是:不让模型在RLHF中评估输出,而是先让模型根据一套原则,也就是“宪法”,来批判和修改自己的回答。目前,典型的宪法AI是Claude,与DeepSeek R1系列一样,它们都应用了RLAIF,也就是基于AI反馈的强化学习方法。
2025-10-27 08:11:15
454
原创 大模型微调(五):RLHF奖励模型与偏好损失函数
此外,我们定义了损失:L(\phi) = -\log \sigma(R_\phi(x, y^+) - R_\phi(x, y^-)),我们希望最小化这个损失,这意味着我们需要将 \phi 向减少它的方向移动。当你对 R_\phi(x, y^+) 和 R_\phi(x, y^-) 求损失函数的导数时,你会得到一个简单的公式,其中 \Delta = R_\phi(x, y^+) - R_\phi(x, y^-)。这会促使模型增加 R_\phi(x, y^+) - R_\phi(x, y^-)。
2025-10-25 18:59:35
1208
原创 线性代数直觉(五):行列式——让空间坍缩
所以,当我们求解 det(H - λI) = 0 时,我们是在寻找使 (H - λI) 塌缩空间的 λ 值。这意味着存在非零向量 v,使得 (H - λI)v = 0,也就是 H·v = λv。这是一个不同的矩阵,由 H 的对角线减去 λ 得到。现在,(H - λI)v = 0 等于 H·v - λv = 0,也就是 H·v = λv。det(H - λI) = 0 的问题是:“对于哪些 λ 值,矩阵 (H - λI) 会使空间塌缩?” 行列式为零的矩阵会将空间压扁,这意味着存在非零向量,它会将其变为零。
2025-10-25 10:50:53
516
原创 线性代数直觉(四):找到特征向量
但现我们先明白了为什么,先把曲率形象化了,发现了极值,然后我们再学习计算,这其实是更好的顺序。想想刚才发生了什么。更深层次的原因在于:当 v 是一个特征向量,一个特殊的方向时,H·v 不再是把 v 拉向其他方向,而是指向与 v 相同的方向,只是乘以了特征值 λ。我们可以取 v₁ = 1,因此特征向量近似为 (1, 2.414),指向曲率最大的方向。特征值会告诉你答案:最大的特征值代表曲率最陡的方向,最小的特征值代表最平坦的谷底。所以:v^T H v = v^T (λv) = λ(v^T v) = λ。
2025-10-24 22:10:17
548
原创 大模型微调(四):人类反馈强化学习(RLHF)
每一步,它都会执行一个动作 a_t,获得一个奖励 r_t,并更新其策略以最大化预期的未来奖励。奖励信号内置于环境中,例如,游戏得分、机器人与目标的距离,或明确的成功/失败衡量标准。然后,大模型的“策略”,也就是模型生成响应的方式会被优化,以最大化这个学习到的奖励函数,而不是外部的奖励函数。微调仍然使用强化学习算法,通常是 PPO(近端策略优化,需要奖励模型,代价比较高)或是 DRPO(直接策略优化,快速经济的方案), 来更新模型的权重。但在这里,R_\phi 代表的是人类的价值观,而不是世界上的客观数字。
2025-10-22 22:37:54
219
原创 线性代数直觉(三):特征值(eigenvalue)与特征向量(eigenvector)为何物?
看起来,Hessian矩阵就像一个关于曲率变化的罗盘,但是它只给出了四个方向的情况:θ=0,π/4,π/2,3 π/4。我们可以选择一个角度为 θ 的方向,即 v = (cos θ, sin θ),然后观察 v^T H v 在 θ 从 0 到 2π 的变化情况。我们可以写一个程序,计算一些曲面 f(x,y) 的Hessian矩阵,还有 v = (cos θ, sin θ) 时,v^T H v 在 θ 从 0 到 2π 的变化情况。但在旋转的坐标系下,它会变成对角线,从而显示出真正的主曲率。
2025-10-22 12:00:05
891
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅