针对LLM大语言模型的理解能力的判决性检验

2025年1月1日首次发布于知乎 https://zhuanlan.zhihu.com/p/15802760432

仍然没看到有能正确翻译“南京市长江大桥发表讲话”的AI系统,但是他们大部分都能正确翻译“南京市长楚大桥发表讲话”。因为,尽管全国“江”姓人口比“楚”姓人口多几百万,但是“长楚大桥”出现的概率几乎为0。 ​​​如果加上“先生”,变为“南京市长江大桥先生发表讲话”会简单一些,有极个别的LLM能翻译正确,如果再加上一个“市”,变为“南京市市长江大桥先生发表讲话”会更简单,理论上,如果变为“广州市市长江大桥先生发表讲话”还会更简单。

尽管两年来LLM们一直以暴虐、锤爆、碾压、炸雷等方式在推广,但以概率计算为基础的LLM, 尚不能反概率理解那些小学生一眼就能理解的简单句子,何谈可信任的推理,更不用说还有人一直宣称AI很快将会取代人类。

这里还有很多其它的反概率的翻译测试用例,例如“他的英语笔记本来昨天就该交给老师”,小学生也能理解这句话的意思是本来该交“英语笔记”而不是“英语笔记本”,可是现在所有的LLM都会翻译成“English notebook”。如果改为“英语笔记本来昨天就该交给老师”会难一些,如果改为“笔记本来昨天就该交给老师”会更难一些,期待LLM们努力挑战这些反概率问题。

希望2025年能看到正确翻译“南京市长江大桥发表讲话”的AI系统! 请看到的人在评论区截图留言,非常感谢。

无论采用何种方式,如果LLM能实现与人类平齐的反概率理解能力,都将是一个巨大的进步。在此之前,LLM能做的一切都会被限定在贝叶斯式的概率对称性之内。

如果AGI有定义的话,一定不能缺少反概率的学习与理解能力。 ​​​
​​​在这里插入图片描述
在这里插入图片描述

其它翻译截图见https://zhuanlan.zhihu.com/p/15802760432

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值