Rethinking Tokenization: Crafting Better Tokenizers for Large Language Models

本文探讨了大型语言模型(LLM)的标记器优化,尤其是处理复杂语言时的挑战。提出认知科学的“最小努力原则”对设计更高效标记器的重要性,介绍LiB模型,该模型能学习和遗忘,平衡子词、单词和多词表达式的词汇,优于现有标记器。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Rethinking Tokenization: Crafting Better Tokenizers for Large Language Models》的翻译。

重新思考tokenization:为大型语言模型打造更好的tokenizer

摘要

标记化显著影响语言模型的性能。本文追溯了标记器从单词级到子单词级的演变,分析了它们如何平衡标记和类型,以增强模型的适应性,同时控制复杂性。尽管像字节对编码(BPE)这样的子词标记器克服了许多词标记器的限制,但它们在处理非拉丁语言时遇到了困难,并且在很大程度上依赖于大量的训练数据和计算资源来掌握多词表达式(MWE)的细微差别。本文认为,标记器不仅仅是技术工具,还应该从人类语言处理的认知科学中获得灵感。然后,本研究介绍了认知科学中的“最小努力原则”,即人类自然会寻求减少认知努力,并讨论了这一原则对标记器开发的好处。基于这一原理,本文提出了少即优(LiB)模型可能是LLM标记器的一种新方法。LiB模型可以自主学习由子词、单词和MWE组成的综合词汇,这有效地减少了标记和类型的数量。比较评估表明,LiB标记器优于现有的单词和BPE标记器,为标记器的开发提供了一种创新的方法,并暗示了未来基于认知科学的标记器更有效率的可能性。

引言

优化未来的标记器

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值