本文是LLM系列文章,针对《Rethinking Tokenization: Crafting Better Tokenizers for Large Language Models》的翻译。
摘要
标记化显著影响语言模型的性能。本文追溯了标记器从单词级到子单词级的演变,分析了它们如何平衡标记和类型,以增强模型的适应性,同时控制复杂性。尽管像字节对编码(BPE)这样的子词标记器克服了许多词标记器的限制,但它们在处理非拉丁语言时遇到了困难,并且在很大程度上依赖于大量的训练数据和计算资源来掌握多词表达式(MWE)的细微差别。本文认为,标记器不仅仅是技术工具,还应该从人类语言处理的认知科学中获得灵感。然后,本研究介绍了认知科学中的“最小努力原则”,即人类自然会寻求减少认知努力,并讨论了这一原则对标记器开发的好处。基于这一原理,本文提出了少即优(LiB)模型可能是LLM标记器的一种新方法。LiB模型可以自主学习由子词、单词和MWE组成的综合词汇,这有效地减少了标记和类型的数量。比较评估表明,LiB标记器优于现有的单词和BPE标记器,为标记器的开发提供了一种创新的方法,并暗示了未来基于认知科学的标记器更有效率的可能性。