在过去的几年里,大型语言模型(LLM)的出现,为长达数十年的智能机器构建的探索中带来了巨大的飞跃。
这项基于试图模拟人类大脑的研究技术,也在近几年催生了一个新领域——Generative AI 生成式人工智能,简单理解就是可以
通过模仿人类能力和水平,生成合理且复杂的文本、好看图像甚至是计算机的代码。
2017年12月,Vaswani和研究团队用一篇“Attention is all you need”的论文彻底开启了AI的新纪元,论文提出了一种新的利用自注意力概念来处理顺序输入数据的变换器架构-Transformer,这使得对长距离依赖关系的更有效的处理成为可能。这个问题在之前一直是传统RNN架构难以克服的一个挑战。而这个Transformer就是大型语言模型(LLM)的基础,也是我们今天所见证的生成式人工智能强大能力的基础。
LLM一直为业内所公认的发力点,是通过撰写和分析文本提高生产力,而这个能力也恰恰是它对人类构成威胁的原因。高盛认为,这可能使大型经济体中相当于3亿全职工作者面临自动化的风险,导致大规模失业。
随着LLM以及所引领的生成式AI能力渐渐出现在我们生活的各个领域,了解LLM如何生成文本对我们来说意义重大,因为了解了它背后的原理,可以帮助我们理解这些模型是如何成就了各种多才多艺产品,同时也可以帮我们发现生成式AI还能在什么方面帮助到我们,与其担心被替代,不如主动出击,成为AI能力的驾驭者!
接下来我们用通俗易懂的语言,一步步看看LLM是怎么发挥威力的。
【理解阶段】把文字翻译成LLM看得懂的的语言
首先,一段文字被分解成一个个的标记(tokens),这里用到的Embedding技术小纸条在之前的文章中为大家讲过,向量可以理解为就是大模型理解世界的语法。这些标记(tokens)是能够被编码的基本单元。在图中的例子中,我们将每个完整的单词视为一个独立的标记。
要弄清楚一个词的意思,比如例子中的“work”,大型语言模型(LLMs)会用大量的学习资料来研究它,同时关注它旁边的词。这些学习资料来源于网上的文本,量级非常的大,最新的GPT-4O甚至用到了1.8万亿。
最后,我们收集了一大堆词,其中一些在学习材料中是和“work”一起出现的(图中黄色的单词),还有一些词是没和“work”挨着的(图中灰色的单词)。
模型在处理这些词的时候,会创建一个数值列表,我们称之为向量。它会根据每个词和“work”在训练材料里的距离来调整这个列表。这个列表就是词嵌入work embedding,它帮助模型捕捉到词的含义。