本文是LLM系列文章,针对《History, Development, and Principles of Large Language Models—An Introductory Survey》的翻译。
大型语言模型的历史、发展和原理——导论
摘要
语言模型是自然语言处理(NLP)的基石,它利用数学方法来概括语言规律和知识,用于预测和生成。经过几十年的广泛研究,语言建模已经从最初的统计语言模型(SLM)发展到现代的大型语言模型(LLM)。值得注意的是,LLM的快速发展已经达到了处理、理解和生成人类级文本的能力。然而,尽管LLM在改善工作和个人生活方面具有显著优势,但一般的实践者对这些模式的背景和原则的了解有限,阻碍了它们的全部潜力。值得注意的是,大多数LLM审查侧重于特定方面,并使用专门的语言,这对缺乏相关背景知识的从业者构成了挑战。有鉴于此,本次调查旨在提供LLM的可理解概述,以帮助更广泛的受众。它努力通过探索语言模式的历史背景和追踪其随时间的演变来促进全面理解。该调查进一步调查了影响LLM发展的因素,强调了关键贡献。此外,它专注于阐明LLM的基本原理,为观众提供基本的理论知识。该调查还强调了现有工作的局限性,并指出了有希望的未来方向。