本文是LLM系列文章,针对《LlaSMol: Advancing Large Language Models for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset》的翻译。
LlaSMol:用大规模、全面、高质量的指令调优数据集推进大型化学语言模型
文章主要内容总结
- 研究背景与问题:化学在药物发现、材料科学等领域至关重要,但大型语言模型(LLMs)如GPT-4在化学任务上表现不佳,现有研究表明其性能远低于任务特定模型,尤其是对分子表示SMILES的理解不足。
- 数据集构建:提出SMolInstruct数据集,包含14个化学任务(如名称转换、性质预测、化学反应等)和超过300万样本。数据来自PubChem、MoleculeNet等多个来源,并经过严格质量控制(如过滤无效SMILES、纠正错误信息)。
- 模型开发:基于SMolInstruct微调开源LLMs,形成LlaSMol系列模型。实验表明,Mistral作为基础模型效果最佳,LlaSMol在多项任务上性能超过GPT-4和Claude 3 Opus。
- 关键发现:
- 规范SMILES可提升模型性能