本文是LLM系列文章,针对《Model Composition for Multimodal Large Language Models》的翻译。
摘要
多模态大型语言模型(MLLMs)的最新发展显示出快速的进展,朝着创建理解各种模态输入的通用MLLMs的目标迈进。然而,现有的方法通常依赖于与成对的多模态指令数据的联合训练,这是资源密集型的,并且很难扩展到新的模式。在本文中,我们通过现有MLLM的模型组成提出了一种新的范式,以创建一个新的模型,该模型保留了每个原始模型的模态理解能力。我们的基本实现NaiveMC通过重用模态编码器和合并LLM参数来证明了这种范式的有效性。此外,我们引入DAMC来解决合并过程中的参数干扰和失配问题,从而提高模型性能。为了促进这一领域的研究,我们提出了MCUB,这是一个评估MLLMs理解不同模态输入能力的基准。在这个基准和其他四个多模态理解任务上的实验表明,与基线相比,模型组合有了显著的改进,证明了模型组合可以创建一个能够处理多模态输入的通用模型。