本文是LLM系列文章,针对《HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models》的翻译。
摘要
最近的进展表明,扩展多模态大型语言模型(MLLMs)可以有效地提高下游多模态任务的性能。主流的MLLM范式,例如LLaVA,使用静态视觉语言映射器将视觉特征转换为类似文本的标记,从而使静态LLM能够通过视觉指令调整来开发理解视觉信息的能力。尽管有希望,但共享相同参数的静态调整策略可能会限制不同下游多模态任务的性能。有鉴于此,我们分别与动态视觉专家和语言专家一起介绍HyperLLaVA,它涉及投影和LLM参数的自适应调整。这些专家来自HyperNetworks,HyperNetworks通过视觉和语言指导生成自适应参数偏移,从而在两阶段训练中实现动态投影和LLM建模。我们的实验表明,我们的解决方案在现有的MLLM基准测试上显著超过了LLaVA,包括MME、MMBench、SEED Bench和LLaVA Bench。