本文是LLM系列文章,针对《An Introduction to Vision-Language Modeling》的翻译。 视觉语言建模导论 1 引言 2 VLM家族 2.1 基于Transformer的VLM早期工作 2.2 基于对比的VLMs 2.2.1 CLIP 2.3 带掩蔽目标的VLM 2.3.1 FLAVA 2.3.2 MaskVLM 2.3.3 VLM目标的信息论观点 2.4 基于生成的VLM 2.4.1 学习文本生成器的示例:CoCa 2.4.2 多模态生成模型的一个例子:Chameleon和CM3leon 2.4.3 使用生成的文本到图像模型进行下游视觉语言任务 2.5 预训练骨干的VLM 2.5.1 Frozen 2.5.2 MiniGPT的例子 2.5.3 使用预训练骨干的其他流行模型 3 VLM训练的引导 3.1 训练数据 3.1.1 用合成数据改进训练数据 3.1.2 使用数据增强 3.1.3 交错数据管理 3.1.4 评估多模态数据质量 3.1.5 利用人类专业知识:数据注释的力量 3.2 软件 3.2.1 使用现有的公共软件存储库 3.2.2 我需要多少个GPU? 3.2.3 加速训练速度 3.2.4 其他超参数的重要性 3.3 使用哪个模型? 3.3.1 什么时候使用CLIP这样的对比模型? 3.3.2 何时使用masking? 3.3.3 何时使用生成模型? 3.3.4 何时在预训练的主干上使用LLM? 3.4 改善基准 3.4.1 使用边界框注释 3.4.2 负面字幕 3.5 改善对齐 3.5.1 LLaVA故事 3.5.2 多模态上下文学习 3.6 提高对文本丰富图像的理解 3.7 参数高效微调 4 负责任VLM评估方法 4.1 视觉语言能力基准 4.1.1 图片字幕 4.1.2 文本到图片的一致性 4.1.3 视觉问答 4.1.4 以文本为中心的可视化问答 4.1.5 零样本图片分类 4.1.6 Visio语言合成推理 4.1.7 密集字幕和裁剪字幕匹配 4.1.8 基于合成数据的视觉语言评价 4.2 VLM中的基准偏差和差异 4.2.1 通过分类确定基准偏差 4.2.2 通过嵌入的基准偏差 4.2.3 语言偏见可能会影响您的基准 4.2.4 评估训练数据中的特定概念如何影响下游性能 4.3 基准幻觉 4.4 基准记忆 4.5 红队判研 5 扩展VLM到视频 5.1 基于BERT的视频早期工作 5.2 使用早期融合VLM实现文本生成 5.3 使用预训练LLM 5.4 评价中的机会 5.5 利用视频数据方面的挑战 6 结论 1 引言 2 VLM家族 2.1 基于Transformer的VLM早期工作 2.2 基于对比的VLMs 2.2.1 CLIP 2.3 带掩蔽目标的VLM 2.3.1 FLAVA 2.3.2 MaskVLM 2.3.3 VLM目标的信息论观点 2.4 基于生成的VLM 2.4.1 学习文本生成器的示例:CoCa 2.4.2 多模态生成模型的一个例子:Chameleon和CM3leon 2.4.3 使用生成的文本到图像模型进行下游视觉语言任务 </