
Multimodal
文章平均质量分 72
主要是跟踪多模态大模型的相关文章,作简要介绍和归纳整理。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MiMo-VL Technical Report
模型介绍:小米开源了MiMo-VL-7B-SFT和MiMo-VL-7B-RL两个视觉语言模型,在通用视觉理解和多模态推理任务上表现出色。其中,MiMo-VL-7B-RL在40项评估任务中35项优于Qwen2.5-VL-7B,在OlympiadBench上得分59.4,超过参数达78B的模型,在GUI接地任务OSWorld-G上得分为56.1,甚至超越了UI-TARS等专业模型。训练方法四阶段预训练:消耗2.4万亿token,包括投影仪预热、视觉语言对齐、通用多模态预训练和长上下文监督微调。原创 2025-06-19 09:30:00 · 89 阅读 · 0 评论 -
S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal
本文提出了一种基于多模态大语言模型(MLLM)的可扩展自监督自动驾驶运动规划框架S4-Driver,旨在解决端到端自动驾驶中依赖人工标注和3D空间推理能力不足的问题。稀疏体表示(Sparse Volume Representation):将多视图、多帧图像的视觉信息聚合到3D空间,通过轻量级投影和门控机制动态选择关键区域,增强模型的3D时空推理能力,且无需微调预训练的视觉编码器。分层规划与元决策(Hierarchical Planning with Meta-Decision)原创 2025-06-15 08:30:00 · 117 阅读 · 0 评论 -
DisTime: Distribution-based Time Representation for Video Large Language Models
研究背景视频大语言模型(Video-LLMs)在时间敏感任务(如时刻检索、密集视频字幕、接地视频问答)中面临离散时间表示和时间感知数据集有限的挑战。现有方法存在三大问题:文本-数字混合表示(如GroundingGPT)导致分类混淆;专用时间标记(如Momentor)受长尾分布和时间不连续性影响;重型时间模块(如InternVideo2.5)增加计算成本且依赖视觉信息重输入。DisTime框架核心设计:引入可学习时间标记。原创 2025-06-09 14:49:36 · 19 阅读 · 0 评论 -
MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning
带可验证奖励的强化学习(RLVR)最近成为大型语言模型(LLMs)训练后的强大范式,在具有结构化、可验证答案的任务上实现了最先进的性能。将RLVR应用于多模态LLMs(MLLMs)带来了重大机遇,但视觉-语言任务的广泛性和异质性使其复杂化,这些任务需要细致的视觉、逻辑和空间能力。因此,使用RLVR在多个数据集上训练MLLMs可能是有益的,但不同数据集之间的交互会产生目标冲突,这凸显了需要最优数据集混合策略来提高泛化和推理能力。原创 2025-06-13 08:30:00 · 82 阅读 · 0 评论 -
SpatialPrompting: Keyframe-driven Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal LLM
本文提出了一种名为SpatialPrompting的全新框架,旨在借助现成的多模态大型语言模型(LLM)的推理能力,实现三维环境下的零样本空间推理。该框架的核心在于关键帧驱动的提示生成策略关键帧提取:从图像序列中挑选出具有代表性的关键帧。在这个过程中,综合运用视觉-语言相似性、马氏距离、视野(FOV)以及图像清晰度等多种指标,以确保所选关键帧既能涵盖丰富的空间信息,又能避免冗余。提示生成:将提取出的关键帧与对应的相机位姿数据相结合,形成结构化的提示输入到多模态LLM中。原创 2025-06-12 08:30:00 · 89 阅读 · 0 评论 -
Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization
摘要高质量多模态生物医学数据的稀缺性限制了预训练大语言模型(LLMs)在专业生物医学任务中的有效微调能力。为应对这一挑战,我们提出了MINT(多模态集成知识迁移)框架,通过偏好优化将单模态大解码器模型与高质量多模态生物医学数据中的领域特定决策模式对齐。尽管MINT支持不同的优化技术,但我们主要以优势比偏好优化(ORPO)框架为 backbone 实现。该策略使对齐后的LLMs能够使用纯文本或纯图像输入执行预测任务,同时保留从多模态数据中学习到的知识。原创 2025-06-10 08:30:00 · 109 阅读 · 0 评论 -
Period-LLM: Extending the Periodic Capability of Multimodal Large Language Model
周期性或准周期性现象揭示了各种自然过程的内在特征,如天气模式、运动行为、交通流量和生物信号。鉴于这些现象跨越多种模态,多模态大语言模型(MLLMs)的能力为有效捕捉和理解其复杂本质提供了广阔前景。然而,当前MLLMs在周期性任务中面临挑战,主要源于以下限制:1)缺乏时间建模能力;2)短周期和长周期之间的冲突。本文介绍了Period-LLM,这是一种多模态大语言模型,旨在提升跨各种模态的周期性任务性能,并构建了一个具有不同难度的基准,用于评估大型模型的跨模态周期性能力。原创 2025-06-09 08:30:00 · 652 阅读 · 0 评论 -
MMAFFBen: A Multilingual and Multimodal Affective Analysis Benchmark for Evaluating LLMs and VLMs
大型语言模型(LLMs)和视觉语言模型(VLMs,统称LMs)已革新了自然语言处理(NLP)和计算机视觉(CV)领域,在多个领域展现出显著潜力。然而,其在情感分析(即情绪分析和情感检测)中的能力仍未被充分探索。这一空白主要归因于缺乏全面的评估基准,以及情感分析任务本身的复杂性。本文引入MMAFFBen,首个用于多语言多模态情感分析的大规模开源基准。MMAFFBen涵盖35种语言的文本、图像和视频模态,包含四项关键情感分析任务:情感极性、情感强度、情绪分类和情绪强度。原创 2025-06-08 09:30:00 · 88 阅读 · 0 评论 -
LLM-powered Query Expansion for Enhancing Boundary Prediction in Language-driven Action Localization
语言驱动的视频动作定位任务不仅需要语言查询与视频片段的语义对齐,还需要对动作边界进行预测。然而,语言查询主要描述动作的主要内容,通常缺乏动作起始和结束边界的具体细节,这增加了人工边界标注的主观性,导致训练数据中存在边界不确定性。本文提出了两项创新:一方面,通过大语言模型(LLM)生成动作起始和结束边界的文本描述,对原始查询进行扩展。该方法为动作定位提供了更详细的边界线索,从而降低边界不确定性的影响。原创 2025-06-07 09:30:00 · 81 阅读 · 0 评论 -
Emerging Properties in Unified Multimodal Pretraining
本文介绍了字节跳动开源的多模态基础模型BAGEL,其核心目标是通过大规模交错多模态数据预训练,实现统一的多模态理解与生成能力。BAGEL采用仅解码器架构和混合Transformer专家(MoT)设计,在文本、图像、视频和网页数据上进行训练,展现出复杂多模态推理的新兴能力,如自由形式图像操作、未来帧预测、3D操作和世界导航等。实验表明,BAGEL在标准基准测试中显著优于开源模型,并通过数据构建协议和模型架构创新,缩小了与专有系统(如GPT-4o、Gemini 2.0)的差距。原创 2025-06-06 09:30:00 · 100 阅读 · 0 评论 -
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
本文提出了首个基于统一多模态思维链(CoT)的奖励模型UNIFIEDREWARD-THINK,旨在通过显式长链推理提升多模态奖励模型的可靠性和鲁棒性。冷启动阶段:使用少量图像生成偏好数据蒸馏GPT-4o的推理过程,使模型学习CoT推理的格式和结构。拒绝采样阶段:利用大规模统一多模态偏好数据激发模型在各类视觉任务中的推理能力,保留正确推理样本以强化准确模式。组相对策略优化(GRPO)阶段:对错误预测样本进行基于GRPO的强化微调,推动模型探索多样化推理路径,优化推理准确性。原创 2025-05-21 08:30:00 · 921 阅读 · 0 评论 -
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models
推理是智能的核心,决定了决策、结论推导和跨领域泛化的能力。在人工智能领域,随着系统逐渐在开放、不确定和多模态环境中运行,推理成为实现稳健自适应行为的关键。大型多模态推理模型(LMRMs)通过整合文本、图像、音频、视频等模态,展现出支持复杂推理(如逻辑演绎、因果推断、类比映射和长程思考)的潜力,其核心目标是实现全面感知、精准理解和深度推理。随着研究进展,多模态推理已从模块化、感知驱动的流水线,迅速演进为以语言为中心的统一框架,实现更连贯的跨模态理解。原创 2025-05-16 09:30:00 · 112 阅读 · 0 评论 -
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
原创 2025-05-12 09:30:00 · 146 阅读 · 0 评论 -
SmolVLM: Redefining small and efficient multimodal models
大型视觉语言模型(VLMs)性能卓越,但需要大量计算资源,这限制了它们在移动和边缘设备上的部署。较小的VLMs通常模仿大型模型的设计选择,例如广泛的图像标记化,这导致GPU内存使用效率低下,并且在设备上应用的实用性受到限制。我们引入SmolVLM,这是一系列专为资源高效推理而设计的紧凑型多模态模型。我们系统地探索了针对低计算开销优化的架构配置、标记化策略和数据整理方法。通过这些探索,我们确定了关键的设计选择,这些选择在最小化内存占用的情况下,能在图像和视频任务上显著提升性能。原创 2025-05-06 08:30:00 · 125 阅读 · 0 评论 -
OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal LLM
本文提出了一种用于多模态大语言模型(MLLM)训练的高效框架OrchMLLM,旨在解决模态组成不一致(Modality Composition Incoherence)导致的训练效率问题。研究发现,不同模态数据在批次中的比例剧烈变化会加剧小批量不平衡,导致数据并行(DP)实例间的GPU利用率不均。批后平衡调度器(Batch Post-Balancing Dispatcher)提出多种批后平衡算法,动态调整小批量分布以消除计算负载差异。原创 2025-04-29 08:30:00 · 104 阅读 · 0 评论 -
Video-R1: Reinforcing Video Reasoning in MLLMs
本文针对多模态大语言模型(MLLMs)在视频推理任务中的不足,提出了Video-R1模型,旨在通过强化学习(RL)范式系统性提升模型的视频推理能力。现有方法在视频推理中面临两个核心挑战:缺乏时间建模能力和高质量视频推理数据稀缺。首次系统性探索R1范式在视频推理中的应用,提出Video-R1模型。T-GRPO算法通过对比学习显式建模时间信息,解决传统RL缺乏时间归纳偏置的问题。构建混合数据集,结合图像和视频数据,缓解视频推理数据稀缺性,增强模型泛化能力。实验验证。原创 2025-04-13 08:30:00 · 193 阅读 · 0 评论 -
LoRASculpt: Sculpting LoRA for Harmonizing General and Specialized Knowledge in Multimodal LLM
本文提出了LoRASculpt框架,旨在解决多模态大语言模型(MLLMs)在微调过程中出现的灾难性遗忘问题。传统的低秩适应(LoRA)方法在注入下游任务知识时会引入大量冗余参数,导致模型同时损害通用知识和特定任务性能。稀疏化LoRA以减少冗余在LoRA训练中引入稀疏更新,通过理论证明低秩矩阵乘积的稀疏性,并提出动态剪枝策略去除冗余参数。实验表明,即使在极高稀疏度(≤5%)下,模型仍能保持性能。正则化LoRA以缓解知识冲突提出冲突缓解正则化器。原创 2025-04-10 08:30:00 · 170 阅读 · 0 评论 -
Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video LLM
token化的视频表示已成为大语言模型(LLMs)理解视频内容的有效方法。然而,现有token压缩技术(如剪枝和合并)常破坏时空位置编码,无法在效率与性能间取得平衡。本文提出极端短token压缩任务,旨在用最少token表示长视频序列。为此,我们设计了框架,通过动态减少token数量并保持时空连贯性。具体而言,将视频表示分解为:(i)通过聚类物体级token生成的简洁token库;(ii)捕获网格级时空运动模式的token动态图。引入交叉动态注意力机制。原创 2025-04-08 09:30:00 · 112 阅读 · 0 评论 -
WHEN TOM EATS KIMCHI: Evaluating Cultural Bias of Multimodal Large Language Models
本文研究了多模态大型语言模型(MLLMs)在混合文化语境中的文化偏见问题。通过构建跨文化基准数据集MIXCUBE,作者测试了模型在面对不同种族人物与文化元素(如食物、节日、服装)结合时的识别能力。高资源文化(如英国、美国):模型表现稳定,准确率下降幅度较小(<15%)。低资源文化(如阿塞拜疆、缅甸):模型对人物种族变化敏感,准确率下降显著(如GPT-4o在阿塞拜疆食物识别中准确率下降超40%)。数据偏差:现有模型对低资源文化的认知不足,可能源于训练数据中文化多样性不足。原创 2025-04-07 08:30:00 · 93 阅读 · 0 评论 -
BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models
首次提出Token级后门攻击Token替换:将输出中的特定源token(如"red")替换为目标token(如"green")Token插入:在输出末尾插入恶意token序列(如钓鱼链接)优化框架提出结合有效性损失(最大化攻击成功率)和实用性损失(保持模型性能)的优化目标通过影子数据集训练实现触发模式与攻击行为的绑定防御验证测试了微调(Fine-tuning)和输入净化(Zero-shot Image Purification)等防御方法的局限性发现Token替换攻击对微调具有较强抗性。原创 2025-04-03 09:30:00 · 142 阅读 · 0 评论 -
Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models
近期多模态大语言模型(MLLMs)在处理海量视频帧时面临计算开销挑战,通常通过压缩策略缓解。然而,视觉内容对用户指令的贡献不均,现有方法(如平均池化)不可避免地导致有用信息丢失。为此,我们提出混合级指令注入策略(HICom),利用指令作为条件从局部和全局层面引导压缩,在减少视觉token的同时保留用户关注的最大信息量。具体而言,指令条件分别注入局部组token和全局可学习token,通过注意力机制完成条件压缩。原创 2025-04-02 09:30:00 · 107 阅读 · 0 评论 -
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
在大型多模态模型(LMMs)中增强推理能力面临着独特挑战,这源于视觉感知和逻辑推理之间的复杂相互作用,尤其是在30亿参数的紧凑型架构中,架构限制了推理能力和模态对齐。虽然基于规则的强化学习(RL)在纯文本领域表现出色,但其向多模态的扩展面临两个关键障碍:(1)由于答案模糊和复杂推理示例稀缺导致的数据限制;(2)多模态预训练导致的基础推理能力下降。为应对这些挑战,我们提出了LMM-R1,这是一个两阶段框架,通过基础推理增强(FRE)和多模态泛化训练(MGT),将基于规则的RL应用于多模态推理。原创 2025-03-22 08:30:00 · 189 阅读 · 0 评论 -
Unified Reward Model for Multimodal Understanding and Generation
近年来,人类偏好对齐技术的进步显著提升了多模态生成与理解能力。关键方法是训练奖励模型来指导偏好优化。然而,现有模型通常针对特定任务设计,限制了其在多样化视觉应用中的适应性。我们认为,联合学习评估多个任务可能产生协同效应,即增强的图像理解可提升图像生成评估能力,而改进的图像评估又能通过更优的帧分析惠及视频评估。为此,本文提出了UNIFIEDREWARD,首个用于多模态理解与生成评估的统一奖励模型,支持成对排序和逐点评分,可用于视觉模型的偏好对齐。原创 2025-03-16 09:30:00 · 131 阅读 · 0 评论 -
Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs
我们推出了Phi-4-Mini和Phi-4-Multimodal,这两款模型小巧但功能强大,分别是语言模型和多模态模型。Phi-4-Mini是一个拥有38亿参数的语言模型,在高质量的网页数据和合成数据上进行训练。它在性能上显著超越了近期类似规模的开源模型,在需要复杂推理的数学和编码任务上,表现与参数规模为其两倍的模型相当。这一成果得益于精心策划的合成数据方案,该方案着重采用了高质量的数学和编码数据集。原创 2025-03-11 22:13:30 · 134 阅读 · 0 评论 -
OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
能够在最少人工干预下完成复杂计算机任务的自主智能体,有望变革人机交互方式,显著提升易用性和生产效率。然而,现有的基准测试要么缺乏交互式环境,要么局限于特定应用或领域的环境,无法反映现实世界中计算机使用的多样性和复杂性,进而限制了任务范围和智能体的可扩展性。为解决这一问题,我们推出了OSWORLD,这是首个专为多模态智能体设计的可扩展真实计算机环境,支持在Ubuntu、Windows和macOS等多种操作系统上进行任务设置、基于执行的评估以及交互式学习。原创 2025-03-05 16:44:35 · 500 阅读 · 0 评论 -
Towards Multimodal Large-Language Models for Parent-Child Interaction: A Focus on Joint Attention
共同注意是儿童早期语言发展的关键组成部分,也是亲子互动有效性的重要指标。然而,目前对共同注意的检测和分析研究仍然有限,尤其是在多模态大语言模型(MLLMs)方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频,评估了多模态大语言模型理解共同注意的能力。这些标注识别出了共同注意程度高和低的片段,作为评估模型解释能力的基准。我们的研究结果显示,由于当前的多模态大语言模型对儿童发起的眼神交流(这是共同注意动态的关键组成部分)缺乏细致的理解,它们难以准确地解释共同注意。原创 2025-03-11 09:45:00 · 126 阅读 · 0 评论 -
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language
深度学习的最新进展给地震监测带来了革命性变化,但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战,尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM,这是首个利用跨模态迁移进行地震监测的基础模型,它无需在地震数据集上进行直接预训练,就能充分发挥大规模预训练大语言模型的强大能力。原创 2025-03-11 08:30:00 · 127 阅读 · 0 评论 -
Qwen2.5-VL Technical Report
我们推出Qwen2.5-VL,这是Qwen视觉语言系列的最新旗舰模型,它在基础功能和创新功能方面都取得了重大进展。Qwen2.5-VL通过增强的视觉识别、精确的对象定位、强大的文档解析和长视频理解,在理解和与世界互动方面实现了重大飞跃。Qwen2.5-VL的一个突出特征是它能够使用边界框或点准确定位对象。它提供了从发票、表单和表格中提取强大的结构化数据,以及对图表、示意图和布局的详细分析。原创 2025-02-26 15:43:21 · 219 阅读 · 0 评论 -
DYNAMIC-LLAVA: EFFICIENT MULTIMODAL LARGE LANGUAGE MODELS VIA DYNAMIC VISION-LANGUAGE CONTEXT
多模态大型语言模型(MLLM)在视觉理解、推理和交互方面取得了显著的成功。然而,在解码过程中,推理计算和内存随着输出token的生成而逐渐增加,直接影响MLLM的效率。现有的方法试图减少视觉上下文冗余,以实现高效的MLLM。不幸的是,预填充阶段视觉上下文减少的效率效益在解码阶段逐渐降低。为了解决这个问题,我们提出了一种动态视觉语言上下文稀疏化框架dynamic LLaVA,该框架在预填充阶段动态减少了视觉上下文的冗余,并降低了解码过程中生成的语言上下文的内存和计算开销。原创 2025-02-12 10:00:00 · 207 阅读 · 0 评论 -
LLaVA-CoT: Let Vision Language Models Reason Step-by-Step
大型语言模型在推理能力方面取得了长足的进步,特别是通过推理时间缩放,如OpenAI的o1等模型所示。然而,当前的视觉语言模型(VLM)往往难以执行系统和结构化的推理,特别是在处理复杂的视觉问答任务时。在这项工作中,我们介绍了LLaVA CoT,这是一种设计用于进行自主多阶段推理的新型VLM。与思维链提示不同,LLaVA CoT独立地参与总结、视觉解释、逻辑推理和结论生成的连续阶段。这种结构化方法使LLaVA CoT能够在推理密集型任务的精度方面实现显著提高。原创 2025-01-26 10:15:00 · 182 阅读 · 0 评论 -
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model
数学推理是人类认知的一个核心方面,在从教育问题解决到科学进步的许多领域都至关重要。随着通用人工智能(AGI)的发展,将大型语言模型(LLM)与数学推理任务相结合变得越来越重要。这项调查首次对多模态大语言模型(MLLM)时代的数学推理进行了全面分析。我们回顾了自2021年以来发表的200多项研究,并研究了数学LLM的最新发展,重点关注多模态设置。我们将该领域分为三个维度:基准、方法和挑战。特别是,我们探索了多模态数学推理管道,以及(M)LLM和相关方法的作用。原创 2025-01-12 10:15:00 · 579 阅读 · 0 评论 -
Cross-modal Information Flow in Multimodal Large Language Models
自回归多模态大语言模型(MLLM)的最新进展表明,视觉语言任务取得了有前景的进展。虽然有各种研究调查了大型语言模型中语言信息的处理,但目前对MLLM的内部工作机制以及语言和视觉信息在这些模型中的相互作用知之甚少。在这项研究中,我们的目标是通过检查MLLM中不同模态(语言和视觉)之间的信息流来填补这一空白,重点是视觉问题的回答。具体来说,给定一个图像问题对作为输入,我们研究了模型中的何处以及视觉和语言信息如何结合以生成最终预测。原创 2025-01-05 09:15:00 · 239 阅读 · 0 评论 -
On Domain-Specific Post-Training for Multimodal Large Language Models
近年来,通用多模态大语言模型(MLLM)迅速发展。然而,将通用 MLLM 应用于特定领域(例如科学领域和工业应用)的探索仍然较少。本文通过后训练系统地研究了 MLLM 的领域适应,重点关注数据合成、训练流程和任务评估。(1)数据合成:使用开源模型,我们开发了一种视觉指令合成器,可以有效地从特定领域的图像捕获对生成各种视觉指令任务。在增强 MLLM 的特定领域性能方面,我们的综合任务超越了手动规则、GPT-4 和 GPT-4V 生成的任务。原创 2025-01-03 09:15:00 · 174 阅读 · 0 评论 -
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit
在现有的多模态大型语言模型(MLLM)中过度使用视觉token通常会表现出明显的冗余,并带来高昂的计算成本。为了深入了解这个问题,我们首先对MLLM的注意力行为进行了广泛的实证研究,并总结了MLLM中的三个主要推理阶段:(i)token之间的早期融合首先快速完成。(ii)随后,模态内建模开始发挥作用。(iii)多模态推理恢复并持续到推理结束。特别是,我们发现,当文本token接收到足够的图像信息时,视觉token将停止对推理的贡献,从而产生明显的视觉冗余。原创 2024-12-31 09:15:00 · 165 阅读 · 0 评论 -
PaliGemma 2: A Family of Versatile VLMs for Transfer
PaliGemma 2是基于Gemma 2语言模型家族的PaliGemmar开放视觉语言模型(VLM)的升级版。我们将PaliGemma也使用的SigLIP-So400m视觉编码器与从2B到27B的整个Gemma 2模型相结合。我们在多个阶段以三种分辨率(224px2、448px2和896px2)训练这些模型,使其具备通过微调进行传输的广泛知识。由此产生的涵盖不同模型大小和分辨率的基础模型系列使我们能够研究影响迁移性能的因素(如学习率),并分析任务类型、模型大小和解决方案之间的相互作用。原创 2024-12-24 09:15:00 · 162 阅读 · 0 评论 -
VisionZip: Longer is Better but Not Necessary in Vision Language Models
视觉语言模型的最新进展通过增加视觉token的长度来提高性能,使其比文本token长得多,并显著提高了计算成本。然而,我们观察到,由流行的视觉编码器(如CLIP和SigLIP)生成的视觉token包含大量冗余。为了解决这个问题,我们引入了VisionZip,这是一种简单而有效的方法,可以选择一组信息token作为语言模型的输入,减少视觉token冗余,提高效率,同时保持模型性能。原创 2024-12-10 15:51:23 · 280 阅读 · 0 评论 -
NVILA: Efficient Frontier Visual Language Models
近年来,视觉语言模型(VLMs)在准确性方面取得了重大进展。然而,它们的效率受到的关注要少得多。本文介绍了NVILA,这是一个开放式VLM系列,旨在优化效率和精度。在VILA的基础上,我们通过首先扩大空间和时间分辨率,然后压缩视觉token来改进其模型架构。这种“先缩放后压缩”的方法使NVILA能够高效地处理高分辨率图像和长视频。我们还进行了系统的调查,以提高NVILA从训练和微调到部署的整个生命周期的效率。NVILA在广泛的图像和视频基准测试中与许多领先的开放式和专有VLM的准确性相匹配或超越。原创 2024-12-10 15:19:52 · 260 阅读 · 0 评论 -
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models
高性能多模态大型语言模型 (MLLM) 在很大程度上依赖于数据质量。这项研究引入了一个名为 Img-Diff 的新颖数据集,旨在通过利用对比学习和图像差异描述的见解来增强 MLLM 中的细粒度图像识别。通过分析相似图像之间的对象差异,我们挑战模型来识别匹配和不同的组件。我们利用 Stable-Diffusion-XL 模型和先进的图像编辑技术来创建成对的相似图像,以突出显示对象替换。我们的方法包括用于识别对象差异的差异区域生成器,然后是用于详细差异描述的差异标题生成器。原创 2024-11-30 09:00:00 · 179 阅读 · 0 评论 -
Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs)
多模态大型语言模型 (MLLM) 利用涵盖文本、图像和音频的综合知识来熟练地解决复杂问题,包括零样本上下文学习场景。本研究探讨了 MLLM 使用描绘二维平面上点分布的图像直观地解决旅行商问题 (TSP) 和多重旅行商问题 (mTSP) 的能力。我们引入了一种在 MLLM 框架内采用多个专门代理的新颖方法,每个代理都致力于针对这些组合挑战优化解决方案。我们的实验研究包括对零样本设置的严格评估,并引入创新的多智能体零样本上下文场景。原创 2024-11-22 10:00:00 · 238 阅读 · 0 评论 -
Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal LLM
多模态大型语言模型 (LLM) 在各种自然语言处理任务(包括从文档中提取数据)中表现出卓越的性能。但是,这些模型的准确性可能会受到文档平面内旋转(也称为倾斜)的显著影响,这是扫描文档的实际场景中的常见问题。本研究调查了文档偏斜对三种最先进的多模态 LLM 的数据提取准确性的影响:Anthropic Claude V3 Sonnet、GPT-4-Turbo 和 Llava:v1.6。我们专注于从合成生成的具有不同偏度的样本文档中提取特定实体。原创 2024-11-13 10:15:00 · 63 阅读 · 0 评论