在当今信息爆炸与高速数据流动的时代,我们早已习惯于用眼睛去看、用耳朵去听、用手指去点触这个数字世界。然而,传统的单模态模型往往只能解决片段信息处理的问题,难以在复杂任务中灵活应对。Qwen2.5-Omni 正是在这样的背景下出现的一部全能“虚拟人”,它通过端到端的多模态训练,将文本、图像、音频和视频串联成一体,甚至能够实时生成文字与语音输出,正如人类在沟通中既能说也能听、既能看又能写般自如。这篇技术报告不仅是该模型的详尽说明,更是一部关于未来智能交互的科学传奇。
🌟 新纪元的起点:Qwen2.5-Omni 的独特优势
2025 年 3 月 26 日,Qwen 团队发布了这份技术报告,正式向世界介绍了 Qwen2.5-Omni 这款统一端到端多模态大模型。报告中提到,模型不仅能够聆听语音、捕捉图像信息,还能同步处理视频数据,并以流式方式输出文本与自然语音,这一设计理念为多模态交互奠定了坚实基础。报告指出:“Qwen2.5-Omni 旨在通过将长序列的多模态数据分块处理,让模型在消化海量输入信息的同时,将语义理解与生成任务分离开,实现两全其美的效果。”
想象一下,当我们同时面对一段视频、一段影视音乐以及复杂的文字叙述时,这款模型能否做到像人类大脑那样同步处理并做出反应?答案显然是肯定的。核心在于 Qwen2.5-Omni 内部采用了创新的 Thinker-Talker 架构,并结合先进的时间对齐编码技术(TMRoPE),使得各种模态的数据能够在时间上精准匹配,实现更高层次的信息融合。
🧠 思辨与表达:Thinker-Talker 架构
Qwen2.5-Omni 的重要创新之一便是其 Thinker-Talker 架构。这一架构可被视作“头脑与喉舌”的完美协同:
- Thinker 模块 —— 如同人类的大脑,其任务是处理并理解来自文本、音频、图像及视频的数据。Thinker 采用 Transformer 解码器结构,并辅以专门的音频和视觉编码器,将各模态数据转化为高维语义表示,这些表示不仅包含了单一模态的特征,更融入了各模态间的关联信息。
- Talker 模块 —— 则如同流利的语言表达器官,会根据 Thinker 传来的高层语义表示,实时生成文字以及语音输出。Talker 使用双轨自回归 Transformer 设计,在训练与推理过程中,它可以共享 Thinker 所有历史上下文,实现文字与语音输出之间的无缝转换。
这种设计正如一位指挥家调度交响乐队,各个部分各司其职又和谐配合,使整体效果超出了单一组件之和。报告中提到:“为同时生成文本与语音而避免二者互相干扰,我们提出了 Thinker-Talker 架构,使得二者在同一数据流中高效协同。”正是这种理念,让多模态信息得以以最佳方式传递与表达,从而实现类似人类的全方位交互。
⏱️ 时空对齐的奥秘:TMRoPE 技术
在多模态交互过程中,视频与音频的时间同步是一个棘手问题。Qwen2.5-Omni 通过提出名为 TMRoPE(Time-aligned Multimodal RoPE,即时序对齐多模态旋转位置编码)的新算法,将时间信息嵌入到各模态的特征表示中。
TMRoPE 的核心思想与实现
传统的 Rotary Position Embedding(RoPE)主要处理一维文本序列的位置编码,而 TMRoPE 则将这种方式拓展到了多模态数据,其主要创新点在于对音频、图像和视频数据的 3D 位置进行编码。具体来说,TMRoPE 将原始的旋转嵌入分解为三个独立分量:
- 时间(Temporal):用于记录数据的时间戳信息。对音频来说,每 40ms 为一单位;视频则根据实际帧率动态调整,使得每个帧的时间间隔可以精确对应。
- 高度(Height) 与 宽度(Width):用于表示图像和视频帧内各个 token 的相对位置。无需额外对文本部分进行改动,文本中的位置编码仍然采用一维编号。
这种设计确保了视频数据中音频与视觉信息能够按照真实时间顺序准确对齐;当输入为视频数据时,通过对视觉和音频进行交叉编排,使得两者的信息在投射到同一语义空间后,能够有效互补、相互校正。下图(图 1 示例)直观展示了多模态时空对齐的过程:
在这个过程中,当视频与对应音频数据同时输入时,模型会以块(blocks)的方式处理数据,保证处理过程能够并行加速同时又不会丢失时间间隔信息。这种用块状注意力方法实现的流式处理正是 Qwen2.5-Omni 能够适应长序列数据的重要原因之一。
🔄 流式传输与实时生成:从块式处理到滑动窗口
为了实现实时交互体验,模型必须具备低延迟的生成能力。报告详细描述了两大关键设计:
1. 块式预填充(Chunked-prefills)
这一机制主要解决如何让模型在接收到第一批数据后能迅速开始生成输出的问题。具体来说,在音频和视觉编码器中,采用了块式注意力机制,将整个长序列分割为若干小块,每块约 2 秒。这样既能保证模型输入中各部分之间的联系,又能大幅降低首次响应的延迟。
举个例子,当用户的视频数据输入到模型后,模型不必等待整个视频上传完毕,而是以每两秒为一块进行处理,提前对数据进行预填充,从而在生成第一段文字或语音响应时,有充分的上下文信息作支撑。
2. 滑动窗口 DiT 机制
语音生成部分利用了基于滑动窗口的 DiT 模型,该机制限制每个生成 token 只能关注有限范围内的历史信息,以避免超级长上下文带来的计算负担和延迟。通过将连续的音频代码(tokens)分块,并为每块设置一个“看回”窗口,例如“向后看 2 块,向前看 1 块”,可在保证输出质量与稳定性的同时有效减少初始包延迟。图 2 展示了该滑动窗口块注意力机制的基本原理:
通过这种方式,Qwen2.5-Omni 能够在生成过程中借助有限但足够的上下文信息,提高语音合成的流畅度与稳定性,同时避免传统全局注意力机制带来的高计算代价和延迟。
🔧 从预训练到后训练:构建全能智慧引擎
面对信息高度多样且庞大的多模态数据,Qwen2.5-Omni 的成功离不开分阶段的训练策略。报告中详细描述了三个阶段的预训练以及后续的微调过程:
预训练阶段
-
第一阶段:固定 LLM 参数,仅训练视觉与音频编码器。利用大规模的图片-文本、音频-文本对数据,重点增强编码器的模态感知和语义抽取能力。此时,LLM 部分借用已在 Qwen2.5 模型中预训练的知识,确保后续训练效率更高。
-
第二阶段:解冻所有参数,融合更多种类的多模态数据(包括视频、音频、混合语料等),同时扩充任务类型,这一阶段使得模型能够从更广泛的数据中学习到各模态之间深层次的关联与互补规律。
-
第三阶段:针对长序列场景,将序列长度扩展至 32k(32768)tokens,从而帮助模型理解与处理复杂、长时间跨度的数据。
后训练阶段
后训练主要依赖于基于 ChatML 格式的指令数据,对模型进行指令微调,使其在实际对话场景中具备更出色的上下文理解与响应生成能力。尤其是在音频生成方面,报告详细描述了 Talker 模块从上下文延续、通过 DPO(Direct Preference Optimization)提升语音生成稳定性,再到多说话人指令调优的三阶段训练过程。
在这一过程中,Talker 利用一种高效的语音编码器—— qwen-tts-tokenizer ,对语音关键信息进行高效表示,实现语音与文字的双向映射。为防止偶尔出现的模型幻觉,还引入了强化学习(Reinforcement Learning)阶段,通过构建 (x, y_w, y_l) 三元组数据,用奖励函数(基于词错误率 WER 及标点间隙误差率)优化语音生成结果。公式如下所示:
L D P O ( P θ ; P r e f ) = − E ( x , y w , y l ) ∼ D [ log σ ( β log P θ ( y w ∣ x ) P r e f ( y w ∣ x ) − β log P θ ( y l ∣ x ) P r e f ( y l ∣ x ) ) ] LDPO(P_{\theta};Pref)= -\mathbb{E}_{(x,y_w,y_l)\sim D}\left[\log \sigma \left(\beta\log P_{\theta}(y_w|x)Pref(y_w|x) - \beta\log P_{\theta}(y_l|x)Pref(y_l|x)\right)\right] LDPO(Pθ;Pref)=−E(x,yw,yl)∼D[logσ(βlogPθ(yw∣x)Pref(yw∣x)−βlogPθ(yl∣x)Pref(yl∣x))]
该公式直观表明,通过对比“好”与“不好”生成结果,模型在语音生成效果上能够不断优化,从而实现更高的内容一致性与语音自然性。
🎯 严苛评测:多项指标全面领先
为了验证 Qwen2.5-Omni 的多模态交互能力,团队进行了覆盖文本、音频、图像和视频等多方面任务的系统评测。以下我们将分别介绍各项评测指标及其表现:
1. 文本理解与生成 (Text → Text)
模型在 MMLU-Pro、MMLU-redux、数学题(MATH、GSM8K)以及代码生成等任务中,整体表现位居同规模模型的前列。例如,在 MMLU-Pro 测试中,Qwen2.5-Omni 的得分接近 Qwen2.5-7B,而在数学任务上更展现出超群实力。这充分证明了其内在的语言理解与逻辑推理优势。
表 1. 文本到文本任务性能一览
数据集 MMLU-Pro MMLU-redux MATH GSM8K HumanEval MBPP Qwen2.5-Omni-7B 得分 47.0 71.0 71.5 88.7 78.7 73.2
2. 音频理解与语音生成 (Audio → Text & X → Speech)
在自动语音识别(ASR)、语音翻译(S2TT)、语音实体识别(SER)等标准音频任务上,模型在 Librispeech、Common Voice 以及 Fleurs 等数据集上均取得了令人惊叹的低错误率。此外,通过 VoiceBench 等口语交互测试,Qwen2.5-Omni 在语音指令跟随和语音对话任务中展示出与纯文本输入同样优异的表现。特别在零-shot 语音生成中,通过改进后的收敛与 RL 优化,模型在 SEED 数据集上获得了远低于竞争对手的词错误率(WER)和极高的发音自然度。
表 2. 音频任务部分性能对比
模型 ASR (test-clean) S2TT (en-zh) SER VoiceBench 平均 Qwen2.5-Omni-7B 1.8 – 3.5 41.4 0.570 74.12
3. 图像与视频理解 (Image/Video → Text)
在图像问答、OCR、视觉推理等任务中,Qwen2.5-Omni 与最新的 Qwen2.5-VL-7B 平分秋色,甚至在部分指标上略有超越。报告中列举的 MMMU、MathVision、MMBench 以及 Visual Grounding 等数据集上的表现,都印证了其卓越的图像理解能力。而在视频理解任务上,通过 Video-MME、MVBench 和 EgoSchema 等多模态基准测试,模型也展现出令人满意的实时视频解析能力。
表 3. 图像与视频任务性能概览
任务类型 代表数据集 Qwen2.5-Omni-7B 得分 图像问答 Refcoco 系列 90.5 – 93.5 数学视觉问题 MathVision 25.0 – 25.1 视频理解 Video-MME 64.3 – 72.4
4. 跨模态融合与综合理解 (Multimodality → Text)
多模态任务 OmniBench 重点考察模型在处理同时包含图像、语音及文本输入时的综合能力。数据显示,Qwen2.5-Omni 在处理这类复合输入时,平均得分远高于其他同类模型,能够充分挖掘各模态间潜在联系,实现效果上的质的飞跃。
表 4. OmniBench 多模态任务综合得分
模态类别 语音 声音事件 音乐 平均分 Qwen2.5-Omni-7B 55.25% 60.00% 52.83% 56.13%
5. 语音生成效果与自然度评测 (Speech Generation)
针对零-shot 与单一说话人(Single-Speaker)语音生成任务,评测结果表明:经过强化学习调优后的 Qwen2.5-Omni 能够在音频生成任务中提供令人惊艳的内容一致性和语音自然度。在 SEED 数据集上的测试中,经过多说话人微调后的版本甚至能达到接近人类真实语音的自然度,主观自然度指标(NMOS)高达 4.5 分以上。
表 5. 语音生成测试结果(部分数据摘录)
测试类型 内容一致性 (WER) NMOS(自然度) 零-shot 语音生成 1.42% – 6.54% — 单说话人调优后 1.28% – 1.37% ~4.50 – 4.62
🚀 未来展望:开启通用人工智能新时代
正如报告最后所述,Qwen2.5-Omni 不仅在当前实验中展现出完美的多模态处理能力,更为未来通用人工智能(AGI)的实现奠定了坚实基础。模型已成功打破语音与文本、视觉之间的界限,未来将进一步扩展到图像、视频甚至音乐等更丰富的模态输出领域。团队计划在后续版本中进一步降低流式生成的延迟,提升模型响应速度,并通过更多实用场景的落地应用,将这一技术转化为助力工业与科研双轮驱动的核心引擎。
展望未来,随着硬件的升级与技术优化,基于 Qwen2.5-Omni 架构的多模态系统必将在智能办公、虚拟助手、教育教学、在线医疗、内容创意等众多领域获得广泛普及,真正实现“看、听、说、写、做”的有机统一。
🛠️ 实施指南与开发实践
为了让广大开发者能够快速上手这一前沿技术,Qwen 团队还提供了详尽的使用文档和 Cookbooks。从基于 Hugging Face Transformers 和 ModelScope 平台的 API 调用,到 Docker 容器部署,再到 vLLM 离线推理方案,整个使用流程设计周到,让初学者和资深开发者都可轻松体验 Qwen2.5-Omni 带来的变革性效果。
例如,以下是一段使用 Transformers 接口处理多模态输入的代码示例,该示例不仅展示了文本生成流程,还包括了视频、音频以及图像数据的预处理与整合:
import soundfile as sf
from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor
from qwen_omni_utils import process_mm_info
model = Qwen2_5OmniModel.from_pretrained("Qwen/Qwen2.5-Omni-7B", torch_dtype="auto", device_map="auto")
processor = Qwen2_5OmniProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")
conversation = [
{
"role": "system",
"content": "You are Qwen, a virtual human capable of multimodal interaction.",
},
{
"role": "user",
"content": [
{"type": "video", "video": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/draw.mp4"},
],
},
]
text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
audios, images, videos = process_mm_info(conversation, use_audio_in_video=True)
inputs = processor(text=text, audios=audios, images=images, videos=videos, return_tensors="pt", padding=True)
inputs = inputs.to(model.device).to(model.dtype)
text_ids, audio = model.generate(**inputs, use_audio_in_video=True)
text_output = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(text_output)
sf.write("output.wav", audio.reshape(-1).detach().cpu().numpy(), samplerate=24000)
通过这一完整的流程,用户能够体验到模型从多模态输入到生成文本与语音输出的整个链路,同时获得跨领域应用的灵感与启示。
🔍 结语
Qwen2.5-Omni 无疑是一部在多模态人工智能领域的颠覆性作品。它将不同模态的数据通过创新架构与高效算法实现了无缝衔接,既保留了各自的信息特性,又能通过共享上下文实现深度融合。这种兼顾理解与生成、统筹文本与语音的设计无疑为未来通用人工智能的发展指明了方向。
从 Thinker-Talker 架构、TMRoPE 位置编码,到块式注意力与滑动窗口机制,每一项技术的突破都凝聚着团队对跨模态交互极致体验的不懈追求。无论是在学术界还是工业界,Qwen2.5-Omni 展现出的优越性能和广泛适用性都让人充满期待。未来,随着更多创新应用的不断落地,这份技术报告将成为推动人工智能全能交互新时代的重要里程碑。
在这场全能多模态的奇迹之旅上,我们现已站在新的起点上。或许不久的将来,当人们面对的不再仅仅是文字、图像或声音,而是一个能够“看、听、说、写、做”全方位互动的智能体,Qwen2.5-Omni 的探索与实践将会成为开启通用人工智能新时代的重要钥匙。
参考文献
- Qwen Team. Qwen2.5-Omni Technical Report, 2025-03-26.
(详见 https://huggingface.co/Qwen 以及 https://modelscope.cn/organization/qwen) - Chu et al., 2024a. 关于 Qwen2-Audio 模型的技术文档。
- Bai et al., 2023b. 关于 Multimodal Rotary Position Embedding 的论文。
- Tang et al., 2024. 关于 Seed-ASR-Multilingual 和相关语音评测。
- Yao et al., 2024. 关于 MiniCPM-o 与图像、视频理解任务的最新研究成果。