OpenAI 于2025 年 3 月 20 日在API中推出“下一代语音模型”(三款新的语音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts)——提供语音转文本及文本转语音的能力,并具备领先的准确性和可靠性。支持用户通过自然语言与 AI Agent 系统深度交互,帮助提升客服中心、会议记录等复杂场景中的实用价值。
(下面借助 Grok 3 生成)
模型技术细节
模型名称 | 类型 | 主要特点 | 定价(每百万令牌) |
---|---|---|---|
gpt-4o-transcribe | 语音转文本(STT) | 取代 Whisper,词错误率更低,擅长处理口音、嘈杂环境和多变语音速度,印度语系语言 WER ~30% | 6.00 美元(约 0.006 美元/分钟) |
gpt-4o-mini-transcribe | 语音转文本(STT) | 取代 Whisper,类似改进,成本更低 | 3.00 美元(约 0.003 美元/分钟) |
gpt-4o-mini-tts | 文本转语音(TTS) | 可通过自然语言指令自定义语音风格(如情感、口音),目前限预设人工声音 | 文本 0.60 美元,音频 12.00 美元(约 0.015 美元/分钟) |
-
训练与架构:这些模型基于 GPT-4o 和 GPT-4o-mini 架构,预训练于专门的音频数据集,并通过高级蒸馏技术和强化学习优化,转录准确性达到行业领先水平。
-
多语言支持:模型支持 100 多种语言,包括较小语言如马拉雅alam,特别在处理上下文和细微差别方面表现优异,这一点在 Jijo Sunny 的帖子中得到了证实。
-
性能改进:据 VentureBeat 报道,模型在英语中的词错误率低至 2.46%,并配备了噪声消除和语义语音活动检测器,提升了转录准确性。
用户反馈与应用场景
-
早期采用者反馈:EliseAI 和 Decagon 等公司报告了显著改进,例如转录准确性提高了 30%,并在租户互动和客户服务中表现出色。
-
实时应用:这些模型支持流式语音转文本,适合自然对话场景,OpenAI 建议通过 Realtime API 实现低延迟应用。
- 创意竞赛:OpenAI 还在 X 上(@openAI)举办了 OpenAI.fm 的创意使用竞赛,获胜者将获得 Teenage Engineering 定制收音机,进一步鼓励开发者探索这些模型的应用。
行业与社会影响
-
技术进步:这些模型的发布标志着 OpenAI 在语音 AI 领域的又一突破,尤其是在多语言支持和语音处理的准确性上。这可能推动语音交互应用的创新,例如智能客服、语言学习工具和多语言内容创作。
-
开放性争议:与之前的 Whisper 模型不同,这些新模型未开源,OpenAI 认为它们过于庞大,不适合本地运行。这可能引发关于 AI 模型开放性与商业化平衡的讨论,尤其是在学术界和开源社区中。
-
全球包容性:对小语言的支持(如马拉雅alam)可能为全球范围内的 AI 应用带来更大的包容性和可访问性,特别是在发展中国家和语言多样性地区。
定价与可用性
-
这些模型通过 OpenAI 的 API 和自定义演示网站 OpenAI.fm 提供,开发者可以根据需求选择适合的模型。
-
定价策略(如 gpt-4o-mini-transcribe 的低成本选项)可能吸引中小企业和初创公司,但高成本模型(如 gpt-4o-transcribe)可能限制个人用户的广泛采用。
小结
OpenAI 的新语音模型在 2025 年 3 月 20 日 的发布是语音 AI 领域的一次重要进展,特别是在多语言支持和复杂语音场景的处理上。Jijo Sunny 的 X 帖子证实了这些模型的优越性,尤其是 STT 模型在小语言中的表现。这些模型的推出不仅为开发者提供了强大的工具,也可能推动语音交互应用的全球化和创新。
关键引文