[新闻.AI]OpenAI推出“下一代语音模型”(gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts)

        OpenAI 于2025 年 3 月 20 日在API中推出“下一代语音模型”(三款新的语音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts)——提供语音转文本及文本转语音的能力,并具备领先的准确性和可靠性。支持用户通过自然语言与 AI Agent 系统深度交互,帮助提升客服中心、会议记录等复杂场景中的实用价值。

(下面借助 Grok 3 生成) 

模型技术细节

模型名称

类型

主要特点

定价(每百万令牌)

gpt-4o-transcribe

语音转文本(STT)

取代 Whisper,词错误率更低,擅长处理口音、嘈杂环境和多变语音速度,印度语系语言 WER ~30%

6.00 美元(约 0.006 美元/分钟)

gpt-4o-mini-transcribe

语音转文本(STT)

取代 Whisper,类似改进,成本更低

3.00 美元(约 0.003 美元/分钟)

gpt-4o-mini-tts

文本转语音(TTS)

可通过自然语言指令自定义语音风格(如情感、口音),目前限预设人工声音

文本 0.60 美元,音频 12.00 美元(约 0.015 美元/分钟)

  • 训练与架构:这些模型基于 GPT-4o 和 GPT-4o-mini 架构,预训练于专门的音频数据集,并通过高级蒸馏技术和强化学习优化,转录准确性达到行业领先水平。

  • 多语言支持:模型支持 100 多种语言,包括较小语言如马拉雅alam,特别在处理上下文和细微差别方面表现优异,这一点在 Jijo Sunny 的帖子中得到了证实。

  • 性能改进:据 VentureBeat 报道,模型在英语中的词错误率低至 2.46%,并配备了噪声消除和语义语音活动检测器,提升了转录准确性。

用户反馈与应用场景

  • 早期采用者反馈:EliseAI 和 Decagon 等公司报告了显著改进,例如转录准确性提高了 30%,并在租户互动和客户服务中表现出色。

  • 实时应用:这些模型支持流式语音转文本,适合自然对话场景,OpenAI 建议通过 Realtime API 实现低延迟应用。

  • 创意竞赛:OpenAI 还在 X 上(@openAI)举办了 OpenAI.fm 的创意使用竞赛,获胜者将获得 Teenage Engineering 定制收音机,进一步鼓励开发者探索这些模型的应用。

行业与社会影响

  • 技术进步:这些模型的发布标志着 OpenAI 在语音 AI 领域的又一突破,尤其是在多语言支持和语音处理的准确性上。这可能推动语音交互应用的创新,例如智能客服、语言学习工具和多语言内容创作。

  • 开放性争议:与之前的 Whisper 模型不同,这些新模型未开源,OpenAI 认为它们过于庞大,不适合本地运行。这可能引发关于 AI 模型开放性与商业化平衡的讨论,尤其是在学术界和开源社区中。

  • 全球包容性:对小语言的支持(如马拉雅alam)可能为全球范围内的 AI 应用带来更大的包容性和可访问性,特别是在发展中国家和语言多样性地区。

定价与可用性

  • 这些模型通过 OpenAI 的 API 和自定义演示网站 OpenAI.fm 提供,开发者可以根据需求选择适合的模型。

  • 定价策略(如 gpt-4o-mini-transcribe 的低成本选项)可能吸引中小企业和初创公司,但高成本模型(如 gpt-4o-transcribe)可能限制个人用户的广泛采用。

小结

        OpenAI 的新语音模型在 2025 年 3 月 20 日 的发布是语音 AI 领域的一次重要进展,特别是在多语言支持和复杂语音场景的处理上。Jijo Sunny 的 X 帖子证实了这些模型的优越性,尤其是 STT 模型在小语言中的表现。这些模型的推出不仅为开发者提供了强大的工具,也可能推动语音交互应用的全球化和创新。


关键引文

### GPT-4 实时语音处理方案 对于实现实时语音处理的需求,可以利用GPT-Realtime API来达成这一目标。此API不仅支持音频输入输出,还能够提供实时、自然的语音交互体验,这超越了传统的基于文本的人工智能对话形式[^2]。 然而需要注意的是,官方提及的特性具体到GPT-4版本可能有所差异。如果考虑成本效益以及性能方面的要求,GPT-4o提供了更快的速度、更低的价格与更高的速率限制,这些特点使其成为执行此类任务的理想选择之一[^1]。 为了实现具体的实时语音处理应用,开发者通常会结合其他工具或服务共同完成整个流程的设计。例如,在涉及到将语音转化为文字的过程中,可能会先采用像Whisper这样的模型来进行转录工作,因为这类模型擅长于为有听力障碍者开发辅助技术,并能有效地把音频内容转换成文本,适用于会议、网络研讨会等多种场景下的实时字幕生成[^3]。 一旦获得了经过转写的文本数据之后,则可以通过调用GPT-4o-Realtime API接口进一步分析理解这段话的意义并作出回应;如果是想要构建一个多轮次互动式的应用程序的话,还可以在此基础上加入更多高级功能,比如上下文记忆等功能以提升用户体验质量。 ```python import whisper from gpt_4o_realtime_api import RealTimeClient def transcribe_audio_to_text(audio_file_path): model = whisper.load_model("base") # 加载 Whisper 模型用于语音识别 result = model.transcribe(audio_file_path) return result['text'] def process_and_respond(text_input, api_key): client = RealTimeClient(api_key=api_key) # 初始化 GPT-4o-Realtime 客户端实例 response = client.generate_response(prompt=text_input) print(f"GPT Response: {response}") if __name__ == "__main__": audio_path = "path/to/your/audio/file.wav" text_output = transcribe_audio_to_text(audio_path) your_api_key = 'YOUR_API_KEY' process_and_respond(text_output, your_api_key) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

俊哥V

这是个嘛?

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值