概述
- 到目前,GPT只能去接收文本的输入,但是在现实的生活当中,会有语音的需求
- GPT也有相关的能力接入,我们就需要一个能够将语音内容转换成文本的能力
- 当然其他第三方的软件或者接口也是支持这个功能
- 在 Open AI 有一个语音转文本的模型叫做 whisper
- 在 Open AI 它的官方网站当中,在左侧可以看到有一个 Audio 关于音频的API
- 文档: https://platform.openai.com/docs/api-reference/audio/create-transcription
- 接口: https://api.openai.com/v1/audio/transcriptions
- 可以看到它的参数
- file 参数,必选,file类型,支持 mp3,mp4,mpeg,mpga,m4a,wav,or webm.
- model 参数,必选,string 类型,目前仅支持 whisper-1
- prompt 参数,可选,string 类型
- response_format 参数,可选,string 类型
- temperature 参数,可选,number 类型 默认 0
- language 参数