GLM-4-Voice 开源项目使用教程
GLM-4-Voice GLM-4-Voice | 端到端中英语音对话模型 项目地址: https://gitcode.com/gh_mirrors/gl/GLM-4-Voice
1. 项目目录结构及介绍
GLM-4-Voice 项目目录结构如下:
GLM-4-Voice/
├── audio_process.py
├── flow_inference.py
├── model_server.py
├── requirements.txt
├── web_demo.py
├── cosyvoice/
├── speech_tokenizer/
├── third_party/
├── .gitignore
├── .gitmodules
├── LICENSE
├── README.md
├── README_en.md
audio_process.py
: 音频处理相关代码,用于改进 Gradio 流式音频播放。flow_inference.py
: 流式推理相关代码。model_server.py
: 模型服务启动脚本,用于启动模型服务。requirements.txt
: 项目依赖的 Python 包列表。web_demo.py
: Web 服务启动脚本,用于启动 Web 界面。cosyvoice/
: CosyVoice 相关代码,用于语音解码。speech_tokenizer/
: 语音分词器相关代码。third_party/
: 第三方库代码。.gitignore
: Git 忽略文件列表。.gitmodules
: Git 子模块配置文件。LICENSE
: 项目使用的 Apache-2.0 协议许可证文件。README.md
: 项目说明文件(中文)。README_en.md
: 项目说明文件(英文)。
2. 项目的启动文件介绍
model_server.py
该文件是启动模型服务的核心脚本。它负责加载模型并启动一个服务,以便其他程序可以与之通信并使用模型进行推理。
启动模型服务的命令如下:
python model_server.py --host localhost --model-path THUDM/glm-4-voice-9b --port 10000 --dtype bfloat16 --device cuda:0
web_demo.py
该文件用于启动 Web 服务,使得用户可以通过浏览器与模型交互。它依赖于 model_server.py
启动的模型服务。
启动 Web 服务的命令如下:
python web_demo.py --tokenizer-path THUDM/glm-4-voice-tokenizer --model-path THUDM/glm-4-voice-9b --flow-path ./glm-4-voice-decoder
3. 项目的配置文件介绍
本项目的主要配置是通过命令行参数来完成的。在启动 model_server.py
和 web_demo.py
时,可以通过不同的参数来指定模型路径、数据类型、设备等。
例如,以下是启动模型服务时的一些常用参数:
--host
: 指定服务监听的地址,默认为localhost
。--model-path
: 指定 GLM-4-Voice 模型的路径。--port
: 指定服务监听的端口号,默认为10000
。--dtype
: 指定数据类型,例如bfloat16
或int4
。--device
: 指定运行模型的设备,如cuda:0
。
启动 Web 服务时,可以通过以下参数来指定路径:
--tokenizer-path
: 指定语音分词器的路径。--model-path
: 指定 GLM-4-Voice 模型的路径。--flow-path
: 指定解码器模型的路径。
GLM-4-Voice GLM-4-Voice | 端到端中英语音对话模型 项目地址: https://gitcode.com/gh_mirrors/gl/GLM-4-Voice