GLM-4-Voice 开源项目使用教程

最新推荐文章于 2025-04-09 09:27:34 发布

卫颂耀Armed

最新推荐文章于 2025-04-09 09:27:34 发布

阅读量855

点赞数 8

本文链接：https://blog.csdn.net/gitblog_00710/article/details/147084623

版权

GLM-4-Voice 开源项目使用教程

GLM-4-Voice GLM-4-Voice | 端到端中英语音对话模型项目地址: https://gitcode.com/gh_mirrors/gl/GLM-4-Voice

1. 项目目录结构及介绍

GLM-4-Voice 项目目录结构如下：

GLM-4-Voice/
├── audio_process.py
├── flow_inference.py
├── model_server.py
├── requirements.txt
├── web_demo.py
├── cosyvoice/
├── speech_tokenizer/
├── third_party/
├── .gitignore
├── .gitmodules
├── LICENSE
├── README.md
├── README_en.md

audio_process.py: 音频处理相关代码，用于改进 Gradio 流式音频播放。
flow_inference.py: 流式推理相关代码。
model_server.py: 模型服务启动脚本，用于启动模型服务。
requirements.txt: 项目依赖的 Python 包列表。
web_demo.py: Web 服务启动脚本，用于启动 Web 界面。
cosyvoice/: CosyVoice 相关代码，用于语音解码。
speech_tokenizer/: 语音分词器相关代码。
third_party/: 第三方库代码。
.gitignore: Git 忽略文件列表。
.gitmodules: Git 子模块配置文件。
LICENSE: 项目使用的 Apache-2.0 协议许可证文件。
README.md: 项目说明文件（中文）。
README_en.md: 项目说明文件（英文）。

2. 项目的启动文件介绍

model_server.py

该文件是启动模型服务的核心脚本。它负责加载模型并启动一个服务，以便其他程序可以与之通信并使用模型进行推理。

启动模型服务的命令如下：

python model_server.py --host localhost --model-path THUDM/glm-4-voice-9b --port 10000 --dtype bfloat16 --device cuda:0

web_demo.py

该文件用于启动 Web 服务，使得用户可以通过浏览器与模型交互。它依赖于 model_server.py 启动的模型服务。

启动 Web 服务的命令如下：

python web_demo.py --tokenizer-path THUDM/glm-4-voice-tokenizer --model-path THUDM/glm-4-voice-9b --flow-path ./glm-4-voice-decoder

3. 项目的配置文件介绍

本项目的主要配置是通过命令行参数来完成的。在启动 model_server.py 和 web_demo.py 时，可以通过不同的参数来指定模型路径、数据类型、设备等。

例如，以下是启动模型服务时的一些常用参数：

--host: 指定服务监听的地址，默认为 localhost。
--model-path: 指定 GLM-4-Voice 模型的路径。
--port: 指定服务监听的端口号，默认为 10000。
--dtype: 指定数据类型，例如 bfloat16 或 int4。
--device: 指定运行模型的设备，如 cuda:0。

启动 Web 服务时，可以通过以下参数来指定路径：

--tokenizer-path: 指定语音分词器的路径。
--model-path: 指定 GLM-4-Voice 模型的路径。
--flow-path: 指定解码器模型的路径。

GLM-4-Voice GLM-4-Voice | 端到端中英语音对话模型项目地址: https://gitcode.com/gh_mirrors/gl/GLM-4-Voice