如何分割出音频中的每一个字？

最近在做音频处理，遇到了这个问题。我期望能够把音频中的每一个字切出来，做成数据集，喂给神经网络训练。我在网上找了很久，没有找到比较靠谱的。有小伙伴提供一下线索或者类似的项目供参考呢？谢谢。

报告相同问题？

关注问题