现在正在参与一个在线语音势必别项目,但是在多说话人混叠场景,我们还是希望asr能识别主要说话人(先说话的),抑制其他说话人的干扰,相关内容设计语音分离或语音增强,现在要求做成在线流式的,有没有比较不错的预训练模型?case参考:https://google.github.io/speaker-id/publications/VoiceFilter/
现在正在参与一个在线语音势必别项目,但是在多说话人混叠场景,我们还是希望asr能识别主要说话人(先说话的),抑制其他说话人的干扰,相关内容设计语音分离或语音增强,现在要求做成在线流式的,有没有比较不错的预训练模型?case参考:https://google.github.io/speaker-id/publications/VoiceFilter/