张海腾：语音识别实践教程

Datawhale

于 2021-05-08 22:00:00 发布

阅读量653

点赞数

文章标签：人工智能深度学习机器学习 tensorflow 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Datawhale/article/details/116549043

版权

本文介绍了语音识别的基础知识，包括波形图、采样点、频谱图和基本单位。作者通过天池比赛实例讲解了ASR的解决思路，涉及声学模型、语言模型、解码器以及端到端方法。提供了完整的实践代码，使用CNN对梅尔谱特征进行建模预测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：张海腾，标贝科技，Datawhale优秀学习者

作为智能语音交互相关的从业者，今天以天池学习赛：《零基础入门语音识别：食物声音识别》为例，带大家梳理一些自动语音识别技术（ASR）关的知识，同时给出线上可运行的完整代码实践，供大家练习。

实践背景

赛题名称：零基础入门语音识别-食物声音识别

实践地址：（文末阅读全文或复制链接）https://tianchi.aliyun.com/competition/entrance/531887/information

语音相关知识点梳理

一些在我司常听到的关键词

语音不像文本，可以看得见，仅有对应的音频，需要对语音有一个“可以看见”的过程，于是有了下列的几种音频文件的表示方法：

1）波形图

语音的保存形式可用波形图展现，可以看作是上下摆动的数字序列，每一秒的音频用16000个电压数值表示，采样率即为16kHz。

2）采样点

采样点是对波形图的放大，可以看到的更细的单位

3）频谱图

可以变为频谱图，颜色代表频带能量大小，语音的傅立叶变换是按帧进行，短的窗口有着高时域和低频域，长时窗口有低时域和高频域。

4）基本单位

对于语音而言，基本单位是帧（对应文本的token），一帧即是一个向量，整条语音可以表示为以帧为单位的向量组。帧是由ASR的前端声学特征提取模块产生，提取的技术设计“离散傅立叶变换”和”梅尔滤波器组“

整体解决思路

在我的理解认知中，对于ASR的解决方法可以分为两种，一种是声学模型加语言模型的组合，另外一种是端到端的解决方式。

第一种方式：
路线的个人理解大约是，有一个音频，先有声学模型，将对应的音频信号处理为对应的声学特征，再有语言模型，将声学特征的结果得到概率最大的输出字符串。
在上图中，代表的是声学特征向量，

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。