
语音识别
文章平均质量分 71
语音识别基础理论与平台
机器灵
这个作者很懒,什么都没留下…
展开
-
语音识别基本流程
所谓语音识别,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作,将需要分析的音频信号从原始信号中合适地提取出来;特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型...原创 2018-02-24 14:15:59 · 47874 阅读 · 6 评论 -
Kaldi-yesno详解
在Kaldi的egs文件下有很多基于公共语音数据库的训练步骤及测试结果,其中也有中文的,本文就相对很简单的yesno样例结合脚本以及脚本运行结果进行详细的解析,以更好地理解语音识别的整体流程。总括我们先来看一下run.sh脚本cd ./egs/yesno/s5/vi run.sh=================================================...原创 2018-08-11 21:36:50 · 6343 阅读 · 2 评论 -
语音识别-kaldi下载与安装
Kaldi是为语音识别开发者提供的非常强大的工具库,其名字来自一个传说中发现咖啡树的牧羊人,由C++编码,目前支持GMM-HMM、SGMM-HMM、DNN-HMM等多种语音识别的模型的训练和预测。其现在和安装也很方便。下载:像所有GitHub上的开源项目一样,通过git clone完成对kaldi的下载,未安装git的情况下可以先安装git,当然也可以通过下载压缩包,解压后进行安装操作。...原创 2018-07-21 16:54:46 · 3455 阅读 · 1 评论 -
语音识别-SRILM安装与使用
SRILM是一个应用比较广泛的统计和分析语言模型的工具,另外,还有 Kenlm,IRSTLM,MITLM等语言模型工具。本文就SRILM的安装和使用做简单的介绍。SRILM的主要目标是支持语言模型的估计和评测。估计是从训练数据(训练集)中得到一个模型,包括最大似然估计及相应的平滑算法;而评测则是从测试集中计算其困惑度。其最基础和最核心的模块是n-gram模块,这也是最早实现的模块,包括两个工具...原创 2018-07-23 17:17:41 · 8971 阅读 · 1 评论 -
语音识别-字典
所谓字典,就是发音字典的意思,中文中就是拼音与汉字的对应,英文中就是音标与单词的对应,其目的是根据声学模型识别出来的音素,来找到对应的汉字(词)或者单词,用来在声学模型和语言模型建立桥梁,将两者联系起来。字典形式: 字典的大小:字典的大小一般根据自己识别的方向,尽可能多的覆盖所有的字词,但也要尽可能多的抛弃不需要的字词,以提高检索效率和识别性能。字典的获得:...原创 2018-05-31 16:20:00 · 5296 阅读 · 0 评论 -
语音识别-语言模型
1. 语言模型的目的提到语言模型,给一个大家最熟悉的使用场景就是输入法,智能拼音输入法,打出一串拼音,直接给出了合适的句子,即使不是你想要的,但确实是符合语法习惯的,例如,你的名字叫“福贵”你输入了“fugui”,出来的可能是“富贵”,但不会出来“抚跪”,这就是语言模型的功劳!~~~~一句话,语音识别中语言模型的目的就是根据声学模型输出的结果,给出概率最大的文字序列!~~~2. n-gram语言模...原创 2018-05-04 15:05:30 · 12899 阅读 · 0 评论 -
语音识别-HMM
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可...原创 2018-04-26 16:03:06 · 2502 阅读 · 1 评论 -
语音识别-GMM算法原理
GMM(高斯混合模型)是相对于单高斯模型来说的,是多个单高斯分布进行混合,理论上可以拟合出所有的分布曲线,主要应用于聚类算法。废话就不多说了,估计大家都知道高斯混合模型是个什么东西,下面直接列出单高斯模型和高斯混合模型的攻势以及示意图:单高斯模型分布高斯分布概率密度函数混合高斯模型图(两个component)混合高斯分布概率密度函数混合高斯分布主要有K个component组成,每个componen...原创 2018-04-22 17:34:35 · 7251 阅读 · 0 评论 -
语音识别-MFCC特征提取
本文是在上一篇文章(语音识别-预处理)的基础上进行的。 梅尔频率倒谱系数(MFCC):梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。其主要过程为:1. 离散傅里叶变换 离散傅里叶变DFT的输入是一帧帧加窗后的信号x[n]…x[m],输出则是包含N...原创 2018-03-06 17:44:24 · 8833 阅读 · 2 评论 -
语音识别-声学模型(GMM-HMM)
本文主要讲解一下GMM-HMM算法声学模型的大概思路!~~~声学模型的目的是将经MFCC提取的所有帧的特征向量转化为有序的音素输出。概述如下:我们都知道HMM模型里面有隐含状态概念。我们需要弄明白音素HMM模型的隐含状态与一个音素之间的关系,通常一个音素含有3到5个状态,如果一个包含代表一个音素的HMM模型有3个状态(1,2,3,4,5),在对应一个音素的状态序列可以有1122333455(共10...原创 2018-03-12 10:55:45 · 9766 阅读 · 1 评论 -
语音识别-预处理
在进行特征提取之前,都要对原始序列做一系列的预处理,目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素,对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量。常用的预处理方法有:端点检测其实就是找到语音信号的起始点和结束点。预加重目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音...原创 2018-02-25 16:30:40 · 11776 阅读 · 1 评论