
音频信号处理
文章平均质量分 51
这是我从YouTube上跟着一个视频教程学习后做的笔记,虽然我的笔记本来只准备给自己用的,但是我也会尽量让别人可以看懂,因为原视频是全英文的,连中文字幕都没有,所以我做的笔记还是很有意义的。
龙哥每天都要学
即便知道自己很菜,但只要努力就会有所收获。
展开
-
语音深度学习常用的特征:梅尔谱
Mel spectrogram 梅尔谱根据我们人类听觉的特性,我们对低频声音比较敏感,对高频声音没那么敏感所以当声音频率线性增大时,频率越高,我们越难听出差别,因此不用线性谱而是对数谱Mel谱包含三大特性:时域-频域信息感知相关的振幅信息感知相关的频域信息Mel谱的核心就是Mel-scale,一个对数尺度的对于频率感知线性变化的尺度提取Mel谱的方法:做STFT得到复数矩阵将幅度转成分贝(db) 问:如果这里在mel spectrogram里面就把幅度转成db了,那Log_me原创 2021-07-23 22:25:09 · 6633 阅读 · 2 评论 -
深入浅出地理解傅里叶变换、语谱图(spectrogram)
深入浅出地理解傅里叶变换类比:就像光的色散一样,sound相当于白光,FT相当于棱镜,散射出来的各色的光谱就是频域信息直观理解:傅里叶变换将复杂的时域声音信号转换成了频域部分深入理解:首先将原始信号与许多不同频率的正弦信号相比较对于每一种频率,我们得到了一个振幅和一个相位振幅信息表现了原始信号和对应频率的正弦信号之间的相似程度离散傅里叶变换 (DFT)因为计算机中存储的信号通常是离散信号,所以我们要使用离散傅里叶变换 DFT连续函数的计算使用积分,离散函数的计算使用求和从离散傅里叶变换(D原创 2021-07-23 21:30:24 · 2590 阅读 · 0 评论 -
时域信号特征提取:振幅包络、均方根能量、过零率
时域特征提取Amplitude envelope 振幅包络每一帧的振幅包络连起来可以得到整段语音的振幅包络线振幅包络可以给出响度的大致信息,对异常特别敏感应用:(声音事件)开端检测、音乐流派分类Root-mean-square energy 均方根能量均方根能量表达的是一帧内所有样本点的一个综合信息也能表达响度的信息,不过没有AE那样对异常敏感应用:音频分割、音乐流派分类Zero crossing rate 过零率过零率是信号经过x轴的次数import librosaimpor原创 2021-07-23 16:29:00 · 6993 阅读 · 6 评论 -
语音特征提取流程:分帧、加窗、傅里叶变换
语音特征提取流程深度学习常用的时域-频域特征:Spectrogram: 语谱图Mel spectrogram 梅尔谱Step 3: Framing 分帧由于人耳能听到的声音时长至少为10ms,所以要将数字信号分帧成一个个可以听的块,也就是分帧一帧中采样点的个数通常取2的幂,连续帧通常重复一半采样点,典型值是:256-8192frame_duration = (1 / sr) * K K是一帧内采样点的个数时域特征提取流程频域特征提取流程频域特征是在时域特征的基础上加窗再做傅里叶变换原创 2021-07-23 15:10:09 · 3393 阅读 · 1 评论 -
音频信号处理第一步:模电转换
Analog to digital conversion 模电转换模拟信号是时间和振幅的连续值,电子信号是一系列离散的点。模拟信号Step 1: Sampling 采样采样率奈奎斯特采样定理奈奎斯特采样定理香农采样定理,解释了采样率和所测信号频率之间的关系奈奎斯特频率 fN = sr / 2只要奈奎斯特频率高于采样信号的最高频率,也就是采样率fs大于被测信号感兴趣最高频率分量的两倍,就可以避免产生混叠效应(Aliasing)Step 2: Quantization 量化分辨率和位原创 2021-07-23 14:43:31 · 882 阅读 · 0 评论 -
音频信号基础知识:波形、功率、强度、响度、音质
波形波形图:将声波转换为电信号保存起来就变成了波形图波形图分为真实声音的波形图(只是理论存在)、录制声音的波形图、回放声音的波形图。通常我们一般讲的原始波形图都是指录制出来的波形图。波形包含了多因素信息,例如:频率、强度、音质周期性波形的相邻波峰之间为一个周期,频率为周期的倒数频率越大,音高越高。 振幅越大,响度越大。pitch(音高)与 frequency 之间存在一个转换公式从pitch和频率的对应关系可以看出,人耳对频率变化的感知不是线性的,而是类似log变化的Sound po原创 2021-07-23 14:21:44 · 11495 阅读 · 0 评论