多模态语音情感识别与边缘计算分布式学习性能分析
1. 多模态语音情感识别方法
1.1 提出方法的准确性优势
在多模态语音情感识别中,提出的方法在未加权准确率(UA)和加权准确率(WA)方面表现出色。与其他显著的参考方法相比,该方法在 UA 上分别实现了 10.88%、15.18%、18.18% 和 3.88% 的提升;在 WA 上也分别超越了部分方法 6.01%、9.31% 和 4.11%。具体数据如下表所示:
| 方法 | Params | FLOPs | 准确率(%) | |
| — | — | — | — | — |
| | | | UA | WA |
| 仅文本 | 109M | 0.00683G | 57.67 | 57.77 |
| 仅音频 | 72M | 1.73G | 57.56 | 58.41 |
| SERVER | 181M | 1.74G | 63.00 | 63.10 |
| 提出的方法 | 203M | 1.74G | 79.96 | 80.66 |
1.2 模型复杂度与性能对比
虽然提出的 3M - SER 方法具有最高的复杂度,但性能有显著提升。从表中可以看出,尽管其参数数量和浮点运算次数相对较多,但在准确率上远超其他方法。
1.3 多头注意力融合机制
提出了一种新颖的多头注意力融合机制来提高多模态语音情感识别的准确性。通过注意力机制学习从 BERT 和 VGGish 分别提取的文本嵌入和音频嵌入,有助于模型更好地理解文本和音频的含义。实验结果表明,该方法在 IEMOCAP 数据集上实现了最高的 UA(79.