42、基于语音和面部信息的多模态情感检测简化分类方法-CSDN博客

本文链接：https://blog.csdn.net/vscode5coder/article/details/153394229

基于语音和面部信息的多模态情感检测简化分类方法

一、引言

在多媒体和社交媒体的交互中，情感检测或情绪识别起着至关重要的作用，特别是在快速发展的数字媒体领域。将情感元素融入人类与数字媒体（如视频游戏、视频会议、即时通讯工具和智能个人助理）的交流过程中是必要且有益的。数字媒体若能理解人类的情绪状态并满足其需求，未来社会将变得更加美好。我们的研究目标是开发能够感知人类情感或心理状态的软硬件架构。

人类与数字媒体的交流需要更加自然和人性化，这在视频游戏和智能个人助理的设计中尤为重要，因为情商在其中具有重大意义。人类的感官系统通过多模态分析多个通信渠道来解读面对面的互动并识别对方的情绪。心理学研究表明，人类主要依靠语音语调与面部表情来判断他人的情绪状态。因此，自动情感检测系统至少应利用语音和面部信息，以获得可靠且稳健的结果。考虑多种模态通常能比单模态技术更全面地描述所表达的情绪，并得出更准确的结果。

近年来，已经开发了许多情感检测技术，研究倾向于使用视听、语音文本、对话姿势等特征。大多数研究应用了单一分类器，如支持向量机、k近邻、贝叶斯网络等，但找到一个适用于所有模态和个体的单一分类器是困难的。组合分类器被认为可以提供更准确和高效的分类结果。然而，多个分类器会消耗更多的时间和系统资源。