基于语音和面部信息的多模态情感检测简化分类方法
一、引言
在多媒体和社交媒体的交互中,情感检测或情绪识别起着至关重要的作用,特别是在快速发展的数字媒体领域。将情感元素融入人类与数字媒体(如视频游戏、视频会议、即时通讯工具和智能个人助理)的交流过程中是必要且有益的。数字媒体若能理解人类的情绪状态并满足其需求,未来社会将变得更加美好。我们的研究目标是开发能够感知人类情感或心理状态的软硬件架构。
人类与数字媒体的交流需要更加自然和人性化,这在视频游戏和智能个人助理的设计中尤为重要,因为情商在其中具有重大意义。人类的感官系统通过多模态分析多个通信渠道来解读面对面的互动并识别对方的情绪。心理学研究表明,人类主要依靠语音语调与面部表情来判断他人的情绪状态。因此,自动情感检测系统至少应利用语音和面部信息,以获得可靠且稳健的结果。考虑多种模态通常能比单模态技术更全面地描述所表达的情绪,并得出更准确的结果。
近年来,已经开发了许多情感检测技术,研究倾向于使用视听、语音文本、对话姿势等特征。大多数研究应用了单一分类器,如支持向量机、k近邻、贝叶斯网络等,但找到一个适用于所有模态和个体的单一分类器是困难的。组合分类器被认为可以提供更准确和高效的分类结果。然而,多个分类器会消耗更多的时间和系统资源。
二、简化方法概述
本文提出了一种新的简化方法,用于利用语音和面部信息识别情感表达。我们使用微软的Kinect集成多阵列麦克风、RGB相机和深度传感器作为语音传感器、图像传感器和红外传感器,以获取语音数据、视觉图像和热图像。热图像不受光照条件的影响,有助于面部表情的识别。
对于语音,我们提取音高信号、能量及其导数等韵律参数作为特征;对于面部表情,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



