手势在人类交流中的使用起着重要作用:手势可以在情感上强化陈述或完全取代它们。更重要的是,手势识别(HGR)可以成为人机交互的一部分。
此类系统可用于视频会议服务(Zoom、Skype、Discord、Jazz 等)、家庭自动化系统、汽车行业、为有语言和听力障碍的人提供的服务等。此外,该系统还可以作为为活跃的手语用户(听力和语言障碍者)提供虚拟助手或服务。
这些区域要求系统在线工作,并且对背景、场景、主题和照明条件具有鲁棒性。这些和其他几个问题启发我们创建一个新的 HGR 数据集。
数据集
HaGRID(HA nd G esture R ecognition I mage D ataset)是 HGR 系统最大的数据集之一。该数据集包含552,992个全高清 RGB 图像,分为18类手势。我们特别关注与设备的交互以管理它们。这就是为什么选择的所有 18 个手势都是实用的、大多数人熟悉的,并且可能是采取某些行动的动力。
我们使用众包平台收集数据集并考虑各种参数以确保数据的多样性。该数据集包含34,730 个独特的场景。它主要是在室内收集的,光照变化很大,包括人造光和自然光。此外,该数据集还包括在极端条