文 / MediaPipe 产品经理 Ming Guang Yong
MediaPipe 概览
MediaPipe (https://mediapipe.dev/) 可用于构建跨平台、多模态的 ML 流水线框架,由快速 ML 推理、传统计算机视觉和媒体处理(如视频解码)组成。2019 年 6 月,MediaPipe 在计算机视觉与模式识别大会 (CVPR) 上正式开放源代码,版本为 v0.5.0。自第一个开源版本以来,我们发布了各种 ML 流水线示例,如:
目标检测
https://google.github.io/mediapipe/solutions/object_detection人脸检测
https://google.github.io/mediapipe/solutions/face_detection手部追踪
https://google.github.io/mediapipe/solutions/hands多个手部目标追踪
https://google.github.io/mediapipe/solutions/hands头发分割
https://google.github.io/mediapipe/solutions/hair_segmentation
在本文中,我们将介绍一个 MediaPipe 新示例:目标检测和追踪。我们将先介绍检测框追踪解决方案 (Box Tracking),然后解释如何将其与“目标检测”系统整合以提供目标检测和追踪。
目标检测和追踪
https://google.github.io/mediapipe/solutions/box_tracking
MediaPipe 检测框追踪
我们推出了一种检测框追踪解决方案,它利用了传统的计算机视觉方法,已为 Motion Stills、YouTube 隐私模糊处理和 Google 智能镜头提供数年的实时追踪支持。将追踪与 ML 推理配对,可以得到价值与效率兼具的流水线。在我们将检测框追踪与目标检测配对,创建了目标检测和追踪流水线。与每帧运行检测相比,拥有追踪功能的流水线具有多项优势:
提供基于实例的追踪,即跨帧维持目标 ID。
无需每帧运行检测。这些优点让我们可以运行负载更高但更为精确的检测模型,同时在移动设备上保持流水线的轻量级和实时性。
有了追踪功能,目标的位