导读:本文是计算机视觉领域会议 ICCV入选论文《基于点云的类级别刚体与带关节物体位姿追踪(CAPTRA: CAtegory-level Pose Tracking for Rigid and Articulated Objects from Point Clouds)》的解读。该工作由北京大学前沿计算研究中心陈宝权课题组与斯坦福大学/北京大学王鹤等合作完成,论文共同一作翁伊嘉为2021届图灵班学生。
项目主页:
https://yijiaweng.github.io/CAPTRA/
论文地址:
https://arxiv.org/abs/2104.03437
物体位姿包含相机坐标系下物体的三维平移与三维旋转,在计算机视觉与机器人学中有着广泛应用,如指导机器人抓取与操纵物体,在增强现实中将虚拟内容叠加在真实物体上等。
不同于只能应用于已知物体的实例级别位姿估计,[1] 提出的类级别物体位姿估计问题要求对来自已知物体类别、与训练物体存在几何差异的未知测试物体进行九自由度的位姿估计,即估计物体的三维尺寸、三维平移、三维旋转,更适用于实际应用中形状外观各异的真实物体。[2] 进一步将对刚性物体的位姿估计拓展到带关节物体(如笔记本电脑、抽屉、眼镜)上,为理解和模仿人类与带关节物体之间的复杂互动奠定了基础。
目前,大部分类级别物体位姿估计的工作聚焦于单帧位姿估计,而我们希望能对连续多帧观测进行时序上平滑的物体位姿追踪,从而更好地服务于增强现实、基于实时反馈的闭环控制等应用。
我们提出了首个可以同时应用于刚性物体和带关节物体,运行在类级别场景下的九自由度位姿追踪框架。给定当前帧的深度点云与上一帧的物体位姿估计,本文提出的框架能通过端到端的训练,准确地更新位姿估计,在估计准确率与运行速度上都超过了已有的最好方法。

如上图,给定包含实例 的实时深度点云流 ,其逐部件初始位姿估计 ,我们希望在线地追踪其各部件位姿 。具体来说,我们逐帧进行位姿估计,在 帧,基于第 帧的各部件位姿估计 与第 帧的深度点云观测 ,估计第 帧的各部件位姿 。
仿照[1],我们将九自由度位姿 进一步分解为七自由度相似变换 与三维长宽高比例 ,以下主要讨论 的估计,细节请参见论文。
位姿估计存在两类主流方法,基于坐标预测的方法首先为观测点预测其对应物体点在归一化物体坐标系中的坐标,利用观察坐标与归一化物体坐标之间的对应关系,使用 RANSAC 拟合物体位姿,得益于 RANSAC 对离群点的有效移除,该方法通常能获得更为准确与鲁棒的预测,但 RANSAC 算法中的假设采样较为耗时,其过程也不可微,无法直接针对位姿进行优化。
基于位姿回归的方法进行端到端可微的直接预测,能够达到很高的运行速度,但容易产生更大的预测误差。我们希望结合两类方法的优势,建立一个端到端可微、精度与速度兼备的位姿追踪系统。
如下图所示,我们的模型由位姿正规化(Pose Canonicalization)、旋转回归网络(RotationNet)与坐标预测网络(CoordinateNet)组成。

我们在 NOCS-REAL275 真实世界数据集上与类级别刚性物体追踪算法 6-PACK 进行比较,使用三维包围盒表示九自由度位姿估计,绿色表示追踪误差≤5º5cm,红色表示追踪误差>5º5cm。我们产生的追踪结果更加准确。
图3. NOCS-REAL275上的类级别刚性物体位姿追踪
由于没有现成的类级别带关节物体位姿追踪数据集,我们基于 SAPIEN [3] 生成了一个合成数据集,并在其上对比我们的方法与类级别带关节物体位姿估计算法 ANCSH [2]。我们的追踪结果更加准确、平滑,对自遮挡更加鲁棒。

图4. SAPIEN合成数据集上的类级别带关节物体位姿追踪
我们进一步在真实世界的带关节物体数据上测试我们的模型。在 BMVC [4] 数据集的笔记本电脑序列、我们采集的剪刀序列、机械臂操纵抽屉序列上,我们仅在合成数据上训练的模型均能成功泛化,达到对物体的准确追踪。
图5. 上:BMVC数据集中的笔记本电脑序列;下:我们采集的剪刀序列
本文提出了一个端到端可微的位姿追踪框架,能同时处理类级别刚性物体与带关节物体九自由度位姿追踪问题,在多个数据集上达到了 SOTA 效果。未来可能的研究方向包括对关节限制的进一步利用,向部件个数不固定、部件连接关系不固定的带关节物体类别拓展等。
参考文献
[1] He Wang, Srinath Sridhar, Jingwei Huang, Julien Valentin, Shuran Song, and Leonidas J Guibas. Normalized object coordinate space for category-level 6D object pose and size estimation. CVPR 2019.
[2] Xiaolong Li, He Wang, Li Yi, Leonidas J Guibas, A Lynn Abbott, and Shuran Song. Category-level articulated object pose estimation. CVPR 2020.
[3] Fanbo Xiang, Yuzhe Qin, Kaichun Mo, Yikuan Xia, Hao Zhu, Fangchen Liu, Minghua Liu, Hanxiao Jiang, Yifu Yuan, He Wang, Li Yi, Angel X. Chang, Leonidas J. Guibas, and Hao Su. SAPIEN: A simulated part-based interactive environment. CVPR 2020.
[4] Frank Michel, Alexander Krull, Eric Brachmann, Michael Ying Yang, Stefan Gumhold, and Carsten Rother. Pose estimation of kinematic chain instances via object coordinate regression. BMVC 2015.

雷峰约稿件,未经授权禁止转载。详情见转载须知。