原创 | 文 BFT机器人

这篇论文是关于物体姿态估计的研究。


(资料图片仅供参考)

物体姿态估计的目标是通过相机获取一个物体的6个自由度(DoF),包括3D方向和3D平移。然而,由于物体可能会遭受各种光照变化和严重遮挡,从单个RGB图像中准确地估计姿态是非常具有挑战性的。

近年来,随着深度神经网络技术的发展,许多基于深度学习的姿态估计算法已经被提出并取得了很好的效果。

本文所遇到的难点是在没有真实姿态注释情况下训练RGB模型的性能问题。由于深度神经网络需要大量的真实图像进行训练,而标注3D物体姿态比标注2D图像更加困难,特别是当只提供RGB图像时。因此,缺乏准确的3D姿态注释可能会导致姿态估计方法性能严重下降。

为了解决这个问题,本文提出了一种新颖的两步物体姿态估计方法,并使用易于获取的2D边界框注释进行训练,从而显著提高了在没有真实姿态注释情况下训练的RGB模型性能。

01

该篇论文的创新点主要有两个:

1.提出了一种新的两步物体姿态估计方法,该方法只使用易于获取的2D边界框注释进行训练,可以在没有真实姿态监督的情况下进行训练以估计物体姿态,并且还提供了一种在没有3D姿态标签时涉及真实图像的解决方案。

2.提出了一种自监督双尺度姿态估计网络(DSC-PoseNet),通过构建可微分渲染器的跨尺度自监督来显著减轻合成数据和真实数据之间的领域差异。与其他基于RGB图像的物体姿态估计方法相比,DSC-PoseNet在性能上具有优势。

02

提出两步物体姿态估计方法:第一步是使用2D边界框进行弱监督分割。

该步骤的目标是从单个RGB图像中估计物体的姿态。具体来说,该算法使用DSC-PoseNet对真实图像进行裁剪和缩放,然后使用2D边界框进行弱监督分割。这意味着算法只需要2D边界框注释而不需要真实的3D姿态注释。

在这个步骤中,首先将真实图像裁剪并缩放到固定大小(480×640×3);

然后,使用2D边界框对物体进行分割。为了提高网络的性能,该算法还使用双尺度一致性和可见轮廓对齐自监督损失来训练网络。这种方法可以使网络学习到更加鲁棒的特征,并且可以在没有真实姿态注释的情况下进行训练。

此外,该算法还可以使用真实姿态注释进行训练。在这种情况下,算法会将真实姿态注释与2D边界框一起用于训练网络。这种方法可以进一步提高网络的性能,并且可以在有限数量的真实姿态注释情况下获得更好的结果。

总之,在第一步中,该算法使用2D边界框进行弱监督分割,并使用双尺度一致性和可见轮廓对齐自监督损失来训练网络。

此外,该算法还可以使用真实姿态注释进行训练。这种方法可以在没有真实姿态注释的情况下进行训练,并且可以在有限数量的真实姿态注释情况下获得更好。具体如图1左边所示。第二步是自监督关键点学习,它是DSC-PoseNet训练流程的一部分。该步骤旨在通过学习图像中的关键点来提高姿态估计的准确性。这个过程可以分为以下几个步骤:

首先,使用第一步中生成的伪标签和真实数据,将图像裁剪并调整大小以匹配网络输入大小。

然后,使用DSC-PoseNet对这些图像进行前向传递,并从输出中提取2D关键点。接下来,将这些关键点与伪掩模进行比较,并使用可微分PnP +渲染器对前景概率进行计算。这些前景概率被用于生成可见渲染和可见轮廓对齐。

最后,在训练过程中,使用双尺度一致性来强制执行关键点之间的空间一致性。这可以通过将2D关键点投影到3D空间并在不同尺度上重新投影回2D空间来实现。

图2展示了DSC-PoseNet网络如何预测物体中每个像素的关键点,并且如何使用注意力机制和加权平均来提高预测准确性。

总之,在第二步中,利用自监督学习方法来提高姿态估计的准确性。通过比较伪掩模和2D关键点,并使用双尺度一致性来强制执行空间一致性,可以获得更好的结果。具体如图1右边所示。

03

实验结果

图3描述了在Occluded LINEMOD数据集上的定性结果。其中,绿色代表真实姿态,红色代表未归一化尺度的预测结果,黄色代表归一化尺度的预测结果,蓝色代表通过对两种尺度预测出的关键点坐标进行平均得到的集成预测结果。

简单来说,这个图展示了DSC-PoseNet网络在Occluded LINEMOD数据集上的关键点坐标预测结果,并且比较了不同尺度下的预测效果。

表1展示了DSC-PoseNet网络在LINEMOD数据集上进行消融实验的结果,以评估不同模型组件对关键点学习和分割性能的影响。

04

结论

该篇论文提出了一种新的两步物体姿态估计方法,并显著提高了没有真实姿态注释的基于RGB的最先进模型的性能。

作者提出的姿态估计网络名为DSC-PoseNet,只使用易于获取的2D边界框注释进行训练。通过可见轮廓对齐和双尺度一致性自监督损失,DSC-PoseNet可以在没有真实姿态监督的情况下进行训练以估计物体姿态,并且还提供了一种在没有3D姿态标签时涉及真实图像的解决方案。

此外,尽管该网络是为未标记的真实图像设计的,但也可以使用真实姿态注释进行训练。网址:https://arxiv.org/abs/2104.03658v1标题:DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale Consistency

更多精彩内容请关注公众号:BFT机器人本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。

推荐内容