2

背景

我有一个神经网络,可以输出姿势(脚、脚踝、膝盖、手臂、头部等)和连接的关键点——基本上我有一个骨架。我想使用这些关键点 /skeleton 作为另一个神经网络的输入 - 一个关系网络(https://arxiv.org/pdf/1706.01427.pdf)。目标是学习姿势和不同对象之间的关系。

问题

由于我正在处理关键点,因此我不确定将它们构造为输入的最佳方法是什么。我已经考虑将关键点转换为在每个 X/Y 位置处值为 0 的图像,除非它被值设置为 1 的骨架覆盖。但这似乎效率低下。有没有办法在不影响性能的情况下保留使用图像的结构优势(我可以使用卷积网络)?

4

1 回答 1

0

您应该按照您的建议将它们存储在HxW张量中(或者我们称之为图像),因为在使用“图像”时您将可以使用更多工具。

根据您的性能需求和关键点的数量,您还可以考虑只存储不等于 0 的值的稀疏张量,但是您应该检查特殊的稀疏张量操作是否完全支持所需的操作。

于 2017-09-21T17:53:21.190 回答