背景
我有一个神经网络,可以输出姿势(脚、脚踝、膝盖、手臂、头部等)和连接的关键点——基本上我有一个骨架。我想使用这些关键点 /skeleton 作为另一个神经网络的输入 - 一个关系网络(https://arxiv.org/pdf/1706.01427.pdf)。目标是学习姿势和不同对象之间的关系。
问题
由于我正在处理关键点,因此我不确定将它们构造为输入的最佳方法是什么。我已经考虑将关键点转换为在每个 X/Y 位置处值为 0 的图像,除非它被值设置为 1 的骨架覆盖。但这似乎效率低下。有没有办法在不影响性能的情况下保留使用图像的结构优势(我可以使用卷积网络)?