我需要建立一个神经网络,允许计算被跟踪对象的两个轨迹(短轨迹)之间的相似性。如果两个 tracklet 对应于同一个对象,则此相似性必须很高。
我认为 LSTM 网络是解决这个问题的最佳网络之一。
在 Xingyu Wan等人的论文“An Online and Flexible Multi-Object Tracking Framework using Long Short-Term Memory”中。,提出了一个 Siamese LSTM 网络来解决这个问题。
对于每个 LSTM 单元,输入数据将是跟踪对象的图像和位置。
但是我不明白本文中使用了 LSTM 的哪些输出。似乎他们为每个 LSTM 网络使用了最后一个单元的两种状态,但这意味着我们使用过去保存的信息来比较两个轨迹(因为它来自最后一个 LSTM 单元的记忆)
在我看来这是一个问题,因为这意味着两个 tracklet 的结尾应该是相似的,但我实际上需要相似的(在同一对象的两个 tracklet 之间)是第一个 tracklet 的结尾和下一个 tracklet 的开头.
所以我想知道:
我们应该如何比较 LSTM 的输出?(我的意思是,我们应该使用哪些输出?以及如何以正确的方式融合它们以输出关联概率
先感谢您 :)
对不起我的英语我不是本地人