我得到了一些这种格式的数据和以下细节:
person1, day1, feature1, feature2, ..., featureN, label
person1, day2, feature1, feature2, ..., featureN, label
...
person1, dayN, feature1, feature2, ..., featureN, label
person2, day1, feature1, feature2, ..., featureN, label
person2, day2, feature1, feature2, ..., featureN, label
...
person2, dayN, feature1, feature2, ..., featureN, label
...
- 总是有相同数量的特征,但每个特征可能是 0 代表什么都没有
- 每个人都有不同的可用天数,例如 person1 有 20 天的数据,person2 有 50
目标是预测第二天的人的标签,因此第 N+1 天的标签,无论是基于个人还是整体(个人对我来说更有意义)。我可以自由地重新格式化数据(它不大)。基于以上阅读后,我认为动态RNN(LSTM)效果最好:
- 循环神经网络:因为第二天依赖于前一天
- lstm:因为模型每天都在建立
- 动态的:因为并非每天都存在所有功能
如果这对我拥有的数据没有意义,请在这里阻止我。那么问题来了:
如何为 tensorflow/tflearn 提供/格式化这些数据?
我已经使用 tflearn 查看了这个示例,但我不了解它的输入格式,因此我可以将其“镜像”到我的。同样,在一个非常相似的问题上发现了这篇文章,但看起来海报中的样本之间并不相关,因为它们在我的中。我对 tensorflow 的体验仅限于它的入门页面。