0

我正在尝试将时间序列数据导入亚马逊预测。导入数据集组时,我收到一条错误消息

项目数 (1055) 的观测值 (1055) 太少,平均每个项目 1.000 个观测值

我的数据集有 1055 个条目,csv 格式:[item_id,timestamp,utility]

1,2020-01-01 09:01:00,23 
2,2020-01-02 00:00:00,45 
3,2020-01-03 00:00:00,41 
4,2020-01-04 00:00:00,42 
5,2020-01-05 00:00:00,43

对于这个问题,我可以想到两个可能的两个原因:

  1. 每个项目都需要唯一标识--> 上面的数据集具有 item_id,每个项目都是唯一的。
  2. 1055 条记录太少 --> 我尝试导入 100k 条记录。仍然面临同样的问题。

在这里,数据集中的每个项目都可以唯一标识。AWS 预测文档没有提到这个错误。

4

1 回答 1

1

留下答案以防万一这可以帮助未来的网络冲浪者。

问题可能出在 item_id 上,作为程序员,我们认为它需要是唯一的,在这种情况下恰恰相反。每一行都是一个观察,尝试为所有行或分组(以防它在您的数据中有意义)放置相同的 item_id,例如 5K 行是 type1,5k 行是 type2 等等。然后,预测每种类型将有 5k 个观察值,如果 item_id 是唯一的,则每种类型只有一个观察值,不足以进行预测并显示“观察值太少错误”。

希望它有所帮助,这就是我解决这个问题的方法。韩国

于 2021-03-18T10:20:58.020 回答