featuretools - 在深度特征合成中使用多个父 ID 作为截止时间

Question

我的数据看起来像：人 <-- 事件 <-- 活动。父级是 People，其中唯一的变量是 person_id。事件和活动都有时间索引，还有 event_id 和 activity_id，它们都有一些特性。

“人”实体的成员在所有不同时间访问地点。我正在尝试为人们生成深层特征。如果人们是 [1,2,3] 之类的东西，我如何通过截止时间来为 (Person,cutofftime) 之类的东西创建深度特征：[1,January2], [1, January3]

如果我只有 3 个人，我似乎无法传递一个有 10 行的 cutoff_time 数据框（例如，第 1 个人有 10 个可能的截止时间）。尽管从我的 cutoff_times 数据帧中删除了重复项，但尝试这样做会给我错误“截止时间数据帧中的重复行”。

我必须在人员实体中包含时间索引吗？这将使我的父实体在索引中有多个人，尽管他们会有不同的时间索引。我的直觉是人员实体不应包含任何日期时间列。我想给 DFS 功能提供截止时间。

我的 cutoff_times df.head 看起来像这样，并且有一些 people_id 的多个实例：

+-------------------------------------------+
|         person_id       time        label |
+-------------------------------------------+
| 0      f_GZSVLYU 2019-12-06           0.0 |
| 1      f_ATBJEQS 2019-12-06           1.0 |
| 2      f_GLFYVAY 2019-12-06           0.5 |
| 3      f_DIHPTPA 2019-12-06           0.5 |
| 4      f_GZSVLYU 2019-12-02           1.0 |
+-------------------------------------------+

父人员实体是这样的：

+-------------------+
|       person_id   |
+-------------------+
| 0      f_GZSVLYU  |
| 1      f_ATBJEQS  |
| 2      f_GLFYVAY  |
| 3      f_DIHPTPA  |
| 4      f_DVOYHRQ  |
+-------------------+

如何让功能工具了解我想要做什么？

“截止时间数据帧中的重复行。” 我已经探索了我的 cutoff_times df 并且没有重复的行。Person_id、times 和 labels 都有多次出现，但没有 2 行是相同的。这些重复错误是指实体集中的其他地方吗？

score 3 · Accepted Answer

答案是 cutoff_df 的一行具有相同的 ID 和时间，但具有不同的标签。那是个问题。

featuretools - 在深度特征合成中使用多个父 ID 作为截止时间

1 回答 1

Related

Reference