3

我的数据看起来像:人 <-- 事件 <-- 活动。父级是 People,其中唯一的变量是 person_id。事件和活动都有时间索引,还有 event_id 和 activity_id,它们都有一些特性。

“人”实体的成员在所有不同时间访问地点。我正在尝试为人们生成深层特征。如果人们是 [1,2,3] 之类的东西,我如何通过截止时间来为 (Person,cutofftime) 之类的东西创建深度特征:[1,January2], [1, January3]

如果我只有 3 个人,我似乎无法传递一个有 10 行的 cutoff_time 数据框(例如,第 1 个人有 10 个可能的截止时间)。尽管从我的 cutoff_times 数据帧中删除了重复项,但尝试这样做会给我错误“截止时间数据帧中的重复行”。

我必须在人员实体中包含时间索引吗?这将使我的父实体在索引中有多个人,尽管他们会有不同的时间索引。我的直觉是人员实体不应包含任何日期时间列。我想给 DFS 功能提供截止时间。

我的 cutoff_times df.head 看起来像这样,并且有一些 people_id 的多个实例:

+-------------------------------------------+
|         person_id       time        label |
+-------------------------------------------+
| 0      f_GZSVLYU 2019-12-06           0.0 |
| 1      f_ATBJEQS 2019-12-06           1.0 |
| 2      f_GLFYVAY 2019-12-06           0.5 |
| 3      f_DIHPTPA 2019-12-06           0.5 |
| 4      f_GZSVLYU 2019-12-02           1.0 |
+-------------------------------------------+

父人员实体是这样的:

+-------------------+
|       person_id   |
+-------------------+
| 0      f_GZSVLYU  |
| 1      f_ATBJEQS  |
| 2      f_GLFYVAY  |
| 3      f_DIHPTPA  |
| 4      f_DVOYHRQ  |
+-------------------+

如何让功能工具了解我想要做什么?

“截止时间数据帧中的重复行。” 我已经探索了我的 cutoff_times df 并且没有重复的行。Person_id、times 和 labels 都有多次出现,但没有 2 行是相同的。这些重复错误是指实体集中的其他地方吗?

4

1 回答 1

3

答案是 cutoff_df 的一行具有相同的 ID 和时间,但具有不同的标签。那是个问题。

于 2020-01-05T20:25:32.933 回答