我的数据看起来像:人 <-- 事件 <-- 活动。父级是 People,其中唯一的变量是 person_id。事件和活动都有时间索引,还有 event_id 和 activity_id,它们都有一些特性。
“人”实体的成员在所有不同时间访问地点。我正在尝试为人们生成深层特征。如果人们是 [1,2,3] 之类的东西,我如何通过截止时间来为 (Person,cutofftime) 之类的东西创建深度特征:[1,January2], [1, January3]
如果我只有 3 个人,我似乎无法传递一个有 10 行的 cutoff_time 数据框(例如,第 1 个人有 10 个可能的截止时间)。尽管从我的 cutoff_times 数据帧中删除了重复项,但尝试这样做会给我错误“截止时间数据帧中的重复行”。
我必须在人员实体中包含时间索引吗?这将使我的父实体在索引中有多个人,尽管他们会有不同的时间索引。我的直觉是人员实体不应包含任何日期时间列。我想给 DFS 功能提供截止时间。
我的 cutoff_times df.head 看起来像这样,并且有一些 people_id 的多个实例:
+-------------------------------------------+
| person_id time label |
+-------------------------------------------+
| 0 f_GZSVLYU 2019-12-06 0.0 |
| 1 f_ATBJEQS 2019-12-06 1.0 |
| 2 f_GLFYVAY 2019-12-06 0.5 |
| 3 f_DIHPTPA 2019-12-06 0.5 |
| 4 f_GZSVLYU 2019-12-02 1.0 |
+-------------------------------------------+
父人员实体是这样的:
+-------------------+
| person_id |
+-------------------+
| 0 f_GZSVLYU |
| 1 f_ATBJEQS |
| 2 f_GLFYVAY |
| 3 f_DIHPTPA |
| 4 f_DVOYHRQ |
+-------------------+
如何让功能工具了解我想要做什么?
“截止时间数据帧中的重复行。” 我已经探索了我的 cutoff_times df 并且没有重复的行。Person_id、times 和 labels 都有多次出现,但没有 2 行是相同的。这些重复错误是指实体集中的其他地方吗?