我有一个数据框,其中 user_ids 存储为 HDFStore 中的索引 frame_table。此 HDF 文件中还有另一个表格,其中包含用户执行的操作。我想抓取 1% 的用户采取的所有行动。程序如下:
#Get 1% of the user IDs
df_id = store.select('df_user_id', columns = ['id'])
1pct_users = rnd.sample(df_id.id.unique(), 0.01*len(df_id.id.unique()))
df_id = df_id[df_id.id.isin(1pct_users)]
现在我想返回并从与 df_user_id 索引相同的 frame_tables 中获取描述这些用户所采取的操作的所有附加信息。根据这个例子和这个问题,我做了以下事情:
1pct_actions = store.select('df_actions', where = pd.Term('index', 1pct_users.index))
这只是提供了一个空数据框。事实上,如果我复制并粘贴上一个 pandas 文档链接中的示例,我也会得到一个空数据框。Term
最近的熊猫有什么变化吗?我在熊猫 0.12 上。
我不受任何特定解决方案的约束。只要我可以从 df_id 表中查找 hdfstore 索引(速度很快),然后直接从其他帧表中提取这些索引。