我有一个数据表,其中包含 2 个字段 user_id,article_id 用于对特定文章发表评论的用户(隐含多对多关系)。
我将数据分组如下:
分组 = df_selected['article_id'].groupby([df_selected['user_id'], df_selected['article_id']])
这实质上为我提供了针对给定特定用户的每个 article_ids 的评论计数,对于所有用户 - 见表。生成的对象是系列类型。
我想做的两件事:
(1) 命名第 3 列并将整个对象转换为熔融数据格式表的最佳方法是什么(即,即使“user_id”在多行中重复,每个“单元格”都有信息 - 所以在示例中图片 user_ids 2 和 3 会重复)?
(2) 我要检查的一件事是,没有用户对特定文章写过多个评论(这是图片中的第 3 列)-如何按此列过滤以进行检查?(感谢我可以迭代分组的对象 - 但想知道是否有一种矢量化的方式来做到这一点......)
我想做的是用 1、2、3... 评论来计算 user_id 的数量。
提前致谢。
user_id article_id no of comments
6 73 2
43 18 2
290 2
311 2
374 763 2
1539 2
380 690 4
820 3
863 2
387 575 2
575 2
690 2
702 2