python - 使用 Pandas 访问分组数据

翻译自：https://stackoverflow.com/questions/18078298 2013-08-06T10:58:06.403

156 次

我有一个数据表，其中包含 2 个字段 user_id，article_id 用于对特定文章发表评论的用户（隐含多对多关系）。

我将数据分组如下：

分组 = df_selected['article_id'].groupby([df_selected['user_id'], df_selected['article_id']])

这实质上为我提供了针对给定特定用户的每个 article_ids 的评论计数，对于所有用户 - 见表。生成的对象是系列类型。

我想做的两件事：

(1) 命名第 3 列并将整个对象转换为熔融数据格式表的最佳方法是什么（即，即使“user_id”在多行中重复，每个“单元格”都有信息 - 所以在示例中图片 user_ids 2 和 3 会重复）？

(2) 我要检查的一件事是，没有用户对特定文章写过多个评论（这是图片中的第 3 列）-如何按此列过滤以进行检查？（感谢我可以迭代分组的对象 - 但想知道是否有一种矢量化的方式来做到这一点......）

我想做的是用 1、2、3... 评论来计算 user_id 的数量。

提前致谢。

user_id  article_id  no of comments
6        73          2
43       18          2
         290         2
         311         2
374      763         2
         1539        2
380      690         4
         820         3
         863         2
387      575         2
         575         2
         690         2
         702         2

python - 使用 Pandas 访问分组数据

0 回答 0

Related

Reference