我有一个数据集,可以跟踪用户何时阅读网站。用户可以随时阅读网站,因此用户将多次出现。我想创建一个列来跟踪用户阅读特定网站的次数。但是由于它是一个时间序列,所以计数应该是增量的。我有大约 28gbs 所以 pandas 将无法处理工作量,所以我必须用 sql 编写它。
下面的示例数据:
Date ID WebID
201901 Bob X-001
201902 Bob X-002
201903 Bob X-001
201901 Sue X-001
预期成绩:
Date ID WebID Count
201901 Bob X-001 1
201902 Bob X-002 1
201903 Bob X-001 2
201901 Sue X-001 1