假设我有一个非常大的具有这种格式的日志文件(基于用户登录的位置)
UserId1 , New York
UserId1 , New Jersey
UserId2 , Oklahoma
UserId3 , Washington DC
....
userId999999999, London
请注意,UserId1 首先登录纽约,然后他飞往新泽西并从那里再次登录。
如果我需要获取多少个唯一用户登录(意味着 2 次登录将与 1 次登录相同的用户 ID),我应该如何映射和减少它?
我最初的计划是我想先把它映射成这种格式:
UserId1, 1
UserId1, 1
UserId2, 1
UserId3, 1
然后将其减少到
UserId1, 2
UserId2, 1
UserId3, 1
但这会导致输出数量仍然很大(特别是如果用户的常见行为是每天登录 1 或 2 次)。还是有更好的方法来实现这一点?