2

我有一张图表,大约 75% 的连接仅来自一个节点

例如,如果所有节点的度数之和为 100,则该节点的度数为 75。

经过一些操作,该节点存在大量重复边。

假设1是这种节点

1,2
1,2
1,2
1,2
1,2
1,2
1,3
1,3
1,3

但是,它有太多重复的键来获取 distinct() 边缘。我在使用 distinct() 之前尝试过重新分区,但它仍然无法解决太多重复键的问题,现在写入磁盘然后使用 distinct() 解决了这个问题。

有没有更好的方法来处理这种极度偏斜的问题?

4

0 回答 0