apache-spark - 从文本文件中删除双向唯一行

Question

我有一个文本文件如下：

上面的文件表示无向图中的边。我想删除图中的重复边。在上面给出的示例中，我想删除其中任何一个4,5 or 5,4，因为它们在图中表示相同的边，因此会导致重复。我正在尝试使用Apache Spark 中Graphstream的库来可视化文件中的图形。GraphX但是由于存在如上所述的重复节点，它会给出如下错误

org.graphstream.graph.EdgeRejectedException: Edge 4[5--4] was rejected by node 5

从文本文件中删除此类重复项的最佳方法是什么？

score 2 · Accepted Answer

您可以使用convertToCanonicalEdges方法 from GraphOps。它

将双向边转换为单向边。
重写边的顶点 id，使 srcIds 小于 dstIds，并合并重复的边。

在你的情况下：

val graph = Graph.fromEdgeTuples(sc.parallelize(
  Seq((1, 3), (2, 5), (3, 6), (4, 5), (5, 4), (6, 1), (7, 2))), -1)

graph.convertToCanonicalEdges().edges.collect.foreach(println)

结果：

Edge(3,6,1)
Edge(1,6,1)
Edge(1,3,1)
Edge(2,5,1)
Edge(2,7,1)
Edge(4,5,1)

apache-spark - 从文本文件中删除双向唯一行

1 回答 1

Related

Reference