scala - Spark 与 Scala：通过在每个可能对上执行函数来计算表

Question

我对 Scala/Spark 完全陌生，我正在尝试从头开始创建一个 Spark 应用程序，该应用程序计算整数集之间的确切Jaccard 相似度n（您不需要知道回答这个问题是什么）。

我有一个数据框，其中每一行都是一组整数，例如：

var sets = List(Set(1, 5, 7, 4), Set(3, 5, 0), Set(10, 1, 5)).toDF

以及jacsim(s1, s2)返回两个集合之间的 Jaccard 相似度的函数。我想定义一个函数，给定sets数据帧返回另一个数据帧，该数据帧在位置 (i, j) 处包含jacsim(sets(i), sets(j)). 我怎样才能做到这一点？

另外：将生成的数据框用作表格是个好主意吗？我正在阅读 Spark 不“喜欢”通过索引访问的行，因为这会阻碍并行性。我应该返回一个包含单行的数据框并将每个可能的对作为新列吗？

score 2 · Accepted Answer

正如您提到的，不允许使用索引访问 spark 数据框。这是使用 scala spark dataframe 的一种解决方案：

var sets = List(Set(1, 5, 7, 4), Set(3, 5, 0), Set(10, 1, 5)).toDF("sets")
    .withColumn("i",monotonically_increasing_id()) // to create indexes


val jaccardSimUDF = udf((set1: Seq[Int], set2: Seq[Int]) => set1.sum +  set2.sum) // dummy function, replace it with your implementation of Jaccard similarity

val resDF = sets.crossJoin(sets.withColumnRenamed("sets", "sets2").withColumnRenamed("i", "j"))
                .withColumn("jaccardSim", jaccardSimUDF($"sets", $"sets2"))

基本上，我们需要对您的数据框进行交叉连接以拥有所有组合。然后我们可以应用“用户定义函数”（UDF）来计算 Jaccard 相似度。请注意，我创建索引是为了方便。

现在，如果你真的想要一个矩阵，你需要重塑这个数据框，但这不是火花本质。

正如评论中指出的那样， jaccard 相似度函数是对称的，因此您可以过滤不必要的索引，如下所示：

val resDF = sets.crossJoin(sets.withColumnRenamed("sets", "sets2").withColumnRenamed("i", "j"))
            .filter($"i" < $"j")
            .withColumn("jaccardSim", jaccardSimUDF($"sets", $"sets2"))

它可能看起来很难看，因为它仍然涉及完整的交叉连接，但由于 spark 依赖于惰性计算和 Catalyst 优化器，因此在实践中它并不是真正的完整交叉连接。所以我认为没有更好的解决方案。

scala - Spark 与 Scala：通过在每个可能对上执行函数来计算表

1 回答 1

Related

Reference