scala - 何时明确说明函数输入的类型？

Question

我能够计算火花集合的每个起始字母的平均字长

val animals23 = sc.parallelize(List(("a","ant"), ("c","crocodile"), ("c","cheetah"), ("c","cat"), ("d","dolphin"), ("d","dog"), ("g","gnu"), ("l","leopard"), ("l","lion"), ("s","spider"), ("t","tiger"), ("w","whale")), 2)

要么与

animals23.
    aggregateByKey((0,0))(
        (x, y) => (x._1 + y.length, x._2 + 1),
        (x, y) => (x._1 + y._1, x._2 + y._2)
    ).
    map(x => (x._1, x._2._1.toDouble / x._2._2.toDouble)).
    collect

或与

animals23.
    combineByKey(
        (x:String) => (x.length,1),
        (x:(Int, Int), y:String) => (x._1 + y.length, x._2 + 1),
        (x:(Int, Int), y:(Int, Int)) => (x._1 + y._1, x._2 + y._2)
    ).
    map(x => (x._1, x._2._1.toDouble / x._2._2.toDouble)).
    collect

每个导致

Array((a,3.0), (c,6.333333333333333), (d,5.0), (g,3.0), (l,5.5), (w,5.0), (s,6.0), (t,5.0))

我不明白的是：为什么我需要在第二个示例中明确说明函数中的类型，而第一个示例的函数可以不用？

我在谈论

(x, y) => (x._1 + y.length, x._2 + 1),
(x, y) => (x._1 + y._1, x._2 + y._2)

对比

(x:(Int, Int), y:String) => (x._1 + y.length, x._2 + 1),
(x:(Int, Int), y:(Int, Int)) => (x._1 + y._1, x._2 + y._2)

它可能更像是 Scala 而不是 Spark 问题。

score 2 · Accepted Answer

为什么我需要在第二个示例中明确说明函数中的类型，而第一个示例的函数可以不用？

因为在第一个示例中，编译器能够seqOp根据提供的第一个参数列表推断出的类型。aggregateByKey正在使用柯里化：

def aggregateByKey[U](zeroValue: U)
                     (seqOp: (U, V) ⇒ U, 
                      combOp: (U, U) ⇒ U)
                     (implicit arg0: ClassTag[U]): RDD[(K, U)]

Scala 中类型推断的工作方式是编译器能够根据第一个参数列表推断第二个参数列表的类型。所以在第一个例子中，它知道这seqOp是一个函数((Int, Int), String) => (Int, Int)，同样适用于combOp。

相反，combineByKey只有一个参数列表：

combineByKey[C](createCombiner: (V) ⇒ C, 
                mergeValue: (C, V) ⇒ C, 
                mergeCombiners: (C, C) ⇒ C): RDD[(K, C)]

如果没有明确说明类型，编译器不知道要推断x什么y。

你可以做的是帮助编译器显式指定类型参数：

animals23
  .combineByKey[(Int, Int)](x => (x.length,1), 
                           (x, y) => (x._1 + y.length, x._2 + 1),
                           (x, y) => (x._1 + y._1, x._2 + y._2))
  .map(x => (x._1, x._2._1.toDouble / x._2._2.toDouble))
  .collect

scala - 何时明确说明函数输入的类型？

1 回答 1

Related

Reference