2

我正在开发一个名为 PySpark Cassandra 的 Scala / Python 库。在其中,例如保存数据时,我必须以pickle格式处理对象序列化的Python对象。

我有一份因stackoverfow而失败的工作:

org.apache.spark.SparkException: Job aborted due to stage failure: Task 250 in stage 2.0 failed 4 times, most recent failure: Lost task 250.3 in stage 2.0 (TID 411, sp-prod-adg02.priv.tgho.nl): java.lang.StackOverflowError
        at pyspark_cassandra.UnpickledUUIDConverter$$anonfun$convertPF$1.applyOrElse(Pickling.scala:121)
        at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:165)
        at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:166)
        at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:166)
        ...
        at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:166)
        at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:166)

启动此跟踪的代码是:

object UnpickledUUIDConverter extends TypeConverter[UUID] {
  val tt = typeTag[UUID]
  def targetTypeTag = tt
  def convertPF = { case holder: UUIDHolder => holder.uuid }
}

位于https://github.com/TargetHolding/pyspark-cassandra/blob/master/src/main/scala/pyspark_cassandra/Pickling.scala#L118(更多细节和上下文)。

UUIDHolder 类定义为:

class UUIDHolder {
  var uuid: UUID = null

  def __setstate__(values: HashMap[String, Object]): UUID = {
    val i = values.get("int").asInstanceOf[BigInteger]
    val buffer = ByteBuffer.wrap(i.toByteArray())
    uuid = new UUID(buffer.getLong(), buffer.getLong())
    uuid
  }
}

(这个类的奇怪构造是为了与 py4j 兼容以及 Python 如何腌制 UUID 对象)

但是我对 Scala 以及 case 块和 PartialFunctions 之间的关系的理解是相当有限的。特别是我的案例块与https://github.com/scala/scala/blob/2.10.x/src/library/scala/PartialFunction.scala#L166的关系(我在 Scala 2.10.5 上运行)

使我的情况恶化:) 我很难始终如一地重现错误。它发生在不同节点上的 Spark 作业中,但并非总是如此。我有一个数据集,在保存该数据集时存在问题。但我无法将其固定到数据集中的特定记录。

在任何情况下,我都不希望使用此代码出现 StackOverflow。任何帮助将不胜感激!

4

1 回答 1

1

回答简单的问题:

您的 case 块是这里解释的部分函数文字,又名模式匹配匿名函数。之所以有效,是因为 of 的返回类型convertPF是一个偏函数。

它得到一个applyOrElse如此处所描述,这避免了调用ifDefinedthen apply

你的OrElse堆栈上的就是 wraps pf1 orElse pf2。它对applyOrElse每个 PartialFunction 的委托实现。

很长的链pfi orElse pfi_++可能会在评估时溢出堆栈,或者orElse_i orElse (orElse_i++ orElse ...).

于 2016-03-13T20:50:26.400 回答