我正在尝试在Dataflow上运行我的第一个Scio管道。
有问题的代码可以在这里找到。不过我不认为这太重要了。
我的第一个实验是使用DirecRunner读取一些本地 CSV 文件并编写另一个本地 CSV 文件。这按预期工作。
现在,我正在尝试从GCS读取文件,将输出写入BigQuery并使用DataflowRunner运行管道。我已经做了所有必要的改变(或者这就是我所相信的)。但我无法让它运行。
我已经gcloud auth application-default login
和当我这样做了
sbt run --runner=DataflowRunner --project=project-id --input-path=gs://path/to/data --output-table=dataset.table
我可以看到 Jb 是在Dataflow中提交的。但是,一小时后作业失败并显示以下错误消息。
工作流失败。原因:Dataflow 作业似乎卡住了,因为在过去 1 小时内没有看到任何工作人员活动。
(请注意,这项工作在那段时间里什么也没做,因为这是一个实验,所以数据太简单了,需要几分钟时间)。
检查StackDriver我可以发现以下错误:
java.lang.ClassNotFoundException:scala.collection.Seq
与杰克逊的一些事情有关:
java.util.ServiceConfigurationError: com.fasterxml.jackson.databind.Module: 提供者 com.fasterxml.jackson.module.scala.DefaultScalaModule 无法实例化
这就是在一开始就杀死每个执行者的原因。我真的不明白为什么我找不到 Scala 标准库。
我还尝试先创建一个模板,然后使用以下命令对其进行缩减:
sbt run --runner=DataflowRunner --project=project-id --input-path=gs://path/to/data --output-table=dataset.table --stagingLocation=gs://path/to/staging --templateLocation=gs://path/to/templates/template-1
但是,在运行模板后,我得到了同样的错误。
另外,我注意到在暂存文件夹中有很多罐子,但scala-library.jar
不在那里。
我错过了一些明显的东西?