我在 Google dataproc 集群版本 1.4 和 spark 版本 2.4.5 中运行 spark 作业,它从 GS 存储桶的路径中读取带有正则表达式的文件并低于错误。
Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: gs://<gs_path>/<file_name>_\d*.dat;
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:552)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply(DataSource.scala:545)
我能够使用 spark 版本 2.2.3 在 dataproc 1.2 集群中运行相同的作业,并且能够从路径中读取文件。
我们应该在 spark 2.4.5 中形成正则表达式的方式是否有任何变化,或者 dataproc 1.4 集群的 google api 是否有任何变化,这需要改变我用正则表达式创建这些路径的方式。