最近,我在使用 pyspark 将数据帧数据写入 BigQuery 时遇到了一个问题。这是:
pyspark.sql.utils.IllegalArgumentException: u'必须通知临时或持久 GCS 存储桶
在研究了这个问题后,我发现要提到临时 GCS 存储桶spark.conf
。
bucket = "temp_bucket"
spark.conf.set('temporaryGcsBucket', bucket)
我认为在像 Hive 这样的 Biquery 中有一个表文件是没有概念的。
我想了解更多,为什么我们需要 temp-gcs-bucket 将数据写入 bigquery?
我正在寻找这背后的原因,但我不能。
请说清楚。