我使用带有“org.apache.bahir - spark-sql-cloudant - 2.4.0”的spark 2.4.0 我必须将所有json文件从couchDB下载到hdfs。
val df = spark
.read
.format("org.apache.bahir.cloudant")
.load("demo")
df.persist(StorageLevel.MEMORY_AND_DISK)
df
.write
.partitionBy("year", "month", "day")
.mode("append")
.parquet("...")
总文件大小为 160GB(> 1300 万个文件)运行 5 分钟后的 Spark 作业出现错误
引起:com.cloudant.client.org.lightcouch.CouchDbException:检索服务器响应时出错
增加超时没有帮助,脱落但后来有什么办法摆脱这种情况?