apache-spark - Spark 和 CouchDB 的大数据

Question

我使用带有“org.apache.bahir - spark-sql-cloudant - 2.4.0”的spark 2.4.0 我必须将所有json文件从couchDB下载到hdfs。

 val df = spark
  .read
  .format("org.apache.bahir.cloudant")
  .load("demo")
df.persist(StorageLevel.MEMORY_AND_DISK)

 df
  .write
  .partitionBy("year", "month", "day")
  .mode("append")
  .parquet("...")

总文件大小为 160GB（> 1300 万个文件）运行 5 分钟后的 Spark 作业出现错误

引起：com.cloudant.client.org.lightcouch.CouchDbException：检索服务器响应时出错

增加超时没有帮助，脱落但后来有什么办法摆脱这种情况？

score 0 · Accepted Answer

0

使用另一个端点进行查询，对_all_docs 使用 _changes帮助了我

于 2021-02-25T14:43:10.960 回答

apache-spark - Spark 和 CouchDB 的大数据

1 回答 1

Related

Reference