apache-spark - repartition(1) - 使加载非常慢

翻译自：https://stackoverflow.com/questions/67599072 2021-05-19T07:54:13.247

51 次

1

当我从 spark-Databricks 加载 2000 万条记录时，当我提到重新分区 (1) 时，写入 neo4j - 加载所有记录需要花费大量时间。如果我没有提到 repartition(1) 它会失败，数据库不符合请求的版本错误。如何克服这一点？

DBR 规范：6.4（包括 Apache Spark 2.4.5、Scala 2.11）

连接器 - 库：

spark_cdm_connector_assembly_0_19_0.jar，neo4j-contrib:neo4j-connector-apache-spark_2.11:4.0.1

Neo4j - 单个 Neo4j 实例

错误：

org.neo4j.driver.exceptions.TransientException：数据库“xxx”未达到请求的版本：1879。最新数据库版本为 1867

0 回答 0