1

我已经使用 Neo4j 导入工具导入了我的数据集。结果如下所示:

IMPORT DONE in 3m 4s 715ms. 
Imported:
  9252082 nodes
  12347926 relationships
  100924808 properties
Peak memory usage: 604.47 MB

因此,节点总数大于 900 万个节点。当我从保存数据的 csv 文件中计算 Spark 数据帧行时,我得到了相同的结果。但是,当我在 Neo4j 中执行此查询时,我得到一个较小的数字:

MATCH (n) return count(*)

结果计数为:4446119

我检查了一个特定表的记录数是否不同,这是最大的一个。所以在 Neo4j 中5893886,这个表的计数不是1087923

所以根据导入结果,似乎所有节点都被导入了,但在 Neo4j 中看不到这种趋势。这种行为的原因可能是什么?

4

1 回答 1

0

在我看来,问题出在成员 ID 上。出于某种原因,在我的数据集中,多个成员具有相同的 ID。这就是为什么在使用标志运行导入时--no-duplicates,这些记录被处理但它们实际上并没有插入到数据库中。

于 2018-05-13T14:16:48.587 回答