neo4j - 加载 csv 合并性能

Question

我在将批量插入 neo4j 时遇到性能问题。

我有一个包含 400k 行的 csv 文件，它产生大约 350 万行，我使用 LOAD CSV 命令，最新版本在 neo4j 上。

我注意到当我使用 Create 语句时，加载大约需要 4 分钟，并且根本没有索引 - 大约 3.5 分钟。

我的第一个问题是，这是否是节点/分钟的正常速率。

现在，我真正的问题是，出于数据完整性的原因，我需要使用合并，而当我使用它时，它甚至可能需要 24 小时，连同索引。

所以另外两个问题是：

是否推荐 LOAD CSV 以获得最佳性能负载，

还有：我能做些什么来解决这个性能问题？

编辑：

这是查询：

 LOAD CSV WITH HEADERS FROM 'file:///import.csv' AS line FIELDTERMINATOR '|' 
 MERGE (session :Session { session:line.session })  
 MERGE (hit :Hit { key:line.key,date_time:line.date_time,session:line.session })  
 MERGE (user :User { id:line.user_id })   
 MERGE (session2 :Session2 { session2:line.session2 })  
 MERGE (country :Country{ name:line.country})   
 MERGE (tv :TV { name:tv.Model })  
 MERGE (transfer_protocol :Protocol { name:line.transfer_protocol })  
 MERGE (os :OS { name:line.os_name ,version:line.os_version, row_key:line.os_name+line.os_version})

session,user,session2,country,tv,transfer_protocol 和 os 具有唯一约束，并且 hit 具有索引

**session1 和 session2 可以有很多点击（1 到 100，平均 5）hit_key_guid 对于每个 csv 行是不同的

它的运行速度非常慢 - 机器非常强大，每 1000 行可能需要长达 10 秒。

还检查了探查器，没有“渴望”

谢谢

里奥

score 2 · Accepted Answer

您应该共享您的数据模型、索引、LOAD CSV 查询以及配置文件输出。你在使用 PERIODIC 提交吗？

确保您没有遇到 Eager 问题，请参见此处：

http://neo4j.com/developer/guide-import-csv/#_load_csv_for_medium_sized_datasets http://www.markhneedham.com/blog/2014/10/23/neo4j-cypher-avoiding-the-eager/

一般来说，对于数据集，您的 LOAD CSV 大小是可以的，从 10M 行我可能会切换到import-tool。

score 0 · Accepted Answer

似乎服务器端代码没有正确创建索引，一旦创建索引，负载就会以良好的性能完成

neo4j - 加载 csv 合并性能

2 回答 2

Related

Reference