6

我正在尝试通过使用 py2neo python 模块(py2neo.cypher.execute)执行密码命令将大量节点(〜500,000)插入(非嵌入式)neo4j 数据库。最终我需要消除对 py2neo 的依赖,但我目前正在使用它,直到我了解更多关于 cypher 和 neo4j 的信息。

我有两种节点类型 A 和 B,绝大多数节点都是类型 A。有两种可能的关系 r1 和 r2,例如 A-[r1]-A 和 A-[r2]-B。类型 A 的每个节点将有 0 - 100 个 r1 关系,类型 B 的每个节点将有 1 - 5000 个 r2 关系。

目前我正在通过构建大型 CREATE 语句来插入节点。例如我可能有一个声明

CREATE (:A {uid:1, attr:5})-[:r1]-(:A {uid:2, attr:5})-[:r1]-...

其中 ... 可能是另外 5000 个左右的节点和关系,在图中形成一个线性链。这工作正常,但速度很慢。我还使用索引这些节点

CREATE INDEX ON :A(uid)

添加所有类型 A 节点后,我再次使用 CREATE 语句添加类型 B 节点。最后,我尝试使用如下语句添加 r2 关系

MATCH c:B, m:A where c.uid=1 AND (m.uid=2 OR m.uid=5 OR ...)
CREATE (m)-[:r2]->(c)

其中 ... 可以代表几千个 OR 语句。这似乎真的很慢,每秒只添加几个关系。

那么,有没有更好的方法来做到这一点?我在这里完全偏离轨道了吗?我查看了这个问题,但这并没有解释如何使用密码来有效地加载节点。我看到的所有其他东西似乎都使用 java,但没有显示可以使用实际的密码查询。

4

1 回答 1

6

直到最后才创建索引(在 2.0 中)。它会减慢节点的创建速度。

您是否在 Cypher 中使用参数?

我想你会失去很多密码解析时间,除非你的密码每次都与参数完全相同。如果您可以将其建模为那样,您将看到显着的性能提升。

您已经在密码请求中发送了相当多的块,但是批处理请求 API 将允许您发送不止一个 REST 请求,这可能会更快(试试看!)。

最后,如果这是一次性导入,您可以考虑使用批量导入工具——即使在硬件不好的情况下,它也可以在几分钟内烧毁 50 万个节点……然后您可以升级数据库文件(我不认为它可以创建 2.0 文件,但如果不能,可能很快就会出现),并通过 Cypher 创建标签/索引。

更新:我刚刚注意到你最后的 MATCH 声明。你不应该这样做——一次只做一个关系,而不是对 ID 使用 OR。这可能会有很大帮助——并确保您使用 uid 的参数。即使您使用索引提示,Cypher 2.0 似乎也无法使用 OR 进行索引查找。也许这会在以后出现。

2013 年 12 月更新:2.0 具有 Cypher 事务端点,我已经看到了极大的吞吐量改进。我已经能够发送 20-30k Cypher 语句/秒,使用 100-200 语句的“exec”大小和 1000-10000 语句的总事务大小。对于加速 Cypher 的加载非常有效。

于 2013-06-06T17:24:50.370 回答