1

在我的项目中,我使用 spring-data-neo4j 4.2.0.M1 和 neo4j-ogm 2.0.4。最初这是使用嵌入式 neo4j 实例,但在调查此问题的过程中,我已使用 Bolt 协议迁移到专用的 neo4j 实例(尽管在同一台机器上运行)。

我不断地插入数据,基本上是因为它对我的应用程序可用(所以我不能使用批量插入)。启动后,这工作正常,保存我的 NodeEntity 的实例大约需要 60 毫秒,这对我的用例来说非常好。然而,随着时间的推移,这会慢慢退化。10-20 分钟后,每次保存会减慢到大约 2 秒,这不再那么好了。时间似乎在这里达到顶峰,并没有减少太多。

最初我认为这是由于嵌入式实例太小造成的,因为我看到 neo4j 报告了有关 GC 暂停的重复消息。然后我迁移到一个更大的专用实例,并且这些 GC 警告不再出现。尽管如此,退化仍然发生。

neo4j 报告的存储大小:

Array Store 8.00 KiB
Logical Log 151.36 MiB
Node Store 40.14 MiB
Property Store 1.83 GiB
Relationship Store 742.63 MiB
String Store> Size 120.87 MiB
Total Store Size 4.55 GiB

实例配置如下:

dbms.memory.pagecache.size=5g
dbms.memory.heap.initial_size=4g
dbms.memory.heap.max_size=4g
dbms.jvm.additional=-XX:+UseG1GC

使用YourKit profiler(采样器模式!)我可以看到大部分时间似乎都花在neo4j-ogm的EntityGraphMapper上,特别是在

org.neo4j.ogm.context.EntityGraphMapper#haveRelationEndsChanged

YourKit 分析器

被保存的 NodeEntity 通常与其他节点有大约 40 个关系,其中大多数被建模为 RelationshipEntity。在较早的阶段,我已经注意到保存实体非常慢,因为也映射了太多相关(但未更改)的实体。从那时起,我在保存时使用深度 1。导致节点实体被保存的连续操作使用 200 个实体的事务大小。

我还不相信 neo4j-ogm 实际上是放缓的原因,因为与良好的初始结果相比,我看不出有什么变化。在这种情况下,我通常会怀疑内存泄漏/污染,但所有监控结果在我的应用程序中看起来都不错。对于 neo4j 服务器实例,除了 debug.log 之外,我真的不知道在哪里可以找到此类信息。

总而言之,我已经花了相当长的时间调查这个问题,不知道还有什么可以看的。有什么想法或建议吗?我很高兴提供更多信息。

编辑:在@vince 的输入之后,我再次查看了内存分布,发现实际上 Neo4jSession 在让应用程序运行约 3 小时后增长了很多:

neo4j-ogm-内存

当时堆有 1.7 GB 大,其中 70% 引用了实时数据。其中,Neo4jSession 当前引用了大约 300mb(并保持活动状态)。这可能表明它已经变得太大了。我怎样才能在这里手动干预?

4

3 回答 3

2

实体在会话中一直存在,直到它们被垃圾收集。haveRelationEndsChanged如果您要加载数千个实体,可能会对性能产生一些影响,因此可能值得session.clear()在每个事务之间进行,看看这是否有帮助

于 2016-11-10T11:43:12.850 回答
2

希望现在帮助解决这个问题还为时不晚。

我最近在一个 Set 中保存具有 ~900 个关系的节点时遇到了同样的情况,并且可以让它从 ~5 秒到 500ms 执行。我最初使用的是 neo4j-ogm 2.1.3,刚刚迁移到 3.0.0。尽管 3.0.0 更快,但两个版本的性能提升相似。

这是一些伪代码(我现在无法分享真实代码):

@NodeEntity(label = "MyNode")
public class MyNode {
    @GraphId
    private Long id;

    @Index(unique = true, primary = true)
    private String myUniqueValue;

    private String value;

    @Relationship(type = "CONNECTS_TO")
    private Set<MyRelationship> relationships;
    // constructors, getters, setters
}

@Relationship(type = "CONNECTS_TO")
public class MyRelationship {

    @GraphId
    private Long id;

    @StartNode
    private MyNode parent;

    @EndNode
    private MyNode child;
    // constructors, getters, setters
}

请注意,它MyNode有一个索引/唯一字段,我可以完全控制该值。neo4j-ogm 将使用它来确定它是否应该执行CREATEorMERGE语句。在我的用例中,如果节点已经存在,我希望合并发生。

另一方面,关系创建依赖于节点 id(@GraphId字段)。这是生成它的语句的一小段:

UNWIND {rows} as row MATCH (startNode) WHERE ID(startNode) = row.startNodeId MATCH (endNode) WHERE ID(endNode) = row.endNodeId...

在慢速模式下,neo4j-ogm 将负责验证关系或其中的节点是否已保存,并将检索创建节点所需的 id。这是您在 YourKit 中捕获的操作。

一个执行缓慢的例子:

void slowMode() {
    MyNode parent = new MyNode("indexed-and-unique", "some value");
    for (int j = 0; j < 900; j++) {
        MyNode child = new MyNode("indexed-and-unique" + j, "child value" + j);
        parent.addRelationship(new MyRelationship(parent, child));
    }
    session.save(parent); // save everything. slow.
}

我找到的解决方案是将这些操作分为三个部分:

  • 只保存父节点

  • 保存子节点

  • 保存关系

这要快得多:

void fastMode() {
    MyNode parent = new MyNode("indexed-and-unique", "some value");
    for (int j = 0; j < 900; j++) {
        MyNode child = new MyNode("indexed-and-unique" + j, "child value" + j);
        parent.addRelationship(new MyRelationship(parent, child));
    }
    session.save(parent, 0); // save only the parent
    session.save(getAllChildsFrom(parent), 0); // save all the 900 childs
    // at this point, all instances of MyNode will contain an "id". time to save the relationships!
    session.save(parent);
}

session.save(getAllChildsFrom(parent), 0)需要注意的一点:neo4j-ogm 2.1.3 在保存节点集合(版本 3.0.0 解决了这个问题。

希望能帮助到你!

于 2017-10-29T01:41:12.540 回答
1

前段时间我们遇到了几乎相同的情况,当我们需要将大量数据存储到 neo4j 时。我们分析了如何处理这个问题的不同方法。所以我们找到了一些解决方案,如何加快向 neo4j 插入数据的速度。

  1. 使用本机 neo4j java 驱动程序而不是 spring-data。首先它是异步 api,如果此时 select 的数据可用性并不重要,它可以提供帮助。

  2. 使用事务来插入许多记录(例如,每个事务插入 1000 次)。它将加快插入速度,因为在任何事务提交之后 neo4j 尝试使用 lucene 重新计算索引并且这需要时间。在您的情况下(使用 spring-data),任何插入都在单独的事务中执行。

于 2016-11-09T12:15:35.643 回答