java - 在 Neo4J 中插入大量节点

Question

我有一个存储在典型 MySQL 数据库中的表，并且我使用 java 构建了一个小型解析器工具来解析并构建一个 neo4j 数据库。该数据库将有大约 4000 万个节点，每个节点都有一条或多条边（最多可能有 10 条边）。问题来自我必须创建某些节点的方式。有一个用户节点、评论节点和主题标签节点。用户节点和主题标签节点都必须是唯一的。我正在使用以下示例中的代码来确保唯一性：

public Node getOrCreateUserWithUniqueFactory( String username, GraphDatabaseService graphDb )
{
    UniqueFactory<Node> factory = new UniqueFactory.UniqueNodeFactory( graphDb, "users" )
    {
    @Override
    protected void initialize( Node created, Map<String, Object> properties )
    {
        created.setProperty( "name", properties.get( "name" ) );
    }
};

return factory.getOrCreate( "name", username );

}

我曾考虑过使用批量插入器，但我还没有看到在执行批量插入时检查节点是否唯一的方法。所以我的问题是插入所有这些节点的最快方法是什么，同时仍确保它们保持其唯一性。任何帮助将一如既往地不胜感激。

score 3 · Accepted Answer

万一这里的其他人遇到这个问题，我想记录我自己和同事为了提高速度而能够弄清楚的内容。首先是关于数据的一两个注释：

用户数量多，约占节点的30%
还有大量的主题标签，因为人们倾向于散列几乎任何东西
这两者都必须保证是独一无二的

现在，这已经不适合优化了。首先，您需要确保每次插入节点时插入循环都完成。没有真正的例子可供我们查看，所以最初的代码看起来像这样（伪代码）

Transaction begin
While(record.next()){
   parse record
   create unique user
   create unique hashtag
   create comment
   insert into graph
}
Transaction success
Transaction finish

虽然这对小型数据集运行良好并且相对较快完成，但它的扩展性并不好。因此，我们查看了每个函数的用途，并将代码重构为如下所示：

While(record.next()){
   Transaction begin

   parse record
   create unique user
   create unique hashtag
   create comment
   insert into graph

   Transaction success
   Transaction finish
}

这大大加快了速度，但对我的同事来说还不够。所以他发现可以在节点属性上创建 Lucene 索引，我们可以在 Unique Node 工厂中引用这些索引。这给了我们另一个显着的速度提升。如此之多，以至于我们可以在大约 10 秒内插入 1,000,000 个节点，而无需使用批处理加载器。感谢大家的帮助。

score 0 · Accepted Answer

为什么不在批量插入期间创建本地缓存？您可以使用Map带有键name和值的 java NodeId（来自批处理插入器）。

score 0 · Accepted Answer

通常最简单的方法是将它们保存在HashMap. 毕竟你不会有那么多用户和标签

您还可以使用LuceneBatchInserterIndex和使用setCapacity

见：http ://docs.neo4j.org/chunked/milestone/batchinsert.html#indexing-batchinsert

java - 在 Neo4J 中插入大量节点

3 回答 3

Related

Reference