java - Sesame 2.7.7如何更快地添加100万个三元组

Question

我注意到使用 RepositoryConnection 方法的add实例化比通过使用 SPARQL 查询修改模型的实例化要慢。尽管存在差异，即使是 SPARQL 更新方法也需要很长时间来实例化（3.4 分钟到 10,000 个三元组）。多个inserts（每个三元组一个查询）或一个大insert查询的执行不会改变方法的性能。它仍然很慢。是否有另一种适合添加 100 万个三元组的方法，或者是否有任何特殊配置可以提供帮助？

RepositoryConnection 的代码

Repository myRepository = new HTTPRepository(serverURL, repositoryId);
myRepository.initialize();
RepositoryConnection con = myRepository.getConnection();
ValueFactory f = myRepository.getValueFactory();

i = 0;
j = 1000000;    

while(i < j)(
    URI event    = f.createURI(ontologyIRI + "event"+i);
    URI hasTimeStamp    = f.createURI(ontologyIRI + "hasTimeStamp");
    Literal timestamp   = f.createLiteral(fields.get(0));
    con.add(event, hasTimeStamp, timestamp);
    i++
}

SPARQL 代码

Repository myRepository = new HTTPRepository(serverURL, repositoryId);
myRepository.initialize();
RepositoryConnection con = myRepository.getConnection();

i = 0;
j = 1000000;    

while(i < j)(
    query = "INSERT {";
    query += "st:event"+i+" st:hasTimeStamp     '"+fields.get(0)+"'^^<http://www.w3.org/2001/XMLSchema#float> .\n"
    + "}"
      + "WHERE { ?x ?y ?z }";
    Update update = con.prepareUpdate(QueryLanguage.SPARQL, query);
    update.execute();

    i++;
}

我已经尝试过同步值等于 0 的 Sesame 存储库In Memory的版本Native Store

score 3 · Accepted Answer

（我只是注意到您添加了请求的附加信息，因此这个回复比较晚）

正如我所怀疑的那样，问题是您没有使用事务将更新操作一起批处理。实际上，您执行的每个添加操作都变成了一个事务（默认情况下，芝麻存储库连接以自动提交模式运行），这是缓慢且低效的。

要更改这一点，请启动一个事务（使用RepositoryConnection.begin()），然后添加您的数据，最后调用RepositoryConnection.commit()以完成事务。

以下是您应该如何修改您的第一个代码示例：

Repository myRepository = new HTTPRepository(serverURL, repositoryId);   
myRepository.initialize(); 
RepositoryConnection con = myRepository.getConnection(); 
ValueFactory f = myRepository.getValueFactory();

i = 0; 
j = 1000000;    

try {
  con.begin(); // start the transaction
  while(i < j) {
      URI event    = f.createURI(ontologyIRI + "event"+i);
      URI hasTimeStamp    = f.createURI(ontologyIRI + "hasTimeStamp");
      Literal timestamp   = f.createLiteral(fields.get(0));
      con.add(event, hasTimeStamp, timestamp);
      i++; 
  }
  con.commit(); // finish the transaction: commit all our adds in one go.
}
finally {
  // always close the connection when you're done with it. 
  con.close();
}

这同样适用于带有 SPARQL 更新的代码。有关如何使用事务的更多信息，请查看 Sesame 手册，尤其是有关使用存储库 API 的章节。

顺便说一句：由于您正在使用 HTTTP，因此如果您的事务变得太大，则存在一种风险，它将开始在您的客户端中消耗大量内存。如果这种情况开始发生，您可能希望将更新分解为多个事务。但是我认为，如果更新包含一百万个三元组，你应该还可以。

java - Sesame 2.7.7如何更快地添加100万个三元组

RepositoryConnection 的代码

SPARQL 代码

1 回答 1

Related

Reference