我正在使用作为我们数据收集的一部分生成的 RDF 数据集,该数据集由大约 160 万个小文件组成,总共 6.5G 的文本(ntriples)和大约 20M 三元组。我的问题与将这些数据加载到在 Tomcat 下运行的 Sesame 三重存储所花费的时间有关。
我目前正在通过 HTTP api(在同一台机器上)使用简单的 POST 一次请求一个文件从 Python 脚本加载它,完成加载大约需要五天时间。查看已发布的基准,这似乎很慢,我想知道我可以使用什么方法来更快地加载数据。
我确实认为我可以编写 Java 来直接连接到商店,因此无需 HTTP 开销。但是,我在这里阅读了另一个问题的答案,即不支持并发访问,因此这看起来不像一个选项。
如果我要编写 Java 代码来连接到 HTTP 存储库,Sesame 库是否会做一些特殊的魔法来加快数据加载速度?
将文件分组为更大的块有帮助吗?这将减少发送文件的 HTTP 开销。多大的块比较好?这篇博客文章建议每块 100,000 行(它正在切割一个更大的文件,但想法是一样的)。
谢谢,
史蒂夫