我有一个 .nt 格式的 200GB RDF 文件。我想在 Virtuoso 中加载它(使用 Virtuoso Open-Source Edition 6.1.6)。我从命令行使用 Virtuoso 批量加载程序,但运行几个小时后加载会挂起。您知道如何有效地将这个大文件加载到 Virtuoso 吗?我想快速加载它。
我还尝试从 Apache Jena 查询我的 200GB RDF 图。然而,运行 30 分钟后,它给了我一些与堆大小空间相关的错误。如果您对上述问题有任何解决方案,请告诉我。
您正在加载的实际数据集是什么?它实际上只是一个文件吗?我们建议拆分为最大约 1GB 的文件,并使用批量加载程序一次加载多个文件。
您是否针对正在使用的机器上的可用资源对 Virtuoso Server 进行了任何性能调整,如RDF 性能调整指南中所述?
请使用status('');
命令检查正在使用的缓冲区数量,因为如果在加载期间用完,您将连续交换到磁盘,这将导致您报告的那种明显的挂起。
请注意,您还可以加载Virtuoso LD Meter功能来监控数据集加载的进度。
Jena TDB 有一个批量加载程序,已用于大数据输入(数亿个三元组)。