c# - 从 .NET 中的 DBPedia 的大转储文件中提取内容

Question

我想从DBPedia 转储文件中提取每篇文章的标签、摘要、类别和相关日期。

我正在使用dotnetrdf，我想将提取的数据保存到 MS SQL 数据库（我不想使用像 Virtuoso 这样的三重存储）。

由于转储文件的大小，我无法将转储文件加载到内存中。

有没有提取语句的解决方案？我能想象的唯一方法是将转储文件拆分为更小的块文件，这是唯一的解决方案吗？

score 3 · Accepted Answer

实际上，dotNetRDF 中的所有内容都旨在支持流式解析，最常见的用例恰好是将内容加载到我们的内存结构中，但即便如此，它也使用引擎盖下的流式解析器子系统。

请参阅阅读 RDF 文档的高级解析部分，其中介绍了处理程序 API，该 API 使用户可以完全控制解析器生成的数据发生的情况。因此，您可以编写一个自定义处理程序，该处理程序接收流产生的数据并将其放入数据库中。

1 回答 1