2

我想从DBPedia 转储文件中提取每篇文章的标签、摘要、类别和相关日期。

我正在使用dotnetrdf,我想将提取的数据保存到 MS SQL 数据库(我不想使用像 Virtuoso 这样的三重存储)。

由于转储文件的大小,我无法将转储文件加载到内存中。

有没有提取语句的解决方案?我能想象的唯一方法是将转储文件拆分为更小的块文件,这是唯一的解决方案吗?

4

1 回答 1

3

实际上,dotNetRDF 中的所有内容都旨在支持流式解析,最常见的用例恰好是将内容加载到我们的内存结构中,但即便如此,它也使用引擎盖下的流式解析器子系统。

请参阅阅读 RDF 文档的高级解析部分,其中介绍了处理程序 API,该 API 使用户可以完全控制解析器生成的数据发生的情况。因此,您可以编写一个自定义处理程序,该处理程序接收流产生的数据并将其放入数据库中。

于 2013-03-20T16:47:45.520 回答