9

我正在尝试使用 RDFLib 3.0 解析几个大图,显然它处理第一个并在第二个(MemoryError)上死掉......看起来 MySQL 不再被支持作为存储,你能建议一种方法来解析这些吗?

Traceback (most recent call last):
  File "names.py", line 152, in <module>
    main()
  File "names.py", line 91, in main
    locals()[graphname].parse(filename, format="nt")
  File "/usr/local/lib/python2.6/dist-packages/rdflib-3.0.0-py2.6.egg/rdflib/graph.py", line 938, in parse
    location=location, file=file, data=data, **args)
  File "/usr/local/lib/python2.6/dist-packages/rdflib-3.0.0-py2.6.egg/rdflib/graph.py", line 757, in parse
    parser.parse(source, self, **args)
  File "/usr/local/lib/python2.6/dist-packages/rdflib-3.0.0-py2.6.egg/rdflib/plugins/parsers/nt.py", line 24, in parse
    parser.parse(f)
  File "/usr/local/lib/python2.6/dist-packages/rdflib-3.0.0-py2.6.egg/rdflib/plugins/parsers/ntriples.py", line 124, in parse
    self.line = self.readline()
  File "/usr/local/lib/python2.6/dist-packages/rdflib-3.0.0-py2.6.egg/rdflib/plugins/parsers/ntriples.py", line 151, in readline
    m = r_line.match(self.buffer)
MemoryError
4

1 回答 1

10

这些 RDF 文件有多少个三元组?我已经测试过rdflib了,如果你幸运的话,它的扩展范围不会超过几十个 ktriples。对于具有数百万个三元组的文件,它不可能真正表现良好。

最好的解析器rapper来自Redland Libraries。我的第一个建议是不要使用RDF/XML并选择ntriples. Ntriples 是一种比 RDF/XML 更轻量的格式。您可以使用以下方法从 RDF/XML 转换为 ntriples rapper

rapper -i rdfxml -o ntriples YOUR_FILE.rdf > YOUR_FILE.ntriples

如果你喜欢 Python,你可以使用Redland python bindings

import RDF
parser=RDF.Parser(name="ntriples")
model=RDF.Model()
stream=parser.parse_into_model(model,"file://file_path",
                                      "http://your_base_uri.org")
for triple in model:
    print triple.subject, triple.predicate, triple.object

我已经用 redland 库解析了相当大的文件(几个千兆字节),没有问题。

最终,如果您要处理大型数据集,您可能需要将数据断言到可扩展的三重存储中,我通常使用的是4store。4store 内部使用redland 来解析RDF 文件。从长远来看,我认为,你必须要做的是建立一个可扩展的三重商店。有了它,您将能够使用SPARQL来查询您的数据并使用SPARQL/Update来插入和删除三元组。

于 2011-04-15T15:47:39.543 回答