0

我最近一直在探索关联数据,但我不断遇到一个又一个问题。为了克服访问外部端点时的性能延迟,我想在本地存储数据转储。

但是,我遇到的数据集大多存在问题。一个常见的问题是 URI 质量(例如,在 Jena 的 TDB 中导入时出错Bad character in IRI (space): <http://bio2rdf.org/genecards:BCR/ABL[space]...>:)

我该如何处理这样的问题?有没有办法清理此类数据转储,甚至删除此类有问题的三元组?

4

1 回答 1

0

当 URI 错误时,使用文本工具处理输入文件是开始的方式。N-Triples 更容易使用。可能会有稍后的处理来做更多的事情。

在 的情况下[space],将其替换为%20将创建合法的 URI,但它们是不同的 URI。这对数据有什么影响取决于数据以及您想用它做什么。就像删除坏三元组(另一个文本处理选项)一样,是否应该通过删除一些坏主题周围的所有三元组来清理数据取决于数据的形状。

另一件事是向上游报告问题,以便可以在源头进行修复。

于 2017-11-06T10:34:57.323 回答