我最近一直在探索关联数据,但我不断遇到一个又一个问题。为了克服访问外部端点时的性能延迟,我想在本地存储数据转储。
但是,我遇到的数据集大多存在问题。一个常见的问题是 URI 质量(例如,在 Jena 的 TDB 中导入时出错Bad character in IRI (space): <http://bio2rdf.org/genecards:BCR/ABL[space]...>
:)
我该如何处理这样的问题?有没有办法清理此类数据转储,甚至删除此类有问题的三元组?
我最近一直在探索关联数据,但我不断遇到一个又一个问题。为了克服访问外部端点时的性能延迟,我想在本地存储数据转储。
但是,我遇到的数据集大多存在问题。一个常见的问题是 URI 质量(例如,在 Jena 的 TDB 中导入时出错Bad character in IRI (space): <http://bio2rdf.org/genecards:BCR/ABL[space]...>
:)
我该如何处理这样的问题?有没有办法清理此类数据转储,甚至删除此类有问题的三元组?