rdf - 从耶拿的文件中删除无效的 N-Quads

翻译自：https://stackoverflow.com/questions/44704565 2017-06-22T16:11:18.710

181 次

我有一个包含 N-Quads 的文件（使用 schema.org 词汇表），我想使用 Apache Jena 的命令行工具将它加载到 TDB RDF 存储中。我正在使用的命令是：

tdbloader --loc <rdf_store_location> <file_to_load>

但是在加载过程中，我收到了一个错误：

[line: 769293, col: 154] 非法 unicode 转义序列值：\" (0x22)

我还从 Jena 命令行工具运行了验证工具：

riot --validate <file_to_load>

事实上，至少有 30 个错误/警告类似于：

坏的 IRI

路径包含一个段 /../ 不是在相对引用的开头，或者它包含一个 /./ 这些应该被删除

有没有办法通过使用命令行工具（Jena 或者如果您有其他知识）忽略无效的 N-Quads 或删除它们？

否则，唯一的选择是执行脚本来删除无效字符。但是除了文件很大（60 GB）之外，我想这很容易出错。

0 回答 0