我有一个包含 N-Quads 的文件(使用 schema.org 词汇表),我想使用 Apache Jena 的命令行工具将它加载到 TDB RDF 存储中。我正在使用的命令是:
tdbloader --loc <rdf_store_location> <file_to_load>
但是在加载过程中,我收到了一个错误:
[line: 769293, col: 154] 非法 unicode 转义序列值:\" (0x22)
我还从 Jena 命令行工具运行了验证工具:
riot --validate <file_to_load>
事实上,至少有 30 个错误/警告类似于:
坏的 IRI
路径包含一个段 /../ 不是在相对引用的开头,或者它包含一个 /./ 这些应该被删除
有没有办法通过使用命令行工具(Jena 或者如果您有其他知识)忽略无效的 N-Quads 或删除它们?
否则,唯一的选择是执行脚本来删除无效字符。但是除了文件很大(60 GB)之外,我想这很容易出错。