3

我正在用 Java 构建一个应用程序,使用 Jena 进行语义信息抓取。我正在寻找可以让我正确提取所有 RDFa 语句的 RDFa 解析器。具体来说,提取有关使用的名称空间的信息并假设页面中的 RDFa 标记是正确的会生成正确的三元组,即区分对象和数据属性的三元组。

我浏览了站点http://rdfa.info/wiki/Consume for Java 中的所有 RDFa 解析器。他们都在努力提取任何 RDFa 语句,如果它们没有崩溃,Jena RDFa 解析器会显示大量错误,然后死于可怕的死亡,数据几乎没有用处,因为它处理不正确并且通常会混淆。我是这方面的新手,所以请温柔:)

我也在考虑使用一个用不同语言编写的库,但是我真的不知道如何将它插入到 Java 代码中。有什么建议么?

4

2 回答 2

3

大多数 RDFa 解析器都在处理无效的 HTML。any23包含一个可以处理无效 HTML 的 RDFa 解析器。它将任何 RDFa 解析为完整的 RDF,包括名称空间映射等,并且正在积极开发中。

于 2010-06-04T20:23:34.107 回答
3

使用java-rdfa。它支持jena,并使用validator.nu html 5解析器,它像浏览器一样处理html 解析(即它会修复损坏的标记)。

于 2010-07-05T18:38:49.373 回答