8

我的目标是从网页中提取结构化数据。我正在使用这个 SO question中提到的代码。我在我的 Spring 项目中使用Apache Any23 CLI库依赖项。

通过使用它,我能够从网页中提取 HTML5 微数据 (Schema.org)。但是,我无法提取网页中存在的 JSON-LD 格式。当我查看Apache Any23的文档时,它支持 JSON-LD 格式。没有找到任何进一步的文件。

4

1 回答 1

0

通常,如果您使用它创建一个新的 Any23 提取器,new Any23()它应该可以开箱即用。如果您使用另一个构造函数,Any23(String... extractorNames)您必须确保为嵌入式 JSON LD 添加正确的构造函数,即"html-embedded-jsonld".

现在,如果提取过程中出现任何错误,Any23 会默默地删除它们。(这很棒,我知道!)

我发现可以在org.apache.any23.extractorExtractionResultImpl方法中设置断点notifyIssue。有了这个,您可能能够找到问题的更详细原因。

于 2020-05-26T15:16:16.177 回答