我的目标是从网页中提取结构化数据。我正在使用这个 SO question中提到的代码。我在我的 Spring 项目中使用Apache Any23 CLI库依赖项。
通过使用它,我能够从网页中提取 HTML5 微数据 (Schema.org)。但是,我无法提取网页中存在的 JSON-LD 格式。当我查看Apache Any23的文档时,它支持 JSON-LD 格式。没有找到任何进一步的文件。
我的目标是从网页中提取结构化数据。我正在使用这个 SO question中提到的代码。我在我的 Spring 项目中使用Apache Any23 CLI库依赖项。
通过使用它,我能够从网页中提取 HTML5 微数据 (Schema.org)。但是,我无法提取网页中存在的 JSON-LD 格式。当我查看Apache Any23的文档时,它支持 JSON-LD 格式。没有找到任何进一步的文件。
通常,如果您使用它创建一个新的 Any23 提取器,new Any23()
它应该可以开箱即用。如果您使用另一个构造函数,Any23(String... extractorNames)
您必须确保为嵌入式 JSON LD 添加正确的构造函数,即"html-embedded-jsonld"
.
现在,如果提取过程中出现任何错误,Any23 会默默地删除它们。(这很棒,我知道!)
我发现可以在org.apache.any23.extractorExtractionResultImpl
方法中设置断点notifyIssue
。有了这个,您可能能够找到问题的更详细原因。