0

我注意到像 tika 这样的解析插件从内容中提取外链,但是在方法 getParse/2 中传递的对象 WebPage 已经有 2 个包含外链和内链的数组。

getParse 中的提取和 fetch 之后的提取有什么区别。

谢谢。

4

1 回答 1

0

Webpage 对象是根据 nutch 数据库中的信息创建的,在我的例子中是 hsql。

在解析过程之后(在方法 getParse 返回之后)填充网页字段 outlinks(和其他一些)。

于 2012-08-14T16:59:54.900 回答