0

我正在使用 nutch 2.0,我创建了一个用于解析 html 的插件,它实现了 Parser 并且工作得很好。

问题是我还需要“解析”生成重定向的页面(301,300),以获取 url 和 http 代码。我的插件忽略了重定向的页面。

我有什么想法可以获取这些信息,也许还有其他扩展点?

4

1 回答 1

1

我已经实现了协议扩展点,现在我可以将重定向和加载时间保存在数据库中。

于 2012-08-09T10:09:00.720 回答