我正在使用 nutch 2.0,我创建了一个用于解析 html 的插件,它实现了 Parser 并且工作得很好。
问题是我还需要“解析”生成重定向的页面(301,300),以获取 url 和 http 代码。我的插件忽略了重定向的页面。
我有什么想法可以获取这些信息,也许还有其他扩展点?
我正在使用 nutch 2.0,我创建了一个用于解析 html 的插件,它实现了 Parser 并且工作得很好。
问题是我还需要“解析”生成重定向的页面(301,300),以获取 url 和 http 代码。我的插件忽略了重定向的页面。
我有什么想法可以获取这些信息,也许还有其他扩展点?