我想知道 nutch 1.4 是否开箱即用。例如,如果有一个下拉列表,它会尝试从下拉列表中的项目中组合所有可能的页面吗?
谢谢
Nutch 通过 HTTP 请求获取所需页面的 html 源。现在页面的 html 源代码可以包含其中编码的下拉列表。如果使用复杂的脚本(如 dojo / ajax)对其进行编码,那么它将无法像浏览器那样解释它。如果在 html 源代码中立即看到下拉列表的外链接,则 nutch 将抓取这些页面。除了正常的文本内容,Nutch 还解析 html 页面的 Java 脚本部分。
现在为了验证这一点,在 bowser / wget 中打开页面。在记事本/vi 等文本编辑器中查看页面源代码。你能看到那里的下拉框的链接吗?如果是,那么 nutch 将抓取那些外链,否则不会。