0

我正在使用 Apache Nutch 来抓取网页。当我搜索特定名称时,我想抓取网页,例如如果我搜索比尔盖茨,我想获取该搜索结果的结果链接。我有像这样的网址

www.mysite.com/search?name=bill+gates

但在抓取时,它不再显示要获取的网址。实际上它没有获取任何结果。

是否有任何选项可以抓取该页面?我在 regex-urlfilter.txt 中添加了接受所有内容。我将如何抓取链接?提前致谢。

4

1 回答 1

1

在我的记忆中,nutch 有一个额外的设置来切断像 ?q=bill+gates 这样的 url 参数。我认为此设置位于 automaton-urlfilter.txt 中:

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

所以你必须改变这条线。

希望我能帮助你

于 2013-05-23T10:53:57.330 回答