我正在使用 Apache Nutch 来抓取网页。当我搜索特定名称时,我想抓取网页,例如如果我搜索比尔盖茨,我想获取该搜索结果的结果链接。我有像这样的网址
www.mysite.com/search?name=bill+gates
但在抓取时,它不再显示要获取的网址。实际上它没有获取任何结果。
是否有任何选项可以抓取该页面?我在 regex-urlfilter.txt 中添加了接受所有内容。我将如何抓取链接?提前致谢。
我正在使用 Apache Nutch 来抓取网页。当我搜索特定名称时,我想抓取网页,例如如果我搜索比尔盖茨,我想获取该搜索结果的结果链接。我有像这样的网址
www.mysite.com/search?name=bill+gates
但在抓取时,它不再显示要获取的网址。实际上它没有获取任何结果。
是否有任何选项可以抓取该页面?我在 regex-urlfilter.txt 中添加了接受所有内容。我将如何抓取链接?提前致谢。