0

我将内容源指定为内部非共享点网站

例如http://internal.example.com

但是,完全爬网只爬取网站根目录中的 22 个页面(有 100 个),除非我指定“自定义 - 指定页面深度和服务器跳数:”并将“页面深度”和“限制服务器跳数”保留为无限

然后让爬行变得精神!

更新:我正在使用 MS Search Server Express 2008

4

2 回答 2

2

Wget 非常聪明。这是我用来递归快照站点的命令行。

wget -r -k -K --no-parent http://internal.example.com/

http://gnuwin32.sourceforge.net/packages/wget.htm

于 2009-04-30T17:07:54.223 回答
0

您可能想要准确指定用于执行此爬网的工具/技术。另外,你有没有尝试过无限制以外的东西,结果如何?

于 2009-04-30T16:29:30.570 回答