我有一个我想要抓取的链接列表。我希望爬虫
自己发现的所有其他链接都不会被爬取。
我调查的方向:创建一个 robots.txt 将禁止所有页面期望那些存在于我的站点地图中的页面。我看到了有关如何创建这样一个文件的信息,其中指出我可以通过以下方式禁止网站的某些部分:
Allow: /folder1/myfile.html
Disallow: /folder1/
但是我想要抓取的链接不在特定的文件夹中。我可以为他制作一个实际上是站点地图的休文件,但这似乎不合理。你会推荐什么?
我有一个我想要抓取的链接列表。我希望爬虫
自己发现的所有其他链接都不会被爬取。
我调查的方向:创建一个 robots.txt 将禁止所有页面期望那些存在于我的站点地图中的页面。我看到了有关如何创建这样一个文件的信息,其中指出我可以通过以下方式禁止网站的某些部分:
Allow: /folder1/myfile.html
Disallow: /folder1/
但是我想要抓取的链接不在特定的文件夹中。我可以为他制作一个实际上是站点地图的休文件,但这似乎不合理。你会推荐什么?
如果您有时间或精力,从长远来看,使用文件夹组织您的网站非常有帮助。
就 robots.txt 而言,您可以列出不允许的文件或文件夹没问题,但如果您有很多文件或文件夹,这可能会很耗时。顺便说一下,Robots.txt 只有不允许的字段,所以除非另有发现,否则一切都是允许的。
请参阅:http ://en.wikipedia.org/wiki/Robots_exclusion_standard在底部它讨论了站点地图的使用,而不是明确的禁止列表。
如果您要禁止的文件分散在您的站点中,并且不遵循可以用 Google、Microsoft 和其他一些爬虫支持的简单通配符表示的特定命名模式,那么您唯一的其他选择就是专门列出每个文件在 robots.txt 中的单独Disallow
指令中。正如你所指出的,这是一项艰巨的工作。
如果阻止爬虫访问这些页面很重要,那么您可以单独列出每个页面,或者重新排列您的站点,以便更轻松地阻止那些您不想爬取的文件。