0

我想获取域下的所有网址。
当我查看他们的 robots.txt 时。它明确指出某些文件夹不适用于机器人,但我想知道是否有办法获取对机器人开放的所有 url。robots.txt 上没有站点地图。

例如,在他们的 robots.txt 上,它的信息如下所示:

User-agent: *
Allow: /
Disallow: /A/
Disallow: /B/
Disallow: /C/
...

但我对机器人可用但未包含在此黑名单中的所有 url 感兴趣,例如

/contact
/welcome
/product1
/product2
...

任何想法都会受到重视,我也很好奇是否会有针对此问题的雅虎查询语言(YQL)解决方案,因为这项工作可能已经由雅虎完成。

谢谢 !

4

1 回答 1

1

是的,有一种方法可以让所有 url 对机器人开放。

一个简单的解决方案是访问 www.google.com 并在搜索栏中输入 site:www.website.com。

虽然这并不能保证让你获得每一页,但它会让你获得谷歌索引的所有页面。谷歌遵守 robots.txt 所以它似乎符合你的目的。

于 2013-09-18T18:03:23.947 回答