screen-scraping - 获取域下的所有网址（YQL？）

Question

我想获取域下的所有网址。
当我查看他们的 robots.txt 时。它明确指出某些文件夹不适用于机器人，但我想知道是否有办法获取对机器人开放的所有 url。robots.txt 上没有站点地图。

例如，在他们的 robots.txt 上，它的信息如下所示：

User-agent: *
Allow: /
Disallow: /A/
Disallow: /B/
Disallow: /C/
...

但我对机器人可用但未包含在此黑名单中的所有 url 感兴趣，例如

/contact
/welcome
/product1
/product2
...

任何想法都会受到重视，我也很好奇是否会有针对此问题的雅虎查询语言（YQL）解决方案，因为这项工作可能已经由雅虎完成。

谢谢！

score 1 · Accepted Answer

是的，有一种方法可以让所有 url 对机器人开放。

一个简单的解决方案是访问 www.google.com 并在搜索栏中输入 site:www.website.com。

虽然这并不能保证让你获得每一页，但它会让你获得谷歌索引的所有页面。谷歌遵守 robots.txt 所以它似乎符合你的目的。

1 回答 1