我想获取域下的所有网址。
当我查看他们的 robots.txt 时。它明确指出某些文件夹不适用于机器人,但我想知道是否有办法获取对机器人开放的所有 url。robots.txt 上没有站点地图。
例如,在他们的 robots.txt 上,它的信息如下所示:
User-agent: *
Allow: /
Disallow: /A/
Disallow: /B/
Disallow: /C/
...
但我对机器人可用但未包含在此黑名单中的所有 url 感兴趣,例如
/contact
/welcome
/product1
/product2
...
任何想法都会受到重视,我也很好奇是否会有针对此问题的雅虎查询语言(YQL)解决方案,因为这项工作可能已经由雅虎完成。
谢谢 !