0

I am kind of asking a weird question, but i am making a spider and i am wondering is there any way to have folders of certain urls like:

   mysite.com/drupal
   mysite.com/wordpress
   mysite.com/abc

is there any way to find for this kind of information???

4

2 回答 2

1

网站通常不会宣传其整个 URL 集。你可以尝试几件事:

  1. 阅读主页,然后点击页面上的链接。每个都指向另一个页面,其中包含链接等。

  2. 猜测常见的文件夹名称。

  3. 如果站点有,请获取 robots.txt 文件。您应该是一个好公民,而不是检索它禁止您访问的页面。

  4. 尝试获取该站点的站点地图,如下所示: http: //support.google.com/webmasters/bin/answer.py ?hl=en&answer=156184

于 2012-06-28T15:33:54.290 回答
0

如果你实现一个传统的蜘蛛,它只会遍历在内容中找到的 Urls。您可以在每个目录级别尝试字典或每个字符串检查,但这不会很好。

所以,简短的回答是“不”。

于 2012-06-28T15:32:51.827 回答