2

有没有办法知道一个 url 的所有扩展名?

例如,假设有一个网站名为www.blabla.com

还有另一页www.blabla.com/blabla2.html

www.blabla.com/blabla2.html有没有办法www.blabla.com只知道?

4

2 回答 2

3

不,这是不可能的。因为主域后面的名字大多是完全虚拟的。表示该名称背后的资源不得是具体文件或具体网页

在您至少访问每个网址一次之前,您无法知道它。比另一个答案提到的 WebCrawler 更有意义。

我的回答还暗示现在有恶意软件可以检查正在发生的事情。

看看 Unix wget。这提供了一些不错的可能性。

于 2013-12-14T06:17:46.083 回答
2

我认为您正在寻找的是网络爬虫:https ://en.wikipedia.org/wiki/Web_crawler

在较高级别上,您请求基本页面,然后请求该页面上链接的所有页面。继续这个过程应该会产生网站上引用的所有 URL。但是,如果 www.blabla.com/blabla2.html 是真实页面,但从未实际链接到网站上,则此过程将找不到它。

于 2013-12-14T06:17:32.553 回答