有没有办法知道一个 url 的所有扩展名?
例如,假设有一个网站名为www.blabla.com
还有另一页www.blabla.com/blabla2.html
。
www.blabla.com/blabla2.html
有没有办法www.blabla.com
只知道?
有没有办法知道一个 url 的所有扩展名?
例如,假设有一个网站名为www.blabla.com
还有另一页www.blabla.com/blabla2.html
。
www.blabla.com/blabla2.html
有没有办法www.blabla.com
只知道?
不,这是不可能的。因为主域后面的名字大多是完全虚拟的。表示该名称背后的资源不得是具体文件或具体网页
在您至少访问每个网址一次之前,您无法知道它。比另一个答案提到的 WebCrawler 更有意义。
我的回答还暗示现在有恶意软件可以检查正在发生的事情。
看看 Unix wget。这提供了一些不错的可能性。
我认为您正在寻找的是网络爬虫:https ://en.wikipedia.org/wiki/Web_crawler
在较高级别上,您请求基本页面,然后请求该页面上链接的所有页面。继续这个过程应该会产生网站上引用的所有 URL。但是,如果 www.blabla.com/blabla2.html 是真实页面,但从未实际链接到网站上,则此过程将找不到它。