我正在制作一个简单的网络蜘蛛,我想知道是否有一种方法可以在我的 PHP 代码中触发,我可以获取域上的所有网页......
例如,假设我想获取 Stackoverflow.com 上的所有网页。这意味着它将获得: https : //stackoverflow.com/questions/ask 从成人网站拉网页——如何通过网站协议? https://stackoverflow.com/questions/1234214/ 最佳 Rails HTML 解析器
和所有的链接。我怎么能得到那个。或者是否有一个API或DIRECTORY可以让我得到它?
还有一种方法可以获得所有子域吗?
顺便说一句,爬虫如何爬取没有SiteMaps或Syndication feeds的网站?
干杯。