我正在寻找一个免费的解决方案/工具/软件,通过它我可以提取所有网站的页面 URL。网站有大约 992,000 个页面,所以我需要在 excel 表中所有这些页面的 URL。
我正在使用“ site: mywebsite.com ”,它给了我 992,000 个结果。我知道我可以使每页 100 的最大结果,但这仍然不能让我的生活更轻松。此外,谷歌不会显示任何超过 1000 的结果。尝试使用谷歌 API但没有任何运气。尝试过站点地图生成器,但它们也不起作用。
我正在寻找一个免费的解决方案/工具/软件,通过它我可以提取所有网站的页面 URL。网站有大约 992,000 个页面,所以我需要在 excel 表中所有这些页面的 URL。
我正在使用“ site: mywebsite.com ”,它给了我 992,000 个结果。我知道我可以使每页 100 的最大结果,但这仍然不能让我的生活更轻松。此外,谷歌不会显示任何超过 1000 的结果。尝试使用谷歌 API但没有任何运气。尝试过站点地图生成器,但它们也不起作用。
您可以使用爬虫工具来爬取整个网站并保存访问过的 URL。免费工具包括:
IRobotSoft:http ://www.irobotsoft.com/help/irobot-manual.pdf 。使用:CrawlWebsite(SourceSites,CallTask)函数。
Google 将搜索查询结果限制为 1000 个。工具可以真正绕过这一点的唯一方法是执行关键字的子集,例如(站点:abc.com + random-word)。随机词将返回较少的结果,并且将足够多的这些查询抓取并组合到一个列表中,然后可以删除重复项并获得原始所需搜索词的近乎完整到完整的列表。