我的任务是清理几个大型新闻/媒体网站的索引,以改进我们的分析报告。这些索引中的许多 URL 都已过时,因此我正在寻找一种解决方案来简单地检查每个 URL a) 是否存在或 b) 不存在。
总的来说,我有大约 40,000 多个 URL 来检查我目前在 .csv 中拥有哪些
对此的任何建议或指导将不胜感激!
根据您对服务器的访问权限,您有多种选择。
一种解决方案是使用脚本请求所有 URL。向每个 URL发送HTTP-HEAD 请求并检查404
或200
响应代码可能是最简单的。如果服务器不是很过载,它们应该能够处理这么多的请求。如果您不想将负载增加太多,您可以将您的请求安排在夜间。
如果您有权访问网络服务器日志文件,您还可以扫描它们以获取 URL 和相应的响应代码。这显然只有在服务器正在记录请求并且您可以访问这些文件时才有效。这种方法的好处是您不会在服务器上创建任何不必要的负载,并且可以花费您需要的时间来分析文件。另一方面,日志文件可能非常大,并且您文件中的 URL 最近可能不会被调用。
我同意 Byf-ferdy 的观点,我会检查响应代码。对我来说,最简单的方法是使用 JMeter。它有 GUI,所以你不需要编程。如果您下载 JMeter,那么“包装盒中”有几个示例。示例之一是如何从 .csv 文件中读取数据。您可以根据需要简单地自定义该示例。