2

我想检查一些 Blogspot 站点(超过 5000 个站点)是否在线或已被 Google 使用 PHP、cron 和 curl 删除。我将使用 cronjob 每天每小时检查所有站点。我知道 curl 将选择id="header-outer"Blogspot 站点的特定 div(例如 div )内容。但我犹豫认为这会给服务器带来负担。

  • 使用 cronjob 每小时/每天使用 curl 检查超过 5000 个 Blogspot 站点。
  • 如果站点仍然在线,则回显状态“活动”;如果站点已被 Google 删除,则回显状态“已删除”。

有什么方法可以使用 curl 和 cronjob 检查超过 5000 个 Blogspot 站点的状态?一个小想法可能对我有很大帮助。

4

1 回答 1

0

这就是我想出的。你可以把所有的 URL 放到一个文件中,也许叫它 url.txt:

(while read url; do if curl -s --retry 3 $url | grep 'header-outer' >/dev/null 2>&1; then echo "$url: active"; else echo "$url: removed"; fi; done) < url.txt

您可以将其放入 cron 条目或将其放入 shell 脚本并运行 shell 脚本。我不完全清楚的是 PHP 与它有什么关系,以及输出格式。如果您正在处理 5000 个 url 并且只获得“活动”或“删除”,那么您如何知道哪些是活动的和被删除的?我在提供的 URL 前面加上了“活动”和“已删除”。

于 2013-10-18T20:22:53.753 回答