bash - 网页监控脚本返回误报

Question

我正在尝试自动化一个以前需要全职工作的过程：监控一系列网站的新帖子。这似乎是一个相对简单的脚本问题，所以我解决了它，编写了一个 bash 脚本，并将其设置为在 crontab 中每分钟运行一次。它工作得很好，但是在页面更改后，它会在一个小时左右的时间里不断返回误报，我终生无法弄清楚为什么。一段时间后它会自行解决，但我不想部署脚本，直到我了解发生了什么。这是我的代码：

#!/bin/bash

SITENAME=example

wget http://web.site.url/apache/folder/$(date +%Y)/$(date +%m)-$(date +%B) -O $SITENAME.backend.new --no-cache 
touch $SITENAME.backend.old
diff $SITENAME.backend.new $SITENAME.backend.old > $SITENAME.backend.diff

if [ -s $SITENAME.backend.diff ]
then  sendemail -xu myaddress@mydomain.com -xp password -f myaddress@mydomain.com -t myaddress@mydomain.com -s smtpout.secureserver.net -u $SITENAME -m backend \
&& cp $SITENAME.backend.new $SITENAME.backend.old \
&& echo true

fi

score 0 · Accepted Answer

如果差异之间的唯一区别是绝对链接或非绝对链接，请考虑使用--convert-links开关 for wget，就像那个人说的：

  -k
  --convert-links
下载完成后，将文档中的链接进行转换，使其适合本地查看。这不仅影响可见的超链接，还影响链接到外部内容的文档的任何部分，例如嵌入的图像、到样式表的链接、到非 HTML 内容的超链接等。

这会将链接转换为绝对链接。

bash - 网页监控脚本返回误报

1 回答 1

Related

Reference