0

我编写了一个脚本来通知我网站上的更改。我使用 wget 下载站点 html,然后将其与过去下载的站点进行比较。问题是它每隔几次就会检查该站点<!--cached-->是在添加</html>. 我试图将 --no-cache 添加到 wget 但这没有区别。

为什么<!--cached-->随机添加到 wget 输出?这是我可以采取的措施来防止这种情况发生吗,还是我应该重新考虑检查网站的方式?

4

2 回答 2

1

Oracle 添加了与此类似的标签来指示可以从缓存中提供的动态页面,以避免重新生成页面。这可能表明内容与您之前的阅读内容没有变化。你可以把它过滤掉。

于 2013-01-06T02:07:20.430 回答
0

--mirror在递归检索中使用该选项时可能会发生这种情况。从文档:

打开适合镜像的选项。此选项打开递归和时间戳,设置无限递归深度并保留 FTP 目录列表。它目前相当于“-r -N -l inf --no-remove-listing”。

对于这样的时间戳示例,html 文件中每个打开 div 标记之后的第一个条目都带有注释“!--缓存-DDD, DD MMM YYY HH:MM:SS +4 digit offset-->”。

于 2020-02-09T06:13:06.260 回答