我想使用带有某种数据库存储的 PHP 检查多个网站的 HTML 更改。除了使用 MD5 和来检查更改之外,我还想知道另一种方法。
另外,有没有什么方法可以在检测到更改时,我也可以找出到底更改了什么?
提前谢谢!
您可以在第一次爬网时存储该页面的 Last-Modified 标头。下次抓取时,您只需再次检查 Last-Modified 标头。
如果网站不支持此标头,您可以使用 MD5。
可以使用任何 diff 包来检测更改。例如http://www.raymondhill.net/finediff/viewdiff-ex.php