2

我正在寻找一种方法(不是库或框架,因为我似乎找不到)来检测网页内容的变化。我查看了类似于Tracking changes to web page content和白皮书 ( http://shodhganga.inflibnet.ac.in/bitstream/10603/2415/14/14_chapter%205.pdf ) 的帖子,但有很难找到一个好的方法。

我不相信页面内容的 md5 是有用的,因为大多数页面的内容会根据您的请求时间而略有变化(例如,如果他们对当天的日期进行硬编码)。

此外,我想找出一种方法来确定哪些内容实际发生了变化(例如,对被视为不同的内容运行差异就足够了,但我首先需要弄清楚哪些内容不同)。

http://www.changedetection.com/似乎在这方面做得很好。任何方法或想法或链接将不胜感激。

谢谢。

4

1 回答 1

0

HTTP Last-Modified 和ETag标头可能是一种方法。但是,如果您爬取的网页没有实现它们,则剩下的就是文本相似性检测。

于 2013-07-16T13:40:32.493 回答