我正在寻找一种方法(不是库或框架,因为我似乎找不到)来检测网页内容的变化。我查看了类似于Tracking changes to web page content和白皮书 ( http://shodhganga.inflibnet.ac.in/bitstream/10603/2415/14/14_chapter%205.pdf ) 的帖子,但有很难找到一个好的方法。
我不相信页面内容的 md5 是有用的,因为大多数页面的内容会根据您的请求时间而略有变化(例如,如果他们对当天的日期进行硬编码)。
此外,我想找出一种方法来确定哪些内容实际发生了变化(例如,对被视为不同的内容运行差异就足够了,但我首先需要弄清楚哪些内容不同)。
http://www.changedetection.com/似乎在这方面做得很好。任何方法或想法或链接将不胜感激。
谢谢。