我正在寻找可以智能地检测 html 页面内容变化的算法/库(最好在 c# 中)。
例如,如果页面是 techcrunch.com,它只会在有新帖子或页面发生重大变化时匹配。它会忽略 html 评论、javascript、评论数量等次要更新……
有人可以指出我正确的方向吗?
我正在寻找可以智能地检测 html 页面内容变化的算法/库(最好在 c# 中)。
例如,如果页面是 techcrunch.com,它只会在有新帖子或页面发生重大变化时匹配。它会忽略 html 评论、javascript、评论数量等次要更新……
有人可以指出我正确的方向吗?
对于我的假设,您使用 C# 程序请求页面。
实际上,有数百种方法可以做到这一点。
我给你一个:
第一,最简单和虚拟的算法..是
while(true) {
checkModifyDate();
if(date is newer) {
do anything you want...
}
do it again in next 10 mins()
}
该 checkModifyDate() 函数将“仅”检查 HTTP 标头的更改。
然后你以后可以做任何事情。
您可以将其添加到每 xxx 分钟运行一次的计时器对象或线程中,并将其设置为自动为您完成工作。
希望这可以帮助。
您可以使用 JavaScript 来计算页面或页面的特定部分上有多少元素。有数千种方法可以实现 JS 来检测变化。