0

我正在寻找可以智能地检测 html 页面内容变化的算法/库(最好在 c# 中)。

例如,如果页面是 techcrunch.com,它只会在有新帖子或页面发生重大变化时匹配。它会忽略 html 评论、javascript、评论数量等次要更新……

有人可以指出我正确的方向吗?

4

2 回答 2

0

对于我的假设,您使用 C# 程序请求页面。

实际上,有数百种方法可以做到这一点。

我给你一个:

第一,最简单和虚拟的算法..是

while(true) {
    checkModifyDate();

    if(date is newer) {
        do anything you want...
    }
    do it again in next 10 mins()
}

该 checkModifyDate() 函数将“仅”检查 HTTP 标头的更改。
然后你以后可以做任何事情。

您可以将其添加到每 xxx 分钟运行一次的计时器对象或线程中,并将其设置为自动为您完成工作。

希望这可以帮助。

于 2012-05-25T02:31:19.200 回答
0

您可以使用 JavaScript 来计算页面或页面的特定部分上有多少元素。有数千种方法可以实现 JS 来检测变化。

于 2012-05-25T01:17:41.170 回答