0

我只是想知道您对如何指纹/验证 html/链接结构的看法。

我要解决的问题是:指纹例如 10 个不同的站点,html 页面。一段时间后,我希望有可能验证它们,如果站点已更改,链接已更改,验证失败,否则验证成功。我的基本想法是通过以某种方式拆分链接结构,创建某种树,然后从该树生成某种代码来分析链接结构。但我仍处于头脑风暴阶段,我需要与某人讨论这个问题,并了解其他想法。

因此,任何想法、算法和建议都会很有用。

4

3 回答 3

1

您始终可以对网站的原始 HTML 进行哈希处理并进行比较。我相信网站可以保持“最后编辑”的日期,但不确定这是否总是更新。

编辑:我的错误,这只是一种将网站与以前版本进行比较的方法,但并没有真正按照您的意思对其进行指纹识别。

于 2009-09-29T05:33:53.770 回答
1

只是把它扔在那里:

为什么不爬取站点,将所有链接放入表示站点地图的 XML 文档中。

在该文件上创建一个 MD5 校验和并存储它。然后,在未来的任何时候,您都可以重新抓取、重新创建 XML、重做校验和并将其与之前的校验和进行比较。

如果它们不匹配,则链接结构已更改 - 尽管您不一定知道在哪里。

于 2009-09-29T05:34:59.913 回答
0

无论您打算散列、汇总或以其他方式进行指纹识别的数据或结构,请务必考虑到许多“外部”网站上的各种形式的噪音。

此类噪音或随机内容的示例是:

  • 公司股票价值代码
  • 他们所在城市的天气状况
  • 几个页面在页脚或页眉的某处有当前(现在)日期时间
  • 广告内容(越来越多的这些内容看起来是网站的原生内容,以击败网络浏览器上的广告拦截器)
于 2009-09-29T05:50:27.943 回答