我只是想知道您对如何指纹/验证 html/链接结构的看法。
我要解决的问题是:指纹例如 10 个不同的站点,html 页面。一段时间后,我希望有可能验证它们,如果站点已更改,链接已更改,验证失败,否则验证成功。我的基本想法是通过以某种方式拆分链接结构,创建某种树,然后从该树生成某种代码来分析链接结构。但我仍处于头脑风暴阶段,我需要与某人讨论这个问题,并了解其他想法。
因此,任何想法、算法和建议都会很有用。
我只是想知道您对如何指纹/验证 html/链接结构的看法。
我要解决的问题是:指纹例如 10 个不同的站点,html 页面。一段时间后,我希望有可能验证它们,如果站点已更改,链接已更改,验证失败,否则验证成功。我的基本想法是通过以某种方式拆分链接结构,创建某种树,然后从该树生成某种代码来分析链接结构。但我仍处于头脑风暴阶段,我需要与某人讨论这个问题,并了解其他想法。
因此,任何想法、算法和建议都会很有用。
您始终可以对网站的原始 HTML 进行哈希处理并进行比较。我相信网站可以保持“最后编辑”的日期,但不确定这是否总是更新。
编辑:我的错误,这只是一种将网站与以前版本进行比较的方法,但并没有真正按照您的意思对其进行指纹识别。
只是把它扔在那里:
为什么不爬取站点,将所有链接放入表示站点地图的 XML 文档中。
在该文件上创建一个 MD5 校验和并存储它。然后,在未来的任何时候,您都可以重新抓取、重新创建 XML、重做校验和并将其与之前的校验和进行比较。
如果它们不匹配,则链接结构已更改 - 尽管您不一定知道在哪里。
无论您打算散列、汇总或以其他方式进行指纹识别的数据或结构,请务必考虑到许多“外部”网站上的各种形式的噪音。
此类噪音或随机内容的示例是: