我正在围绕链接传播构建智能,因为我需要处理许多需要从确切 URL 地址进行反向查找的短 URL 服务,所以我需要能够解析同一 URL 的多个近似版本。
一个例子是像http://www.example.com?ref=affil&hl=en&ct=0这样的 URL
当然,在某些情况下更改 GET 参数可能会引用完全不同的页面,尤其是当相关的 GET 参数引用配置文件或内容 ID 时。
但是对页面的快速解析将很快确定这些页面彼此之间的相似程度。使用一点机器学习,可以很快清楚哪些 GET 参数不会影响给定站点返回的页面内容。
我假设只有谷歌或雅虎(或 Twitter)等公司才能提供发送 URL 并获取非常相似 URL 列表的服务,但它们似乎不提供此功能,我也没有找到任何其他服务。
如果您知道任何以上述方式将几乎相同的 URL 组聚集在一起的服务,请告诉我。
我的赏金是一个拥抱。