任何人都知道以编程方式检测停放网页的方法吗?也就是说,那些您不小心输入(或有时是故意输入)的页面,它们由域名停放服务托管,上面只有广告。
我正在开发一个链接网络,并希望确保过期的网站不会最终被其他人抢走,然后成为一个停放的页面。
任何人都知道以编程方式检测停放网页的方法吗?也就是说,那些您不小心输入(或有时是故意输入)的页面,它们由域名停放服务托管,上面只有广告。
我正在开发一个链接网络,并希望确保过期的网站不会最终被其他人抢走,然后成为一个停放的页面。
这是一个我认为可以捕捉到相当数量的测试。它利用了您实际上并不希望为您的停放域建立真正的网站这一事实。它查找子域和路径的通配符。假设我们的系统中有这个 URL
http://www.example.com/method-to-detect-parked。
首先,我会检查实际的 URL 并对其进行哈希处理或获取副本进行比较。
我的第二次检查是
http://random.example.com/random
如果它与原始链接匹配甚至成功,则您可以很好地指示该页面已停放。如果失败,我可能会分别检查子域和路径。如果页面随机更改了一些元素,您可能需要选择几个项目进行比较。例如,制作一个包含在页面中的链接列表并比较这些链接或者可能是标题标签。
我想说的是,您必须检查相关网站的 WHOIS 记录和/或页面的实际内容,并制定一些关于什么构成“停放页面”的启发式方法。
以goooogle.com为例,查看他们的WHOIS记录显示他们归“隐私保护”所有,并且他们的 DNS 服务器是 ns1/ns2.fastpark.net。如果您查看该站点的源代码,他们会很愚蠢地拥有一个名为“style_park.css”的 CSS 文件 :)
总而言之,我认为您无法想出一个通用的方法来做到这一点。您最终可能会得到一些不断发展的规则库或黑名单
您可以只依靠您的用户“报告此链接”......这会将其放入队列中以供稍后查看?
查看 dns/whois 记录的创建日期,并将其与链接的添加日期进行比较。如果 DNS 较新,则该链接需要手动检查。
或者:检查http://example.com/和http://example.com/xxxxxxrandomstringxxxxxx。如果这两个页面相同,则您遇到了需要手动检查的某种问题。您要链接的主页已损坏,或者域已停放并且所有页面都返回相同的值。此测试不是 100%,因为一些停放的页面会从 URL 中回显元素。
如果您只想查看现有网站,http://www.linkalarm.com/之类的服务可以很好地完成此操作。