我想知道如何以稳健和通用的方式确定网站的年龄(而不是主机/域注册的年龄)。
以本站为例:
大多数时候,年龄/日期(在这种情况下为 2011 年 12 月 21 日)出现在网站上,但是 AFAIK 没有从页面获取此信息的通用方法(可能在页面上,在 META 标记中,标题...)
如果你用谷歌搜索标题,谷歌会显示年龄(第一个结果;灰色;所以谷歌以某种方式提取了这个信息):
http://i.stack.imgur.com/BcXwo.png [我没有权限将此嵌入图像]
除此之外,还有其他网站有相同的新闻(我猜它来自新闻机构),谷歌也显示了这些人的年龄,但不是最后一个,尽管它出现在文本中(第一行;12 月 21 日,星期三, 2011 年)。
Q1)如何以通用方式确定年龄?
Q2)谷歌是如何做到的?只是 URL 出现在索引中的时间吗?为什么没有最后结果的日期?
Q3)如果没有其他方法可以从Google 获得它,那么如何为几个域自动完成?在多次自动请求之后,Google 会阻止/阻止您发送更多请求。我查看了 Google 自定义搜索 API,但数据没有显示在那里的结果中。
谢谢!