date - 如何获取网站（不是域）的年龄

Question

我想知道如何以稳健和通用的方式确定网站的年龄（而不是主机/域注册的年龄）。

以本站为例：

大多数时候，年龄/日期（在这种情况下为 2011 年 12 月 21 日）出现在网站上，但是 AFAIK 没有从页面获取此信息的通用方法（可能在页面上，在 META 标记中，标题...）

如果你用谷歌搜索标题，谷歌会显示年龄（第一个结果；灰色；所以谷歌以某种方式提取了这个信息）：

http://i.stack.imgur.com/BcXwo.png [我没有权限将此嵌入图像]

除此之外，还有其他网站有相同的新闻（我猜它来自新闻机构），谷歌也显示了这些人的年龄，但不是最后一个，尽管它出现在文本中（第一行；12 月 21 日，星期三, 2011 年）。

Q1)如何以通用方式确定年龄？

Q2)谷歌是如何做到的？只是 URL 出现在索引中的时间吗？为什么没有最后结果的日期？

Q3)如果没有其他方法可以从Google 获得它，那么如何为几个域自动完成？在多次自动请求之后，Google 会阻止/阻止您发送更多请求。我查看了 Google 自定义搜索 API，但数据没有显示在那里的结果中。

谢谢！

score 0 · Accepted Answer

如果服务器支持它，您可以使用 HTTP-Request 的 Last-Modified Header 部分。

尝试：curl -I http://online.wsj.com/article/SB10001424052970204058404577110380555673036.html

仅获取答复的 HTTP 标头并查看输出

HTTP/1.1 200 OK
Date: Wed, 09 May 2012 12:40:10 GMT
Server: Apache/2.2.15 (CentOS)
...
FastDynaPage-ServerInfo: secj2kentwap07 - Wed 05/09/12 - 08:40:10 EDT
Last-Modified: Wed, 09 May 2012 12:40:10 GMT
Content-Type: text/html; charset=UTF-8

score 0 · Accepted Answer

实际上，我还没有找到从 URL 获取日期的正确方法。所以我采取了另一种方法：我尝试找到包含该 URL 作为项目的提要（来自网站本身或通过 Google）。

然后很有可能我会得到一个包含发布日期的pubDate或dc:date 。然后就可以使用了。

感谢所有的投入。

date - 如何获取网站（不是域）的年龄

2 回答 2

Related

Reference