1

我想知道如何以稳健和通用的方式确定网站的年龄(而不是主机/域注册的年龄)。

本站为例:

大多数时候,年龄/日期(在这种情况下为 2011 年 12 月 21 日)出现在网站上,但是 AFAIK 没有从页面获取此信息的通用方法(可能在页面上,在 META 标记中,标题...)

如果你用谷歌搜索标题,谷歌会显示年龄(第一个结果;灰色;所以谷歌以某种方式提取了这个信息):

http://i.stack.imgur.com/BcXwo.png [我没有权限将此嵌入图像]

除此之外,还有其他网站有相同的新闻(我猜它来自新闻机构),谷歌也显示了这些人的年龄,但不是最后一个,尽管它出现在文本中(第一行;12 月 21 日,星期三, 2011 年)。

Q1)如何以通用方式确定年龄?

Q2)谷歌是如何做到的?只是 URL 出现在索引中的时间吗?为什么没有最后结果的日期?

Q3)如果没有其他方法可以Google 获得它,那么如何为几个域自动完成?在多次自动请求之后,Google 会阻止/阻止您发送更多请求。我查看了 Google 自定义搜索 API,但数据没有显示在那里的结果中。

谢谢!

4

2 回答 2

0

如果服务器支持它,您可以使用 HTTP-Request 的 Last-Modified Header 部分。

尝试:curl -I http://online.wsj.com/article/SB10001424052970204058404577110380555673036.html

仅获取答复的 HTTP 标头并查看输出

HTTP/1.1 200 OK
Date: Wed, 09 May 2012 12:40:10 GMT
Server: Apache/2.2.15 (CentOS)
...
FastDynaPage-ServerInfo: secj2kentwap07 - Wed 05/09/12 - 08:40:10 EDT
Last-Modified: Wed, 09 May 2012 12:40:10 GMT
Content-Type: text/html; charset=UTF-8
于 2012-05-09T12:40:40.773 回答
0

实际上,我还没有找到从 URL 获取日期的正确方法。所以我采取了另一种方法:我尝试找到包含该 URL 作为项目的提要(来自网站本身或通过 Google)。

然后很有可能我会得到一个包含发布日期的pubDatedc:date 。然后就可以使用了。

感谢所有的投入。

于 2012-05-11T09:22:30.250 回答