我需要一些关于我正在从事的项目的建议。
我目前正在处理一个请求标题的项目;下面是一个被抓取的标题的示例,采用 Mongo 文档样式:
{
"url": "google.com",
"statusCode": 301,
"headers": {
"location": "http://www.google.com/",
"content-type": "text/html; charset=UTF-8",
"date": "Mon, 25 Mar 2013 13:50:31 GMT",
"expires": "Wed, 24 Apr 2013 13:50:31 GMT",
"cache-control": "public, max-age=2592000",
"server": "gws",
"content-length": "219",
"x-xss-protection": "1; mode=block",
"x-frame-options": "SAMEORIGIN"
}
}
该项目使用 Node.JS、Javascript 和 MongoDB。目前我有几千个这样的响应存储在 MongoDB 中,我有兴趣使用其中的一些items
来headers
检测平台变化。像server
, x-powered-by
,x-aspnet-version
这样的标头在我看来都是未来可以用来交叉引用的标头。例如 - 如果一个网站“今天”从我在两个月内再次运行这个爬虫时升级Microsoft-IIS/7.0
到,那么有理由相信这个网站有一个升级。Microsoft-IIS/7.5
我的问题是 - 最好的方法是什么?
我应该制作两个系列 -collectionToday
和collectionInTwoMonths
?
然后对每个 、 和 ? 的整数变化/增量进行正server
则x-powered-by
表达式x-aspnet-version
搜索
这项工作的实施如何?
任何建议将不胜感激。