3

这是假设无法直接访问 api。由于我要求所有帖子,我不确定 RSS 会有多大帮助。

我考虑了一个简单的系统,它会遍历每年和每月并下载每个 html 文件,但会为每年的月份对更改以下 URL。这适用于 wordpress 和博客博客。

http://www.lostincheeseland.com/2011/05    

但是,有没有办法使用博主提供的以下搜索功能来返回所有博客?我玩过它,但文档似乎很少。

http://www.lostincheeseland.com/search?updated-max=2012-08-17T09:44:00%2B02:00&max-results=6

还有其他我没有考虑过的方法吗?

4

1 回答 1

5

您正在寻找的是站点地图

首先,您正在编写一个机器人,因此最好检查一下博客的robots.txt文件。你瞧,你经常会发现那里提到的站点地图。这是来自Google 博客的示例:

User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://googleblog.blogspot.com/feeds/posts/default?orderby=UPDATED

在这种情况下,您可以访问站点地图 URL 以获取 xml 站点地图。

对于 Wordpress,同样适用,但它不是作为标准内置的,因此并非所有博客都有它。看看这个插件,它是在 Wordpress 中创建这些站点地图的最流行的方式。例如,我的博客使用它,您可以在/sitemap.xml (标准位置)找到站点地图

简而言之:

  • 检查 robots.txt
  • 如果存在,请按照站点地图 url
  • 否则,检查 /sitemap.xml

另外: 做一个好的网民!如果您要编写一个机器人,请确保它遵守 robots.txt 文件(例如 blogspot 明确告诉您不要使用的地方/search!)

于 2012-09-05T21:59:22.627 回答