0

我需要构建一个 RSS 提要,其中包含来自 wordpress 博客的每一篇文章。我不能简单地导出内容,因为托管博客的 wordpress 安装不允许它。博客上的 RSS 提要仅包含最后 20 项,这不太理想。

因此,我考虑用 Python 或 Ruby 编写一个简单的脚本。不过,我不知道从哪里开始。有人可以指出我正确的方向吗?提前致谢。

4

2 回答 2

2

看看Nokogiri。它使解析网页变得轻而易举。
http://hunterpowers.com/data-scraping-and-more-with-ruby-nokogiri-sinatra-and-heroku/
http://nokogiri.org/

于 2012-06-28T16:54:44.060 回答
1

您需要构建某种网络抓取工具。

对于 python,请查看Mechanize以及诸如BeautifulSoup之类的 HTML 解析库

于 2012-06-28T16:55:20.087 回答