我需要构建一个 RSS 提要,其中包含来自 wordpress 博客的每一篇文章。我不能简单地导出内容,因为托管博客的 wordpress 安装不允许它。博客上的 RSS 提要仅包含最后 20 项,这不太理想。
因此,我考虑用 Python 或 Ruby 编写一个简单的脚本。不过,我不知道从哪里开始。有人可以指出我正确的方向吗?提前致谢。
看看Nokogiri
。它使解析网页变得轻而易举。
http://hunterpowers.com/data-scraping-and-more-with-ruby-nokogiri-sinatra-and-heroku/
http://nokogiri.org/
您需要构建某种网络抓取工具。
对于 python,请查看Mechanize以及诸如BeautifulSoup之类的 HTML 解析库