ruby - Ruby 中可用的网页抓取 gems/工具

Question

我正在尝试在我正在处理的 Ruby 脚本中抓取网页。该项目的目的是展示哪些 ETF 和股票共同基金最符合价值投资理念。

我想抓取的一些页面示例是：

http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V

你为 Ruby 推荐了哪些网页抓取工具，为什么？请记住，那里有成千上万的股票基金，所以我使用的任何工具都必须相当快。

我是 Ruby 新手，但我有使用 lxml 在 Python 中抓取网页的经验（https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py）。一旦下载了超过 5000 只股票的页面，lxml 可以在几分钟内将它们全部抓取。（我记得尝试过 BeautifulSoup 但拒绝它，因为它太慢了。）

score 22 · Accepted Answer

有很多scraping gems可用的Ruby像Hpricot，Nokogiri等等。我建议Nokogiri刮static web pages。如果您正在抓取dynamic web pages（意味着涉及按钮单击、提交表单等）。我推荐内部使用的机械化Nokogiri。

score 1 · Accepted Answer

我在https://www.ruby-toolbox.com/categories/html_parsing.html看到了 HTML 解析解决方案的列表。我要和 Nokogiri 一起去，因为它是唯一一个仍然活跃的人。

ruby - Ruby 中可用的网页抓取 gems/工具

2 回答 2

Related

Reference