我正在尝试在我正在处理的 Ruby 脚本中抓取网页。该项目的目的是展示哪些 ETF 和股票共同基金最符合价值投资理念。
我想抓取的一些页面示例是:
http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V
你为 Ruby 推荐了哪些网页抓取工具,为什么?请记住,那里有成千上万的股票基金,所以我使用的任何工具都必须相当快。
我是 Ruby 新手,但我有使用 lxml 在 Python 中抓取网页的经验(https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py)。一旦下载了超过 5000 只股票的页面,lxml 可以在几分钟内将它们全部抓取。(我记得尝试过 BeautifulSoup 但拒绝它,因为它太慢了。)