我目前有一些用于抓取一些网站的 Ruby 代码。我使用 Ruby 是因为当时我在一个站点上使用 Ruby on Rails,这很有意义。
现在我正在尝试将其移植到 Google App Engine,并一直卡住。
我已经移植了 Python Mechanize 以与 Google App Engine 一起使用,但它不支持使用 XPATH 进行 DOM 检查。
我已经尝试过内置的 ElementTree,但是当它遇到“&mdash”时,它被我给它的第一个 HTML blob 卡住了。
我是继续尝试破解 ElementTree,还是尝试使用其他东西?
谢谢,马克