3

我正在尝试在此网站的表中获取数据,该数据在页面加载后通过 jquery 更新(我有权限):

http://whichchart.com/

我目前使用 selenium 和 beautifulsoup 来获取数据,但是因为这些数据在 html 源中不可见,所以我无法访问它。我已经尝试过 PyQt4,但它同样没有获得更新的 html 源代码。

这些值在 firebug 和 chrome 开发人员中是可见的,那么是否有任何 python 包可以利用它并将其提供给 beautifulsoup?

我不是一个庞大的技术人员,所以理想情况下我想要一个可以在 Python 或下一个最简单的软件类型中工作的解决方案。

我知道我可以通过专有的“screen-scraper”软件获得它,但这很昂贵。

4

1 回答 1

5

页面正在进行 AJAX 调用以获取数据到http://whichchart.com/service.php?action=NewcastleCoal,它以 JSON 格式返回值。因此,您可以执行以下操作:

  • 使用 urllib 使用 HTTP 获取数据
  • 使用 json 库读取方法解析该数据
  • 现在你有一个 python 对象要处理

如果您需要处理 HTML 页面内容,我建议您使用 BeautifulSoup 或scrapy 之类的库

于 2012-05-03T23:10:23.937 回答