2

考虑到这个 URL: http ://www.nyse.com/about/listed/chn.html

我正在尝试检索此字符串:'Pacific Ex Japan Funds' 但它不在汤中!?!

fundCode = 'chn'
url = 'http://www.nyse.com/about/listed/' + fundCode + '.html'
html = urllib2.urlopen(url)
soup = BeautifulSoup(html)

这很奇怪,因为桌子的其他部分都在汤里。

任何的想法?

4

1 回答 1

1

如果您下载 HTML(没有浏览器)

content = html.read()

您会看到页面数据是由 JavaScript 函数提供的。

要从此页面中提取信息,您需要一个可以处理 JavaScript 的库。

一种方法是使用Selenium,另一种方法是使用PyQt 的 WebKit

于 2012-11-16T23:34:21.450 回答