javascript - Python urllib2 返回 noscript-content

Question

我正在尝试使用 python 2.7.3 和 urllib2 获取几个页面的 html 内容。对于大多数页面，它工作正常，但有些页面像http://www.bbc.co.uk/news/entertainment-arts-22441507#sa-ns_mchannel=rss&ns_source=PublicRSS20-sa给我这个内容：

最好在启用了样式表 (CSS) 的最新 Web 浏览器中查看此页面。虽然您将能够在当前浏览器中查看此页面的内容，但您将无法获得完整的视觉体验。如果可以的话，请考虑升级您的浏览器软件或启用样式表 (CSS)。

需要 javascript 的页面也会出现此问题。我只得到返回的 noscript-tag 中的内容。

这是我获取内容的方式：

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) 
response = urllib2.urlopen(url).read().decode("utf-8")

是否需要额外的标题？

score 0 · Accepted Answer

在 javascript/ajax 尝试之前，听起来您正在获取原始 HTML 页面。尝试使用webkit获取应用了 JavaScript 的页面。请参阅此处以获取带有链接的答案。

1 回答 1