0

我正在尝试简单地撤销页面的 html(它是一个工作的东西,所以很遗憾我无法提供链接),但是只返回了 html 的一部分。此站点上的其他页面似乎按预期工作。

我知道 urllib2 不处理 javascript(urllib2 不返回完整网页),但是当我在 Firefox 浏览器中禁用 javascript 时,页面会正确加载。

然后我在这篇文章中尝试了@Jed Smith 和@John Weldon 的答案(urllib2 not retrieving entire HTTP response),但没有成功。我确实使用urllib2.build_opener(proxy, urllib2.HTTPCookieProcessor(self.cj)).open(url)而不是urllib2.urlopen(url)代理和 cookie,不确定这是否有所作为。

返回的 html 似乎在源代码的第 803 行被随机截断,总共有 1634 行。

有没有办法获取所有的html代码?

4

0 回答 0