我想下载一些带有 urllib2 或 mechanize(带有 .read())的 html 源代码。不幸的是,我想要的来源非常大。我只得到一个长度不超过 65747 个字符的字符串(两个库)。不考虑剩余的尾巴。这真的让我很烦恼,我不知道如何处理这个问题。有人可以给我一个提示吗?
编辑:这是我使用的代码片段。
cj = cookielib.LWPCookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
dataHTML = ""
fp = opener.open(url)
while 1:
r = fp.read()
if r == '':
break
dataHTML += r