python - 在 python 中使用 urllib2/mechanize 加载 html 源代码

Question

我想下载一些带有 urllib2 或 mechanize（带有 .read()）的 html 源代码。不幸的是，我想要的来源非常大。我只得到一个长度不超过 65747 个字符的字符串（两个库）。不考虑剩余的尾巴。这真的让我很烦恼，我不知道如何处理这个问题。有人可以给我一个提示吗？

编辑：这是我使用的代码片段。

cj = cookielib.LWPCookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

dataHTML = ""
fp = opener.open(url)

while 1:
    r = fp.read()
    if r == '':
        break
    dataHTML += r

score 0 · Accepted Answer

您可以多次调用 read()：

b = ''
while 1:
    r = f.read()
    if r == '':break
    b += r

效果更好？

python - 在 python 中使用 urllib2/mechanize 加载 html 源代码

1 回答 1

Related

Reference