0

我想下载一些带有 urllib2 或 mechanize(带有 .read())的 html 源代码。不幸的是,我想要的来源非常大。我只得到一个长度不超过 65747 个字符的字符串(两个库)。不考虑剩余的尾巴。这真的让我很烦恼,我不知道如何处理这个问题。有人可以给我一个提示吗?

编辑:这是我使用的代码片段。

cj = cookielib.LWPCookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

dataHTML = ""
fp = opener.open(url)

while 1:
    r = fp.read()
    if r == '':
        break
    dataHTML += r
4

1 回答 1

0

您可以多次调用 read():

b = ''
while 1:
    r = f.read()
    if r == '':break
    b += r

效果更好?

于 2013-03-21T15:23:47.363 回答