1

我正在尝试使用 Python 2.6 和 urllib 从网络下载(并保存)二进制文件。

据我了解,read()、readline() 和 readlines() 是读取类文件对象的 3 种方法。由于二进制文件并没有真正分成换行符,因此 read() 和 readlines() 将整个文件读入内存。

选择随机 read() 缓冲区大小是在此过程中限制内存使用的最有效方法吗?

IE

import urllib
import os

title = 'MyFile'
downloadurl = 'http://somedomain.com/myfile.avi'
webFile = urllib.urlopen(downloadurl)
mydirpath = os.path.join('c:', os.sep,'mydirectory',\
                         downloadurl.split('/')[-1])

if not os.path.exists(mydirpath):
    print "Downloading...%s" % title
    localFile = open(mydirpath, 'wb')
    data = webFile.read(1000000) #1MB at a time
    while data:
        localFile.write(data)
        data = webFile.read(1000000) #1MB at a time
    webFile.close()
    localFile.close()
    print "Finished downloading: %s" % title
else:
    print "%s already exists." % mydirypath

我随意选择了 read(1000000) ,因为它可以工作并降低 RAM 使用率。我假设如果我正在使用原始网络缓冲区,则选择随机数量会很糟糕,因为如果传输速率太低,缓冲区可能会干涸。但似乎 urllib 已经在为我处理较低级别的缓冲。

考虑到这一点,选择任意数字好吗?有没有更好的办法?

谢谢。

4

2 回答 2

2

你应该使用urllib.urlretrieve这个。它会为你处理一切。

于 2009-05-17T17:05:56.630 回答
1

与其使用自己的读写循环,不如查看shutil模块。该copyfileobj方法将让您定义缓冲。最有效的方法因情况而异。即使将相同的源文件复制到相同的目的地也可能因网络问题而有所不同。

于 2009-05-17T17:08:33.633 回答