所以我写了这个简短的脚本(正确的词?)从explosm.net漫画下载漫画图像,因为我最近发现了它,我想......把它放在我的iPhone......3G上。
它工作正常。用于获取网页 html 的 urllib2 和用于 image.retrieve() 的 urllib
为什么我在 SO 上发布此内容:如何优化此代码?REGEX(正则表达式)会使其更快吗?是网络限制吗?算法差...?
速度或一般代码美学的任何改进将不胜感激“答案”。
谢谢你。
- - - - - - - - - - - - - - - - 代码 - - - - - - - - - -----------------
import urllib, urllib2
def LinkConvert(string_link):
for eachLetter in string_link:
if eachLetter == " ":
string_link = string_link[:string_link.find(eachLetter)] + "%20" + string_link[string_link.find(eachLetter)+1:]
return string_link
start = 82
end = 1506
matchingStart = """<img alt="Cyanide and Happiness, a daily webcomic" src="http://www.explosm.net/db/files/Comics/"""
matchingEnd = """></"""
link = "http://www.explosm.net/comics/"
for pageNum in range(start,start+7):
req = urllib2.Request(link+`pageNum`)
response = urllib2.urlopen(req)
page = response.read()
istart1 = page.find(matchingStart)
iend1 = page.find(matchingEnd, istart1)
newString1 = page[istart1 : iend1]
istart2 = newString1.find("src=")+4
iend2 = len(newString1)
final = newString1[istart2 +1 : iend2 -1]
final = LinkConvert(final)
try:
image = urllib.URLopener()
image.retrieve(final, `pageNum` + ".jpg")
except:
print "Uh-oh! " + `pageNum` + " was not downloaded!"
print `pageNum` + " completed..."
顺便说一句,这是 Python 2.5 代码,而不是 3.0,但你敢打赌,我在新年之前或之后对 PYthon 3.0 的所有功能进行了深入研究和使用(在大学应用程序之后 - 耶!^-^)