朋友们。
我正在尝试重写我的一个小工具。基本上,它从用户那里获得一个输入,如果该输入不包含“基本 url”,一个函数将把该输入构造成一个有效的 url,供程序的其他部分使用。
如果我是这样写的,所以程序只接受有效的 url 作为输入,它会起作用;但是,如果我传递一个字符串并构造它, urllib2.urlopen() 将失败,我不知道为什么,因为返回的值与 str 值完全相同......
import urllib2
import re
class XunLeiKuaiChuan:
kuaichuanBaseAddress = 'http://kuaichuan.xunlei.com/d/'
regexQuery = 'file_name=\"(.*?)\"\sfile_url=\"(.*?)\sfile_size=\"(.*?)\"'
agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2)'
def buildLink(self, aLink):
if aLink == '':
return
if 'xunlei.com' not in aLink:
aLink = self.kuaichuanBaseAddress + aLink
return aLink
def decodeLink(self, url):
url = self.buildLink(url) #it will return correct url with the value provided.
print 'in decodeLink ' + url
urlReq = urllib2.Request(url)
urlReq.add_header('User-agent', self.agent)
pageContent = urllib2.urlopen(urlReq).read()
realLinks = re.findall(self.regexQuery, pageContent)
return realLinks
test = XunLeiKuaiChuan()
link='y7L1AwKuOwDeCClS528'
link2 = 'http://kuai.xunlei.com/d/y7L1AwKuOwDeCClS528'
s = test.decodeLink(link2)
print s
当我用 link2 调用它时,它将按预期运行。并且在使用“链接”时会失败有人告诉我我在这里想念什么?我的“旧版本”只接受完整的网址,但这种未知的行为在这里杀死了我......谢谢。
顺便说一句,如果使用完整的 url 它返回一个空列表,只需打开 url 并在页面上输入 catcha。他们这样做是为了防止某种“攻击”......