我有以下代码(gdaten[n][2] 给出一个 URL,n 是索引):
try:
p=urlparse(gdaten[n][2])
while p.scheme == "javascript" or p.scheme == "mailto":
p=urlparse(gdaten[n][2])
print(p," was skipped (", gdaten[n][2],")")
n += 1
print ("check:", gdaten[n][2])
f = urllib.request.urlopen(gdaten[n][2])
htmlcode = str(f.read())
parser = MyHTMLParser(strict=False)
parser.feed(htmlcode)
except urllib.error.URLError:
#do some stuff
except IndexError:
#do some stuff
except ValueError:
#do some stuff
现在我有以下错误:
urllib.error.URLError: <urlopen error unknown url type: javascript>
在第 8 行。这怎么可能?我想用 while 循环跳过所有这些与方案 javascript 的链接?为什么 except 不起作用?我的错在哪里?
MyHTMLParser
像这样将网站上找到的链接附加到 gdaten[[stuff,stuff, link][stuff,stuff, link]