我正在解析从链接列表返回的 HTML。当我到达每个 HTML 文档中的某个点时,我会引发一个异常。
import urllib2, time,
from HTMLParser import HTMLParser
class MyHTMLParser2(HTMLParser):
def handle_starttag(self, tag, attrs):
if somethings:
do somethings
if tag == "div" and "section2" in attrs[0][1]:
raise NameError('End')
parser2 = MyHTMLParser2()
cntr = 0
for links in ls:
try:
f = urllib2.urlopen(links)
parser2.feed(f.read())
cntr+=1
if cntr%10 == 0:
print "Parsing...", " It has benn", (time.clock()-start)/60, 'mins.'
break
except Exception, e:
print 'There has been an error Jim. url_check number', cntr
error_log.write(links)
continue
它只对第一个链接执行一次 try 语句,然后将异常子句执行到无穷大。
一旦引发异常,我怎样才能让它移动到下一个链接
这error_log
是来自其他一些与 相关的错误urllib2
,主要是它们似乎无法足够快地连接到网页。因此,如果有一种方法可以在HTMLParser2
不引发异常的情况下退出,那就太好了。这样我就可以重新实现error_log