我尝试编写一个脚本来抓取我的网站。
但我在“if 语句”处坚持第 15 行;它不做比较。
我认为这是一个编码问题,或者包含其他字符。我猜。
文档编码为 ANSI,网站为 ISO-8859-15。
HParser.py:
from HTMLParser import HTMLParser
from htmlentitydefs import name2codepoint
import urllib2
url = 'http://DOMAIN.TLD'
req = urllib2.Request(url)
response = urllib2.urlopen(req)
the_page = response.read()
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
tag = unicode(tag)
tag = tag.strip()
print "'",tag,"'"
if tag == 'a':
for attr in attrs:
if 'src' == attr[0]:
print 'Link: ', attr[1]
def handle_endtag(self, tag):
pass
def handle_data(self, data):
pass
def handle_comment(self, data):
pass
def handle_entityref(self, name):
pass
def handle_charref(self, name):
pass
def handle_decl(self, data):
pass
parser = MyHTMLParser()
parser.feed(the_page)