我有以下问题:
我想解析 html 文件并从 html 文件中获取链接。我可以使用以下代码获取链接:
class MyHTMLParser(HTMLParser):
links=[]
def __init__(self,url):
HTMLParser.__init__(self)
self.url = url
def handle_starttag(self, tag, attrs):
try:
if tag == 'a':
for name, value in attrs:
if name == 'href':
if value[:5]=="http:":
self.links.append(value)
except:
pass
但我不想获取音频文件、视频文件等。我只想获取 html 链接。我怎样才能做到这一点?