以下代码不返回单个非空 urlparse.netloc 或 urlparse.scheme。scheme 和 netloc 被附加到 path 组件中。请问我做错了什么?
#! /usr/bin/python
# -*- coding: UTF-8 -*-
from urllib import urlopen
from urlparse import urlparse, urljoin
import re
link_exp = re.compile("href=(.+?)(?:'|\")", re.UNICODE)
flux = urlopen("http://www.w3.org")
links = [urlparse(x) for x in link_exp.findall(flux.read())]
for x in links :
print x
这会提取每个(?也许我的正则表达式是错误的)url,并打印它,除了“http://”总是在路径中,而不是在方案中。怎么会?当我完成解决这个问题时,我可能应该重新实现 urlparse 功能,因为这是一个课程练习,而不是真实世界的场景。很抱歉没有更清楚地说明这一点!