我对python很陌生。我正在尝试解析 URL 文件以仅保留域名。
我的日志文件中的一些 url 以 http:// 开头,一些以 www 开头。一些以两者开头。
这是我的代码中去掉 http:// 部分的部分。我需要添加什么来查找 http 和 www。并删除两者?
line = re.findall(r'(https?://\S+)', line)
目前,当我运行代码时,只有 http:// 被剥离。如果我将代码更改为以下内容:
line = re.findall(r'(https?://www.\S+)', line)
只有以两者开头的域会受到影响。我需要代码更有条件。TIA
编辑...这是我的完整代码...
import re
import sys
from urlparse import urlparse
f = open(sys.argv[1], "r")
for line in f.readlines():
line = re.findall(r'(https?://\S+)', line)
if line:
parsed=urlparse(line[0])
print parsed.hostname
f.close()
我被原始帖子误认为是正则表达式。它确实在使用 urlparse。