我试图忽略网址的主机名部分,只保留路径。
例如:
http://bar.foooo.com/path1/path2/path3
目前我有以下正则表达式:
\\bhttp\\b)*(\\bhttps\\b)*(\\b[\\w']{1,2}\\b)*(\\bwww\\b)*(\\bco\\b)*(\\buk\\b)*(\\bcom\\b)*(\\borg\\b)*[^\\p{L}\\p{N}]+|[\\w\\d']{20,}|\\b\\w*\\d\\w*", " "));
这会将链接变为:
bar foooo path1 path2 path3
但我也想排除 bar 和 foooo 换句话说忽略 [http://bar.foooo.com/]