我正在尝试过滤掉一堆 url 以找到它们的基本 url,其中不包括 www 或任何前缀,在编写表达式来捕获它时遇到了麻烦,但是对于 TLD 的子集,它变成了一个相当复杂的问题.
answers.yahoo.com => yahoo.com
www.google.com => google.com
uk.answers.yahoo.co.uk = > yahoo.co.uk
www.g.se => g.se
有什么建议么?
我正在使用这个表达式,但是当域名不超过 2 个字符或域 tld 少于 2 个字符时,它会出错。
(?P<domain>[a-z0-9][a-z0-9\-]{1,63}\.[a-z\.]{2,6})$