7

所以,我一直在研究这个域名正则表达式。到目前为止,它似乎选择了带有 SLD 和 TLD(带有可选的 ccTLD)的域名,但是 TLD 列表存在重复。这可以进一步重构吗?

params[:domain_name].downcase.strip.match(/^[a-z0-9\-]{2,63}
\.((a[cdefgilmnoqrstuwxz]|aero|arpa)|(b[abdefghijmnorstvwyz]|biz)|
(c[acdfghiklmnorsuvxyz]|cat|com|coop)|d[ejkmoz]|(e[ceghrstu]|edu)|f[ijkmor]|
(g[abdefghilmnpqrstuwy]|gov)|h[kmnrtu]|(i[delmnoqrst]|info|int)|
(j[emop]|jobs)|k[eghimnprwyz]|l[abcikrstuvy]|
(m[acdghklmnopqrstuvwxyz]|me|mil|mobi|museum)|(n[acefgilopruz]|name|net)|(om|org)|
(p[aefghklmnrstwy]|pro)|qa|r[eouw]|s[abcdeghijklmnortvyz]|
(t[cdfghjklmnoprtvwz]|travel)|u[agkmsyz]|v[aceginu]|w[fs]|y[etu]|z[amw])
(\.((a[cdefgilmnoqrstuwxz]|aero|arpa)|(b[abdefghijmnorstvwyz]|biz)|
(c[acdfghiklmnorsuvxyz]|cat|com|coop)|d[ejkmoz]|(e[ceghrstu]|edu)|f[ijkmor]|
(g[abdefghilmnpqrstuwy]|gov)|h[kmnrtu]|(i[delmnoqrst]|info|int)|
(j[emop]|jobs)|k[eghimnprwyz]|l[abcikrstuvy]|
m[acdghklmnopqrstuvwxyz]|mil|mobi|museum)|
(n[acefgilopruz]|name|net)|(om|org)|
(p[aefghklmnrstwy]|pro)|qa|r[eouw]|s[abcdeghijklmnortvyz]|
(t[cdfghjklmnoprtvwz]|travel)|u[agkmsyz]|v[aceginu]|w[fs]|y[etu]|z[amw]))?$/)
4

6 回答 6

28

请,请,请不要使用像这样固定且极其复杂的正则表达式来匹配已知域名。

TLD 列表不是一成不变的,尤其是 ICANN 正在考虑简化新 gTLD 的流程。甚至 ccTLD 列表有时也会发生变化!

查看http://publicsuffix.org/提供的列表并编写一些能够下载和解析该列表的代码。

于 2008-12-30T19:08:53.100 回答
4

下载:http: //data.iana.org/TLD/tlds-alpha-by-domain.txt

示例用法(在 Python 中):

import re
def validate(domain):
    valid_domains = [ line.upper().replace('.', '\.').strip() 
                      for line in open('domains.txt') 
                      if line[0] != '#' ]
    r = re.compile(r'^[A-Z0-9\-]{2,63}\.(%s)$' % ('|'.join(valid_domains),))
    return True if r.match(domain.upper()) else False


print validate('stackoverflow.com')
print validate('omnom.nom')

您可以将域列表构建排除在验证功能之外以提高性能。

于 2008-12-30T21:02:27.380 回答
0

我可能对域名了解不够。但是为什么像“foo.info.com”这样的域匹配呢?在这种特殊情况下,域名似乎是“info.com”。

您可能需要确保名称以 [az\d] 开头。我认为您不能注册以破折号开头的域?

于 2008-12-30T10:34:45.417 回答
-1

正如你所写的那样,TLD 部分是等价的,但比它长,(\.<tldpart>){1,2}但我相信它可以修复重复......

编辑:是的,不,有可能但本质上是一个非常缓慢的蛮力列表来处理我认为的重复。将可能的 TLD 和 SLD+国家/地区对放入一个大哈希图中并检查子字符串更加简单和快捷。

于 2008-12-30T10:36:42.587 回答
-1

您可以将正则表达式构建为字符串,然后执行 Regexp.new(string)。

于 2008-12-30T10:38:54.360 回答
-1

我建议从RFC 1035中列出的规则开始,然后向后工作——但前提是你真的真的需要从头开始这样做。域正则表达式模式必须是(可以说仅次于电子邮件地址正则表达式模式)最常见的东西。我会查看网站regexlib.com并浏览其他人所做的事情。

于 2008-12-30T19:55:15.940 回答