我在哪里可以找到从 URL中去除 www和二级域名的代码(最好是 JavaScript) ?
例子:
www.ynet.co.il -> ynet (stripped 'co.il' - two tokens) www.nike.com -> nike (stripped 'com' - one token)
ETC
作为次优 - 二级域的完整列表(最好是 CSV 或任何其他格式)也将受到欢迎。
我在哪里可以找到从 URL中去除 www和二级域名的代码(最好是 JavaScript) ?
例子:
www.ynet.co.il -> ynet (stripped 'co.il' - two tokens) www.nike.com -> nike (stripped 'com' - one token)
ETC
作为次优 - 二级域的完整列表(最好是 CSV 或任何其他格式)也将受到欢迎。
如果您使用 Java,Guava可以在这里为您提供帮助。
你可以InternetDomainName.topPrivateDomain()
一起使用publicSuffix()
来解决你的问题。
Guava(以及 Mozilla/Firefox、Chrome 和 Opera)为此功能使用公共后缀列表(原始数据在此处)。
tld.js也是一个使用该数据的 JavaScript 库。
https://gist.github.com/2428561是这样的吗?在谷歌中搜索“javascript url parser”