我一直在考虑一种算法,它应该能够在大多数情况下大致猜出英语 .com 域的值。
为此,我想执行考虑英语 .com 域的优点和缺点的测试。
我想到的是一个简单的基于点的系统,其中每个域属性都可以被赋予一定的权重,以考虑其重要性。
我想到了这些属性:
域字符长度
例如。最初增加 20 分。如果域有 4 个或更少的字符,则不减去任何点。对于每个额外的字符,以指数方式减去一个或多个点(字符越多,惩罚越高)。
域字符
例如。最初增加 20 分。如果域只是字母,则不减去任何点。对于每个非字母字符,减去 X 个点(再次呈指数增加)。
域名词
扫描大型离线英语数据库,包括非正式演讲,例如。应该识别像“tweet”这样的词。
问题 1:我在哪里可以获得用于此类应用程序的现代英语单词列表?这些清单是免费提供的吗?有没有像这样的带有非正式词的列表?
每个字符找到的单词越多,添加的点数就越多。所以,一个有很多字符的域仍然不会得到很多积分。
词炒作水平
我相信这是一个棘手的问题,但这应该是区分完美但无聊的领域与完美而有趣的领域的原因。
例如,以下域可能不那么有价值:www.peanutgalaxy.com
该算法应该确定花生和星系在网络上不是很受欢迎的话题。这只是一个例子。
另一方面,像 www.shopdeals.com 这样的域应该敲响炒作测试的钟声,因为商店和交易在网络上非常流行。
我最初的想法是查看这些关键字在网络上被引用的频率,最好是使用一些数据库。
问题2:这个逻辑是有缺陷的,还是这个炒作水平测试有优点?
问题3:这样的“炒作数据库”可用吗?或者还有什么可以离线工作的吗?例如的问题。对谷歌的一个查询是,由于要测试的域很多,它需要很多请求。
域名拼写错误
由于拼写错误,诸如“freemoneyz.com”之类的域通常(请注意我在这篇文章中做了很多假设,但我相信这是必要的)没有价值。
问题 4:是否有任何离线 API 可用于检查拼写错误,最好是在 javascript 或一些我可以用来与自己交互的数据库中。或者单词列表在这里也应该有帮助吗?
辅音、元音等的使用。
一个易于发音的域(例如 Google)通常比一个不容易发音的域(例如 Gkyld)更有价值。
问题 5:如何测试这种发音?你检查辅音、元音等吗?有价值的域名有什么?这个领域有没有工作,我应该去哪里看?
这就是我想出的,这使我想到了最后两个问题。
问题 6:您能想出更多英文 .com 域名的优势或劣势吗?哪一个?你将如何实施这些?
问题7:你认为这个想法有什么优点或全部,还是我太天真了?有什么我应该知道、阅读或听到的吗?建议/意见?
谢谢!