我正在使用 Python 将 url 解析为单词。我取得了一些成功,但我正在努力减少歧义。例如,我得到以下网址
"abbeycarsuk.com"
我的算法输出:
['abbey','car','suk'],['abbey','cars','uk']
显然,第二个解析是正确的,但第一个在技术上也同样正确(显然“suk”是我正在使用的字典中的一个词)。
如果有一个单词表还包含每个单词的频率/流行度,那么对我有很大帮助。我可以将它应用到我的算法中,然后选择第二次解析(因为“uk”显然比“suk”更常见)。有谁知道我在哪里可以找到这样的清单?我找到了 wordfrequency.info,但他们对数据收费,而且他们提供的免费样本没有足够的单词让我能够成功使用它。
或者,我想我可以下载一个大型语料库(Gutenberg 项目?)并自己获取频率值,但是如果这样的数据集已经存在,它会让我的生活更轻松。