2

我有一个大约 300,000 字的文本文件。每个单词5个字母。

我希望能够确定每个单词在互联网上的独特性。

我的一个想法是谷歌这个词,看看它产生了多少结果。不幸的是,这违反了他们的服务条款。

我试图想出任何其他方式,但它必须涉及到查询一些网站很多,我怀疑他们会很感激。

有人有其他想法吗?编程语言无关紧要,但我更喜欢 C#。

4

2 回答 2

2

如果您的话不包含俚语,我建议您查看公共领域的书籍。这里的问题是这些书籍中的大多数都比较老,所以你真的会及时了解一个单词的流行程度(或者我猜是)。有利的一面是,这些书籍以文本文件格式免费提供,使您可以轻松地挖掘它们以获取数据。

需要注意的一点是,如果您在美国并计划使用Project Gutenberg来获取书籍,他们有一条规则,即该网站仅供人类用户使用。有一个页面告诉您如何通过 mirror 获取相同的数据

于 2012-12-16T01:42:35.053 回答
2

要查找“书中”的频率,您可以使用Google Ngram dataset,但这不是“用于互联网”。如果这是出于学术目的,Bing 替代方案也可能有效,并且它基于互联网频率。

于 2012-12-16T01:48:00.333 回答