9

在本周的 Stackoverflow 播客中,Jeff 提到,他在 2004 年编写了一个脚本,该脚本用 110,000 个英文单词查询 Google,并收集了一个包含每个单词的命中数的数据库。他们在 Stackoverflow 上使用它,例如每个问题页面右侧的“相关”列表。

由于今天用类似的脚本创建其中一个会很困难(正如 Joel 提到的,“在 30,000 字时,你会敲门”),我想知道是否有人知道一个更新的、免费的数据库谷歌词频(例如,从那时起肯定发生变化的 IT 词,如 jquery、ruby、azure 等)。

4

4 回答 4

5

一个快速的谷歌搜索(!)出现了一些点击。这个链接看起来很有希望:

但它并不针对 IT 词。

于 2008-12-04T09:26:08.583 回答
3

回答这个问题可能已经晚了,但我可以用不同的方式给你建议。而不是从谷歌获得“点击数”来自己计算一些近似值。获取大量文本页面(语料库)并计算其中每个单词的数量。我已经通过维基百科做到了这一点。所有维基页面都有一个转储。您只需要编写一个解析器来提取文本并计算单词。结果是一个超过 110K 单词的列表(至少 2M-3M)。如果您确实需要 Google 搜索结果中的数字,您可以获取一些单词样本并查询 Google,然后对计算值进行一些标准化以匹配 Google 值。我希望这有帮助。

于 2009-05-20T11:52:04.327 回答
1

根据 Google 的说法,每个 IP 每天可以发送 50,000 个查询。我真的不认为在你的朋友之间分享它是非法的..

对于每个 IP 每天的查询,我遇到了类似的问题,但我们用完全不同的方法解决了这个问题。

于 2008-12-18T15:11:56.850 回答
0

您可以在您的朋友/同事之间拆分列表并使用足够大的超时,这样每个 IP 每天的请求数不会超过 50,000 个,然后合并结果。我不确定这种方法的合法性,但谷歌人使用这种方法“敲门”的可能性非常低。

:根据斯库塔提供的数据编辑

于 2008-12-18T15:09:19.663 回答