0

可能重复:
在 bash 中获取随机站点名称

我正在为大学制作一个程序,该程序必须在网络上找到单词的出现。我需要创建一个算法来查找站点并计算使用的单词数量,然后必须记录它们并按使用次数进行排序。因此,我的程序检查的站点越多越好。首先,我在考虑计算随机 IP,但问题是这个过程真的太多了(我让计算机搜索了一整晚,它只找到了 15 个站点)。我猜这是因为网站的 IP 在网络上分布不均,并且大部分 IP 属于用户或其他服务。现在我想到了一种新方法,我想知道你们的想法:

如果我通过谷歌使用某种字典进行随机搜索怎么办?字典一开始是空的,每次我执行搜索时,我都会检查一个站点并只将出现一次的单词添加到字典中,这样就不会通过破坏出现的情况再次将我发送到该站点。

这容易吗?

我想做的第一件事是在谷歌搜索中搜索随机页面,而不仅仅是第一个,这怎么做?我不知道如何计算该搜索的最大页数以及如何直接转到特定页面

谢谢

4

1 回答 1

0

虽然我认为您不能(或不应该)单独在 bash 中执行此操作,但请查看Google Custom Search API这个问题。它允许以编程方式直接查询 Google 搜索。

至于要使用什么查询,您可以求助于从字典文件中随机挑选单词——尽管这不会给您一个统一的分布,因为像'cat'这样的单词比'epichorial'更受欢迎。如果您需要考虑到这些差异的东西,您可以使用词频词典,尽管这似乎是您自己研究的重点,所以这可能不合适。

于 2012-08-04T15:10:42.803 回答