我在 R 中使用 Rcurl
search_result_adress <- sprintf("http://www.google.com/search?q=%s",searched_expression)
result_page_source_as_string <- getURL(search_result_adress,.opts = list(ssl.verifypeer = FALSE))[[1]]
然后你的结果位于“About”和“results”之间的字符串中,我对我的正则表达式技能感到羞耻,无法展示我自己的解决方案,但我相信你会弄清楚的:)。
页数确实不准确,但是您可以通过从搜索中删除一个无论如何都不存在的单词来获得更稳定的结果,因此谷歌会更加努力地搜索。我更倾向于相信那些。
搜索“字符”的示例
字符返回 290,000,000 个结果。
字符 -potato 返回 931,000,000
字符 -hincbhjvmzsslzlkjed 返回 1,780,000,000
character -zzzanjbedlkjzd 也返回 1,780,000,000,显示稳定
对于不太一般的查询,估计更好。
“谷歌让我感到沮丧”返回 3,920 个结果。
“谷歌让我感到沮丧”-土豆返回 2,870。
“谷歌让我感到沮丧”-hincbhjvmzsslzlkjed 返回 2,860。