web-scraping - 我怎样才能抓取谷歌？

Question

如何在 google.com 中获取 HTML？

假设我去 Google 并输入“Humpty Dumpty”，然后我得到搜索结果，并且 URL 更改为：

https://www.google.com/search?newwindow=1&q=humpty+dumpty&oq=humtp&gs_l=serp.3.0.0i10l10.7599.8190.0.9757.5.5.0.0.0.0.373.732.3j1j0j1.5.0....0.. .1c.1.30.serp..2.3.187.2B69R71ux4U

但是当我尝试HttpWebRequest下载这个网页时，我没有在其中得到任何搜索结果 HTML。我认为这是因为谷歌在页面加载后请求结果？

有什么办法可以获取 HTML 吗？

PS：我知道从谷歌抓取是违反他们的服务条款的。我正在尝试学习如何抓取此类网站。

score 2 · Accepted Answer

使用下面的代码，我看到正确的 HTML 回来了（关于童谣的东西回来了）

下面的代码使用 WebClient 来检索正确的 HTML

WebClient wbclient = new WebClient();
string html = wbclient.DownloadString("https://www.google.com/search?newwindow=1&q=humpty+dumpty&oq=humtp&gs_l=serp.3.0.0i10l10.7599.8190.0.9757.5.5.0.0.0.0.373.732.3j1j0j1.5.0....0...1c.1.30.serp..2.3.187.2B69R71ux4U");

web-scraping - 我怎样才能抓取谷歌？

1 回答 1

Related

Reference