0

亲爱的,我现在正在使用网络工具

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=

解析网页。

例如,我们可以解析 newyorktimes 主页,我们这样做:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

在我们浏览器的地址栏中,它会很好地为我们解析。

然而,它只是失败的谷歌页面。例如,如果我想解析谷歌新闻头版,比如:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

我总是会收到 500 内部服务器错误。

我确信这与谷歌网站有关,我想我们可能需要一些谷歌 API,有人知道如何为谷歌页面解决这个问题吗?非常感谢。

4

1 回答 1

2

根据 google.com robots.txt文件,明确要求您不要抓取其内容。Google 不为机器可读的搜索结果提供 API;他们希望通过小部件和嵌入策略来控制其内容的呈现。

于 2009-12-11T04:00:07.617 回答