2

我听说网络爬虫应该只遵循 GET 请求而不是 POST 请求。

在现实世界中,这是一个有效的假设吗?

4

3 回答 3

2

通常他们不做 POST 请求。我相信,这只是当前的事态,并没有在任何地方规定。一些搜索引擎正在尝试抓取表单,但这些仍然是 GET 请求。

于 2009-06-19T19:08:50.507 回答
1

您是否在询问爬虫是否会从表单标签中解析出 URL 并跟踪它们?有些会。这是一个非常安全的假设,尽管他们将始终使用 GET 动词。

垃圾邮件机器人是另一回事。

于 2009-06-19T19:07:55.093 回答
1

礼貌的爬虫只使用 GET 请求。就像礼貌的爬虫遵守 bots.txt 一样。

然而,即使谷歌在礼貌的定义上玩得又快又松,他们的爬虫已经对包括 stackoverflow 在内的一些网站造成了严重的带宽损害。

于 2009-06-19T20:37:53.510 回答