php - 使用 PHP 检测爬网（搜索引擎的访问）

Question

当搜索引擎访问一个网页时，它的get_browser()作用和$_SERVER['HTTP_USER_AGENT'] 返回是什么？

此外，当搜索引擎抓取网页时，PHP 提供的其他可能证据是什么？

score 1 · Accepted Answer

get_browser()函数尝试确定浏览器的功能（以数组形式） non standard user-agents，但由于相反，对于一个严肃的应用程序，构建你自己的。
这$_SERVER["HTTP_USER_AGENT"]是一个“描述”用户浏览器的长字符串，可以用作上述函数中的第一个参数（可选）；提示：使用这个来发现用户的浏览器而不是 get_browser() 本身！还要为丢失的用户代理做好准备！这个字符串的一个例子是：
Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en) AppleWebKit/418 (KHTML, like Gecko) Safari/417.9.3
遵循规则的搜索引擎或机器人或蜘蛛或爬虫将根据存储在您网站根目录中的robots.txt的信息访问您的页面。如果没有 robots.txt，蜘蛛可以抓取整个网站，只要它在您的网页中找到链接；如果你有这个文件，你可以编写它来告诉蜘蛛要搜索什么；注意：此规则仅适用于“好”蜘蛛，而不适用于坏蜘蛛

score 1 · Accepted Answer

get_browser()&$_SERVER['HTTP_USER_AGENT']将返回给你Useragents，它应该是这样的：

谷歌：

Mozilla/5.0（兼容；Googlebot/2.1；+http://www.google.com/bot.html）
Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_1 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8B117 Safari/6531.22.7 (compatible; Googlebot-Mobile/ 2.1；+http://www.google.com/bot.html)
Googlebot-Image/1.0

兵：

Mozilla/5.0（兼容；bingbot/2.0；+http://www.bing.com/bingbot.htm）
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) BingPreview/1.0b
msnbot/2.0b (+http://search.msn.com/msnbot.htm)
msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)

雅虎：

-> 要完全控制（和限制）抓取，请不要使用robots.txt，请使用.htaccess或http.conf规则。（好的爬虫在 robots.txt 中有一半时间不会对您的禁止规则发表意见）

2 回答 2