0

在我的 Apache 错误日志中,我可以看到每天都会出现大量以下错误。

[Tue Jan 15 13:37:39 2013] [error] [client 66.249.78.53] Request exceeded the limit of 10 internal redirects due to probable configuration error. Use 'LimitInternalRecursion' to increase the limit if necessary. Use 'LogLevel debug' to get a backtrace.

当我使用访问日志检查相应的 IP、日期和时间时,我可以看到以下内容

66.249.78.53 - - [15/Jan/2013:13:37:39 +0000] "GET /robots.txt HTTP/1.1" 500 821 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

我已经在 Google Webmster tool -> Health -> Blocked URLs 中测试了我的 robots.txt 文件,这很好。

此外,当机器人访问某些图像时,它会引发以下错误,

错误日志

[Tue Jan 15 12:14:16 2013] [error] [client 66.249.78.15] Request exceeded the limit of 10 internal redirects due to probable configuration error. Use 'LimitInternalRecursion' to increase the limit if necessary. Use 'LogLevel debug' to get a backtrace.

已访问_URL

66.249.78.15 - - [15/Jan/2013:12:14:16 +0000] "GET /userfiles_generic_imagebank/1335441506.jpg?1 HTTP/1.1" 500 821 "-" "Googlebot-Image/1.0"

实际上,上面的图片 URL(以及我们访问日志中的其他几张图片)在我们的网站上不可用(它们在我们于 2012 年 8 月进行的网站改造之前可用),当我们访问那些无效资源时,我们抛出了 404 错误。

但是,有时,机器人(甚至人类访问者)似乎会在我们的访问/错误日志中生成此类错误,仅针对静态资源(例如不存在的图像)和我们的 robots.txt 文件。服务器为他们抛出 500 错误,但实际上当我从浏览器尝试它时 - 图像是 404,robots.txt 是 200(成功)。

我们不确定为什么会发生这种情况,以及为什么一个有效的 robots.txt 和无效的图像会引发 500 错误。我们确实有一个 .htaccess 文件,并且我们确信我们的(Zend 框架)应用程序没有被访问,因为我们有一个单独的日志。因此,服务器本身(或.htaccess)“偶尔”抛出500错误,我无法想象为什么。可能是由于对服务器的请求太多,或者我该如何进一步调试?

请注意,我们只是在设计改造后才注意到这些错误,但 Web 服务器本身保持不变

4

1 回答 1

1

记录客户端正在访问的域可能很有用。您的服务器可能可以通过多个域访问,包括原始 IP 地址。当您进行测试时,您是通过主域进行的,并且一切都按预期工作。如果您尝试通过您的 IP (http://1.2.3.4/robots.txt) 与域 (http://example.com/robots.txt) 访问相同的文件怎么办?还有 example.com 与 www.example.com 或任何其他指向服务器的变体。

机器人有时可以在地址更改后很长时间保留 IP/域信息,并且可能会尝试访问几个月前规则已更改的内容。

于 2013-01-16T14:50:57.153 回答