问题标签 [bingbot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
11112 浏览

web-crawler - 如何防止 Bing 不规则地淹没我的网站?

Bingbot 每天会在我的网站上猛烈攻击几个小时,其余时间会非常轻松。

我要么想平滑它的爬行,降低它的速率限制,要么完全阻止它。它并没有真正通过任何真正的访客发送。

有没有办法可以平滑它的爬行,或者限制它的速率?

0 投票
0 回答
1319 浏览

web-crawler - Bingbot 导致 404 错误

我们最近看到大量 404 错误是由 Bing 网络爬虫创建的。我已经验证 IP 实际上是 Bing 机器,但只是不知道他们为什么要尝试他们正在尝试的 URL。我不想使用 robots.txt 文件告诉他们根本不要抓取我的网站,但同时我不希望他们继续请求不存在的页面。有没有办法知道 Bing 从哪里获取特定 URL?我尝试使用 Google 搜索[link:www.mywebsite.com/pagename/],但没有找到任何东西,这让我相信该机器人正在做一些不应该做的事情,而不是我的网站有一个错误的 URL。

0 投票
2 回答
2978 浏览

bing - Bingbot 忽略 robots.txt 并尝试检索基于流量的 sspsitemap.xml

我有一个应用程序,其内容不应被公开索引。因此,我禁止访问所有爬虫。

机器人.txt:

但是,Bing 一直忽略这一点,并且每天都会请求一个/trafficbasedsspsitemap.xml文件,而我不需要创建该文件。

我也不需要每天收到此文件的 404 错误通知。我只想让 bingbot 消失,那么我需要做什么来禁止它发出请求?

0 投票
1 回答
1227 浏览

dotnetnuke - Googlebot 和 Bingbot 抓取 DNN 网站

我有一个超过 20,000 页的 DNN 站点。Googlebot 和 Bingbot 一直在抓取我的网站。

当我查看我的站点日志时,我可以看到 google 和 bing 正在通过 pageid 抓取我的网站(例如:www.url.com/Default.aspx?TabID=5000)

机器人每分钟都在访问我的网站。当我添加新页面时,我希望机器人抓取新添加的页面,相反我看到机器人重新抓取非常旧的页面,并且需要几个小时才能识别新添加的页面。

我有超过 10,000 个条目的 robots.txt 文件,这些条目具有以下定义:

不允许:/Default.aspx?TabID=5000
不允许:/Default.aspx?TabID=5001
不允许:/Default.aspx?TabID=5002

等等。

所以我注意到几个问题:

1 - Googlebot 和 Bingbot 忽略了我的禁止并重新抓取了我在 robots.txt 中定义的页面 - 机器人如何知道使用 TabID 返回并重新抓取旧页面?

2 - 我仍然注意到,当我添加新页面时,两个机器人都在忙于抓取旧内容,并且不会立即阅读我的新内容,有没有办法强制 Google 和 Bing 机器人总是首先阅读新添加的页面?

提前感谢您的任何建议。

0 投票
1 回答
892 浏览

wordpress - Httpd 访问日志显示奇怪的 bingbot

我在云(ec2)中设置了一个服务器,托管了我所有的 WordPress 网站。

我今天注意到该网站遭到黑客攻击..

109.87.118.222 - - [16/Oct/2013:13:10:31 -0400] "POST /wp-login.php HTTP/1.0" 200 3954 " http://smartmoneystrategies.net/wp-login.php " " Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0" 5.15.198.184 - - [16/Oct/2013:13:10:31 -0400] "POST /wp-login.php HTTP/1.0 " 200 3926 " http://smartmoneystrategies.net/wp-login.php " "Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0" 42.116.170.247 - - [16/Oct/2013: 13:10:32 -0400] "POST /wp-login.php HTTP/1.0" 200 3954 " http://smartmoneystrategies.net/wp-login.php " "Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0" 93.78.138.185 - - [16/Oct/2013:13:10:33 -0400] "POST /wp-login.php HTTP/1.0"200 3954" http://smartmoneystrategies.net/wp-login.php" "Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0" 2.95.13.35 - - [16/Oct/2013:13:10:33 -0400] "POST /wp-login.php HTTP /1.0" 200 3940 " http://smartmoneystrategies.net/wp-login.php " "Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0" 93.80.123.137 - - [16/Oct/ 2013:13:10:34 -0400] "POST /wp-login.php HTTP/1.0" 200 3940 " http://smartmoneystrategies.net/wp-login.php " "Mozilla/5.0 (Windows NT 6.1; rv: 19.0) Gecko/20100101 Firefox/19.0" 79.181.39.227 - - [16/Oct/2013:13:10:34 -0400] "POST /wp-login.php HTTP/1.0" 200 3933 " http://smartmoneystrategies。 net/wp-login.php " "Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0"

我想我通过添加登录锁定来捕获 IP 地址来修复攻击。

但我也在那里找到了一大堆这些......

157.56.92.164 - - [16/Oct/2013:09:57:12 -0400] "GET /search.php/?q=bethanny+franklin+haircut&ht=1 HTTP/1.1" 200 11475 "-" "Mozilla/5.0 (兼容;bingbot/2.​​0;+ http://www.bing.com/bingbot.htm)”157.56.92.164 - - [16/Oct/2013:09:57:13 -0400] “GET /search.php/ ?ht=1&q=address+label+coupon+codes HTTP/1.1" 200 11475 "-" "Mozilla/5.0 (compatible; bingbot/2.​​0; + http://www.bing.com/bingbot.htm )" 157.56。 92.164 - - [16/Oct/2013:09:57:13 -0400] "GET /search.php/?q=Martell+Gay+Bryce&ht=1 HTTP/1.1" 200 11475 "-" "Mozilla/5.0 (兼容; bingbot/2.​​0; + http://www.bing.com/bingbot.htm )" 157.56.92.164 - - [16/Oct/2013:09:57:14 -0400] "GET /search.php/?ht =1&q=monterey+fashions+coat HTTP/1.1" 200 11475"-" "Mozilla/5.0(兼容;bingbot/2.​​0;+http://www.bing.com/bingbot.htm )" 157.56.92.164 - - [16/Oct/2013:09:57:14 -0400] "GET /search.php/?ht=1&q=SUPERPREP+ELITE +semi+pro+team HTTP/1.1" 200 11475 "-" "Mozilla/5.0 (兼容; bingbot/2.​​0; + http://www.bing.com/bingbot.htm )" 157.56.92.164 - - [16/ Oct/2013:09:57:15 -0400]“GET /search.php/?ht=1&q=rines+para+jeep+cheroki HTTP/1.1”200 11475“-”“Mozilla/5.0(兼容;bingbot/2.​​0 ; + http://www.bing.com/bingbot.htm )" 157.56.92.164 - - [16/Oct/2013:09:57:15 -0400] "GET /search.php/?ht=1&q=outdoor +pro+staff+opportunity HTTP/1.1" 200 11475 "-" "Mozilla/5.0(兼容;bingbot/2.​​0;+ http://www.bing.com/bingbot.htm)"

这些是什么?

0 投票
0 回答
230 浏览

robots.txt - Bingbot 不断尝试访问错误目录中的机器人文件

我不断让 BingBot 尝试访问下面的文件。该位置没有 robots.txt 文件 ( http://test.com/8329/test/documents)。我怎样才能阻止这个?

例外

0 投票
1 回答
752 浏览

php - Bingbot 试图访问不存在的页面

我最近对包含 url 结构的电子商务网站进行了一些重大更改。查看产品的 url 由 .htaccess 修改,并包含一个简短的产品描述,如果更改不会影响页面上的结果。

例子:www.Example.com/staticFolder/non-deterministic-product-details/MODEL#.html

现在在错误日志文件中,我看到 bingbot 请求页面,例如example.com/non-deterministic-product-details

我们的站点地图未链接到此页面,我无法在页面上找到任何错误链接。有没有其他人在使用 bingbot 时遇到过问题?我发现了另一个因随机而被锁定的问题。Bingbot 导致 404 错误。我做错事的可能性更大吗?我应该避免在我的 .htaccess 中使用伪目录吗?

-谢谢

0 投票
2 回答
1966 浏览

.htaccess - 如何使用 .htaccess 将不存在的页面重定向到 404 错误页面?

显然,Bingbot 在我的网站上陷入了无限循环。它下载像http://www.htmlcodetutorial.com/quicklist.html/applets/applets/applets/applets/applets/applets/applets/applets/applets/applets/applets/applets/applets/applets/sounds/forms/这样的页面链接/框架/文档/链接/图像/_AREA_onMouseOver.html。由于我将服务器设置为将 .html 解释为 PHP,因此该页面只是http://www.htmlcodetutorial.com/quicklist.html的副本。 如何阻止 Bingbot 寻找这些伪造的副本?

为什么 Bingbot 开始寻找这些页面?

我想做一些类似下面显示的 .htaccess 文件的最后一行的事情(比如“使用 mod_rewrite 重定向到 Apache 内置 404 页面? ”),但是当我尝试RewriteRule ^.*\.html\/.*$ - [R=404]整个站点时显示 500 错误。

即使我使用下面的最后一行,它也会重定向到http://www.htmlcodetutorial.com/home/htmlcode/public_html/help.html这不是我想要的。

PS我知道该网站已经过时了。

0 投票
1 回答
2781 浏览

ruby-on-rails - 由于 bingbots 导致的 ActionController::InvalidCrossOriginRequest 异常

我有 Rails 应用程序,我在页面加载后使用 Ajax 加载评论。

它按预期工作。但是 bingbot 正试图访问它导致的这个 url

评论中发生 ActionController::InvalidCrossOriginRequest#index: 安全警告:另一个站点上的嵌入标签请求了受保护的 JavaScript。如果您知道自己在做什么,请继续并禁用此操作的伪造保护以允许跨域 JavaScript 嵌入。

就像所有只响应 js 格式的 url 一样。

我知道rack-cors,但它是为了允许跨端脚本访问,但这里不是。

应用程序/视图/评论/index.js.erb

评论.js

0 投票
1 回答
227 浏览

c# - 错误类型:来自 IP 地址的 System.IO.PathTooLongException:157.55.39.175 AKA Microsoft Bingbot

错误通知的详细信息如下。我的问题是如何减少 Bingbots 产生的大量异常?如果这样做的话,我会失去什么?

System.IO.PathTooLongException

IP 地址:157.55.39.175 用户:访客

错误类型:System.IO.PathTooLongException 消息:路径太长 指定的路径、文件名或两者都太长。完全限定的文件名必须少于 260 个字符,目录名必须少于 248 个字符。堆栈跟踪:System.IO.Path.SafeSetStackPointerValue(Char* buffer, Int32 index, Char value) at System.IO.Path.NormalizePathFast(String path, Boolean fullCheck) at System.Security.Util.StringExpressionSet.CanonicalizePath(String path , Boolean needFullPath) at System.Security.Util.StringExpressionSet.CreateListFromExpressions(String[] str, Boolean needFullPath) at System.Security.Permissions.FileIOPermission.AddPathList(FileIOPermissionAccess access, AccessControlActions control, String[] pathListOrig, Boolean checkForDuplicates, Boolean needFullPath , Boolean copyPathList) 在 System.Security.Permissions。/ HTTP_ACCEPT_ENCODING:gzip,放气 HTTP_FROM:bingbot(at)microsoft.com

REMOTE_ADDR 157.55.39.175 REQUEST_METHOD GET

URL /ics/students/jfx/extensions/webeditors/ui/common/scripts/jfx/extensions/webeditors/ui/common/scripts/jfx/extensions/feedback/jfx/ui/common/scripts/clientconfig/htmlcontent/scripts/ ui/common/scripts/jfx/extensions/directorysearch/directorysearch.js

HTTP_FROM bingbot(at)microsoft.com