问题标签 [bingbot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
angularjs - Yahoo 和 Bing 爬虫是否像 Google 那样解释 JavaScript?
我有一个 Angular 单页应用程序。
Google 在 2014 年年中开始在抓取页面时渲染 JavaScript,但 Yahoo 和 Bing 在抓取页面时是否也解释 JavaScript?
我需要将它们包含在我的 Prerender.io 配置中吗?
apache - 如何对抗bingbot/2.0
我厌倦了bingbot,如何对抗这个机器人。它也创建了会话。
我在 ht 访问中这样做:意见?
web - 我的网站没有被谷歌机器人访问?
我试图了解为什么我的网站没有被我的谷歌机器人访问。
我使用 Site-Analyser 分析我的网站 - 你可以看到网站报告。 http://www.site-analyzer.com/en/audit/http://www.nateiss.com#report-page-6
我应该怎么做才能制作专业机器人:谷歌,雅虎,必应访问它?
谢谢
user-agent - 我只想向 googlebot、yandex 或 bing 显示我的网站。我该如何设置?
如果我只设置为 Google Bot;我可以使用以下代码进行此设置:
但是我想添加yandexbot和bingbot...我该如何设置?
asp.net-mvc - 为什么 Bingbot 和 Google Bot 会寻找 Robots.txt 文件夹?
我们的 robots.txt 文件仅包含以下内容:
但是,我们经常收到以下错误。不知道为什么 Bingbot 和 Googlebot 都在寻找 Robots.txt 文件夹
我们可以围绕这个进行编码,但问题是为什么这些主要的机器人试图搜索这个文件夹?我们 robots.txt 文件的目标是防止机器人抓取该网站。从互联网上存在的每个示例中,我们都正确设置了 robots.txt 文件以完成此操作,但我们仍然遇到这些机器人试图访问不存在的文件夹,并且 MVC 尝试处理它导致异常。
curl - 特定于 bingbot 请求的奇怪 nginx 行为
我们在 nginx 日志中发现了一些奇怪的东西。一些仅来自 bingbot 的请求直接发送到后端,但如果我们从 curl 触发此请求,它们会像往常一样处理。请看配置。
我有两台服务器,一台(server1)如果是前端,它将一些请求代理到server2,一些请求由他自己处理。
请查看服务器 1 配置:
server2 的配置文件很简单,在上游处理请求,没什么有趣的。
因为它必须使用此配置:nginx 需要处理从“/store/index”开始的请求,例如上游“delta”处的http://myservername.com/store/index/category/898/author/989,他做到了它。但是:对于 bing 请求,他忽略了位置 /store/index 和对上游云(server2)的代理请求
看一下: Server1 日志:
Server2 日志,一点点自定义日志,xxxx - 我的前端 ip:
我们看到的:
- 对 server2 的 nginx 代理请求
- bingbot请求http 1.0版本
- 这是一个代理请求,而不是两个从 bingbot 到 server1 和同时到 server2 的请求。
- 在我从另一台服务器发出相同的请求后: curl -0 -v http://myservername.com/store/index/category/67/author/6一切正常,只有 server1 处理此请求,而 nginx 不代理此到服务器 2。
我完全糊涂了。位置就像我通常需要的用户请求一样工作。并且由于未知原因,并且仅针对 bingbot 请求,它会将它们代理到 server2。请告诉我也许 bingbot 发送了一些标头或配置中有什么问题?非常感谢!
bingbot - 我的网络 IP 上的 Bingbot
我正在查看我的 apache 日志,我发现了这一点。
日志行:192.168.1.2 - - [30/Nov/2016:15:46:52 +0100] "GET http://www.Mywebsite .... HTTP/1.1" 200 5539 "-" "Mozilla/5.0 (兼容;bingbot/2.0;+ http://www.bing.com/bingbot.htm )"
该 IP 发生了几次这种情况,但我无法理解 bingbot 是如何从该 IP 执行的。
提前致谢
iis-6 - 如何在 IIS 6 中包含 robots.txt 以排除 Bing 扫描我的页面?
我有一个ASP.NET应用程序,使用Framework 2.0。它已经在互联网上发布。它部署在Windows 2003 Server上的IIS 6中。
如何排除Bing浏览器扫描我的页面?我使用来自用户的敏感数据,我不能暴露在互联网上。
如何在我的服务器中包含 robots.txt?或某人的IIS配置?
问候!
robots.txt - 阻止搜索引擎索引本地搜索结果而不是搜索页面
Bingbot 一直在索引搜索引擎结果页面,所以我想:
- 允许搜索引擎访问所有内容。
- 允许搜索引擎索引
search/
url。 - 仅禁止搜索查询 ( search/?q=example ) 而不会阻止search/ URL 本身。
关于我的三个既定目标,以下代码是否有任何冲突?
forms - TYPO3:Bingbot 创建了一个 ext_form 错误,该错误会被缓存
我们的一个 TYPO3 安装有问题。访问该站点的 Bingbot 不带参数地调用旧 ext_form 扩展的控制器并创建错误。
对我们而言,问题不在于发生这种情况,而是 TYPO3 正在缓存站点,内容为“糟糕,发生错误!代码:20181016001848e0153dcf”。
有没有办法说 TYPO3 在发生错误时不缓存站点,或者如果他使用错误参数调用站点,则将机器人发送到 404 站点。