问题标签 [x-robots-tag]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
18271 浏览

.htaccess - X-Robots noindex .htaccess 中的特定页面

我可以在 .htaccess 中使用 x 机器人“noindex,follow”特定页面吗?

我找到了一些关于 noindexing 类型文件的说明,但是我找不到 noindex 单个页面的说明,而且我到目前为止所尝试的方法都没有奏效。

这是我正在寻找 noindex 的页面:

这是我到目前为止所尝试的:

谢谢你的时间。

0 投票
1 回答
341 浏览

javascript - 在 Tumblr 中覆盖“X-Robots-Tag: noindex”

Tumblr 自动在所有标记页面的 HTTP 标头中插入“X-Robots-Tag: noindex”行;例如“blog.tumblr.com/tagged/tag”。有没有办法覆盖这个?或者有没有办法使用脚本或任何其他工具以任何方式修改标题?

0 投票
1 回答
508 浏览

apache - 如何为 HTTP 301 响应设置缺少的 X-Robots-Tag?

我想为特定的不良搜索引擎设置 noindex x-robots 标记,该搜索引擎索引甚至重定向页面,而不是最终目的地。

在我的根 .htaccess 文件的顶部,我添加了以下规则。

它以这种方式工作。

要求:http://example.com/page 最终:https://www.example.com/page/

在请求的 URL 中,强制 HTTPS 时缺少X-robots-tag 。有没有办法解决这个问题?

谢谢

0 投票
2 回答
545 浏览

regex - 查询字符串参数的 x-robots 标记

我想使用 x-robots 标记阻止 .htaccess 中的查询字符串 url。网址是这样的:

我需要阻止?limit=xxx

我试过这样的东西,但它不起作用:

0 投票
0 回答
240 浏览

php - 在 PHP 中获取 X-robots-tag

我想检查一个 URL 列表是否没有noindex. 所以我已经检查过了

< meta name="robots" >

使用 DOM,但我还想检查 X-robots-tag。有没有简单的方法来做到这一点?

我能想象的唯一方法是foreach()on get_headers($url)

0 投票
1 回答
4213 浏览

php - 将 noindex 标头添加到 php 重定向文件

我有一个简单的 php 重定向脚本 (link.php),用于跟踪我们的附属链接。(例如:http ://www.example.net/link.php?id=1会将您带到http://www.product1url.com

我注意到谷歌正在索引http://www.example.net/link.php?id=1。我在 Robots.txt 中将 link.php 设置为 noindex 但这并没有停止索引。所以我想为每个 URL 本身添加一个“noindex”、“nofollow”标题。

这是我的脚本:

如何修改它以包括:“X-Robots-Tag:noindex,nofollow”?这可能吗?

0 投票
1 回答
3936 浏览

html - 如何使用 robots.txt 和 X-Robots-Tag 排除除 Googlebot 和 Bingbot 之外的所有机器人

我有 2 个关于爬虫和机器人的问题。

背景资料

我只希望将 Google 和 Bing 排除在“不允许”和“无索引”限制之外。换句话说,我希望除 Google 和 Bing 之外的所有搜索引擎都遵循“禁止”和“禁止索引”规则。此外,我还想要我提到的搜索引擎的“nosnippet”功能(都支持“nosnippet”)。我使用哪个代码来执行此操作(同时使用 robots.txt 和 X-Robots-Tag)?

我想在 robots.txt 文件和 htacess 文件中都有它作为 X-Robots-Tag。我知道 robots.txt 可能已过时,但我希望向爬虫提供明确的说明,即使它们被认为“无效”和“过时”,除非您另有想法。

问题 1

我是否获得了以下代码以仅允许 Google 和 Bing 编制索引(以防止其他搜索引擎在其结果中显示),此外,还阻止 Bing 和 Google 在其搜索结果中显示片段?

X-Robots-Tag 代码(这是正确的吗?不要认为我需要将“index”添加到 googlebot 和 bingbot,因为“index”是默认值,但不确定。)

robots.txt 代码(这是正确的吗?我认为第一个是,但不确定。)

或者

问题 2:robots.txt 和 X-Robots-Tag 之间的冲突

我预计 robots.txt 和 X-Robots-Tag 之间会发生冲突,因为不允许函数和 noindex 函数一起工作(使用 X-Robot-Tag 代替 robots.txt 有什么优势吗?) . 我该如何解决这个问题,您的建议是什么?

最终目标

如前所述,这样做的主要目标是明确告诉所有较旧的机器人(仍在使用 robots.txt)和除 Google 和 Bing 之外的所有较新的机器人(使用 X-Robots-Tag)不要在他们的搜索中显示我的任何页面结果(我假设在 noindex 函数中进行了总结)。我知道他们可能并不都遵循它,但我希望他们都知道,除了 Google 和 Bing 不会在搜索结果中显示我的页面。为此,我希望为 robots.txt 代码和 X-Robots-Tag 代码找到正确的代码,这些代码对于我正在尝试构建的 HTML 站点的此功能不会发生冲突。

0 投票
1 回答
762 浏览

java - 有没有办法用 tomcat 实现 X-Robots-Tag 指令?

我想添加X-Robots-Tag noindex, nofollow到站点的所有 .PDF 文件的 HTTP 响应中,以避免 Google 搜索引擎引用这些文档。

这是针对带有 Spring boot 2.1 的 Heroku 上的 Tomcat 8 服务器。从过去开始,我在 Apache Server 上进行了尝试,noindex并且nofollow运行良好。

0 投票
2 回答
1911 浏览

google-search - Google Search Console 在 UI 中引发错误:在“X-Robots-Tag”http 标头中检测到“noindex”

在尝试在 Google Search Console 中抓取我的网站时,我在每个页面上都看到以下错误: 谷歌搜索控制台错误

我更新了X-Robots-Tag以下内容:< X-Robots-Tag: usasearch all; googlebot all; none并验证了这与 谷歌的机器人测试工具一起使用,Googlebot并且Googlebot-Mobile两者都是允许的。此处还确认了服务器标头检查器工具显示的内容:

然而,无论我使用多少次,URL Inspect tool我都会得到与上图相同的错误。不知道我还需要做什么。自从最近完成更改后,我应该等待一段时间吗?

有什么建议么?

0 投票
2 回答
423 浏览

linux - 用于查找机器人元标记值的 Bash shell 脚本

我发现这个 bash 脚本可以检查文本文件中 URL 的状态,并在重定向时打印目标 URL:

我不太擅长 bash:我想为每个 url 添加它的 Robots 元标记的值(如果存在)