问题标签 [x-robots-tag]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

19 问题

0 投票

4 回答

18271 浏览

.htaccess - X-Robots noindex .htaccess 中的特定页面

我可以在 .htaccess 中使用 x 机器人“noindex，follow”特定页面吗？

我找到了一些关于 noindexing 类型文件的说明，但是我找不到 noindex 单个页面的说明，而且我到目前为止所尝试的方法都没有奏效。

这是我正在寻找 noindex 的页面：

这是我到目前为止所尝试的：

谢谢你的时间。

2012-11-13T06:09:40.923

0 投票

1 回答

341 浏览

javascript - 在 Tumblr 中覆盖“X-Robots-Tag: noindex”

Tumblr 自动在所有标记页面的 HTTP 标头中插入“X-Robots-Tag: noindex”行；例如“blog.tumblr.com/tagged/tag”。有没有办法覆盖这个？或者有没有办法使用脚本或任何其他工具以任何方式修改标题？

javascript http-headers seo tumblr x-robots-tag

2015-04-01T16:43:14.057

0 投票

1 回答

508 浏览

apache - 如何为 HTTP 301 响应设置缺少的 X-Robots-Tag？

我想为特定的不良搜索引擎设置 noindex x-robots 标记，该搜索引擎索引甚至重定向页面，而不是最终目的地。

在我的根 .htaccess 文件的顶部，我添加了以下规则。

它以这种方式工作。

要求：http://example.com/page 最终：https://www.example.com/page/

在请求的 URL 中，强制 HTTPS 时缺少X-robots-tag 。有没有办法解决这个问题？

谢谢

apache .htaccess nginx redirect x-robots-tag

2017-07-17T11:30:36.450

0 投票

2 回答

545 浏览

regex - 查询字符串参数的 x-robots 标记

我想使用 x-robots 标记阻止 .htaccess 中的查询字符串 url。网址是这样的：

我需要阻止?limit=xxx

我试过这样的东西，但它不起作用：

regex apache x-robots-tag

2017-11-14T12:10:01.263

0 投票

0 回答

240 浏览

php - 在 PHP 中获取 X-robots-tag

我想检查一个 URL 列表是否没有noindex. 所以我已经检查过了

< meta name="robots" >

使用 DOM，但我还想检查 X-robots-tag。有没有简单的方法来做到这一点？

我能想象的唯一方法是foreach()on get_headers($url)。

php http-headers x-robots-tag

2018-12-04T14:18:49.360

0 投票

1 回答

4213 浏览

php - 将 noindex 标头添加到 php 重定向文件

我有一个简单的 php 重定向脚本 (link.php)，用于跟踪我们的附属链接。（例如：http ://www.example.net/link.php?id=1会将您带到http://www.product1url.com）

我注意到谷歌正在索引http://www.example.net/link.php?id=1。我在 Robots.txt 中将 link.php 设置为 noindex 但这并没有停止索引。所以我想为每个 URL 本身添加一个“noindex”、“nofollow”标题。

这是我的脚本：

如何修改它以包括：“X-Robots-Tag：noindex，nofollow”？这可能吗？

php redirect http-headers x-robots-tag

2019-03-22T01:47:21.873

0 投票

1 回答

3936 浏览

html - 如何使用 robots.txt 和 X-Robots-Tag 排除除 Googlebot 和 Bingbot 之外的所有机器人

我有 2 个关于爬虫和机器人的问题。

背景资料

我只希望将 Google 和 Bing 排除在“不允许”和“无索引”限制之外。换句话说，我希望除 Google 和 Bing 之外的所有搜索引擎都遵循“禁止”和“禁止索引”规则。此外，我还想要我提到的搜索引擎的“nosnippet”功能（都支持“nosnippet”）。我使用哪个代码来执行此操作（同时使用 robots.txt 和 X-Robots-Tag）？

我想在 robots.txt 文件和 htacess 文件中都有它作为 X-Robots-Tag。我知道 robots.txt 可能已过时，但我希望向爬虫提供明确的说明，即使它们被认为“无效”和“过时”，除非您另有想法。

问题 1

我是否获得了以下代码以仅允许 Google 和 Bing 编制索引（以防止其他搜索引擎在其结果中显示），此外，还阻止 Bing 和 Google 在其搜索结果中显示片段？

X-Robots-Tag 代码（这是正确的吗？不要认为我需要将“index”添加到 googlebot 和 bingbot，因为“index”是默认值，但不确定。）

robots.txt 代码（这是正确的吗？我认为第一个是，但不确定。）

或者

问题 2：robots.txt 和 X-Robots-Tag 之间的冲突

我预计 robots.txt 和 X-Robots-Tag 之间会发生冲突，因为不允许函数和 noindex 函数一起工作（使用 X-Robot-Tag 代替 robots.txt 有什么优势吗？） . 我该如何解决这个问题，您的建议是什么？

最终目标

如前所述，这样做的主要目标是明确告诉所有较旧的机器人（仍在使用 robots.txt）和除 Google 和 Bing 之外的所有较新的机器人（使用 X-Robots-Tag）不要在他们的搜索中显示我的任何页面结果（我假设在 noindex 函数中进行了总结）。我知道他们可能并不都遵循它，但我希望他们都知道，除了 Google 和 Bing 不会在搜索结果中显示我的页面。为此，我希望为 robots.txt 代码和 X-Robots-Tag 代码找到正确的代码，这些代码对于我正在尝试构建的 HTML 站点的此功能不会发生冲突。

html meta-tags robots.txt x-robots-tag

2019-05-08T22:07:56.017

0 投票

1 回答

762 浏览

java - 有没有办法用 tomcat 实现 X-Robots-Tag 指令？

我想添加X-Robots-Tag noindex, nofollow到站点的所有 .PDF 文件的 HTTP 响应中，以避免 Google 搜索引擎引用这些文档。

这是针对带有 Spring boot 2.1 的 Heroku 上的 Tomcat 8 服务器。从过去开始，我在 Apache Server 上进行了尝试，noindex并且nofollow运行良好。

java spring-boot tomcat heroku x-robots-tag

2019-06-11T07:00:56.487

0 投票

2 回答

1911 浏览

google-search - Google Search Console 在 UI 中引发错误：在“X-Robots-Tag”http 标头中检测到“noindex”

在尝试在 Google Search Console 中抓取我的网站时，我在每个页面上都看到以下错误：

我更新了X-Robots-Tag以下内容：< X-Robots-Tag: usasearch all; googlebot all; none并验证了这与谷歌的机器人测试工具一起使用，Googlebot并且Googlebot-Mobile两者都是允许的。此处还确认了服务器标头检查器工具显示的内容：

然而，无论我使用多少次，URL Inspect tool我都会得到与上图相同的错误。不知道我还需要做什么。自从最近完成更改后，我应该等待一段时间吗？

有什么建议么？

google-search google-search-console x-robots-tag

2019-09-30T15:15:24.067

0 投票

2 回答

423 浏览

linux - 用于查找机器人元标记值的 Bash shell 脚本

我发现这个 bash 脚本可以检查文本文件中 URL 的状态，并在重定向时打印目标 URL：

我不太擅长 bash：我想为每个 url 添加它的 Robots 元标记的值（如果存在）

linux bash http redirect x-robots-tag

2019-11-06T09:42:43.047

1 2 3 4 5 6 7 8 9 10

问题标签 [x-robots-tag]

背景资料

问题 1

问题 2：robots.txt 和 X-Robots-Tag 之间的冲突

最终目标

Reference