问题标签 [noindex]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
seo - noindex 页面是否需要元描述和关键字标签?
当我将一个页面指定为有<meta name="robots" content="noindex"/>
时,搜索爬虫是否会查看描述和关键字元标记?我可以完全排除它们吗?
web - robots.txt 排除带有语言的路径
例如,如果我想在我的页面上禁止以下路径: http ://www.examplepage.com/en/testing
但不仅是 /en/ 版本,还有 /da/、/de/ 等(你明白我的意思)。
我将如何以最聪明的方式做到这一点?无需为每种语言的相同页面写禁止。
我试过: Disallow: /*/testing 和 Disallow: /*testing
但我发现它也不允许其他页面,如: http ://www.examplepage.com/en/news-page/testing等。
它应该只禁止我在帖子开头指定的路径。
html - 将 noindex 添加到联系我们页面的原因是什么?
我正在阅读 html5-boilerplate extend.md文档,它指出:
根据 Flickr 前社区经理 Heather Champ 的说法,如果您重视自己的理智,就不应该让搜索引擎索引您的“联系我们”或“投诉”页面。
<meta name="robots" content="noindex">
添加到联系我们页面的原因是什么?我想知道根本原因是否有助于识别可能不应该被索引的其他页面。我可以理解不将投诉页面编入索引的偏好,因为这些页面上可能会有一些非常关键的讨论。但我觉得有趣的是,联系我们页面也不应该被编入索引。
不幸的是,搜索这个主题很困难,因为搜索结果似乎总是显示上面相同的引用而没有根本原因 - 所以我希望有人能在这里帮助我!谢谢!
php - 如何不索引特定的 URL?
我正在搜索如何不索引特定的 URL,但我没有找到关于以下内容的任何特定信息。
通过添加以下内容
我将无法索引 (X),其中 X 可能是帖子 ID,例如“Hello World”的帖子标题,或者“hello-world”的帖子 slug。
例如,是否可以指定所有以相同帖子或标题开头的 URL,如下例所示?
例如,我可以省略所有以 REF-123 开头的 URL 吗?
.htaccess - 如果 URL 有查询字符串,则使用 htaccess 添加 noindex 和 canonical
我有带和不带查询字符串的 URL,例如:
和
我希望如果我的任何 URL 有查询字符串 (?anything),它会在 htaccess 的帮助下获得
和
谢谢!
web-crawler - 删除 noindex 元标记后如何让 Google 重新索引页面?
偶然地,我<meta name="robots" content="noindex">
在我的域中放入了很多页面。我现在已经删除了这个元标记,但是我怎样才能让这些页面被谷歌重新索引?任何提示?
我尝试在网站管理员工具中重新提交我的 sitemap.xml,但我不确定它是否有效。
另外,如果谷歌会重新索引,我需要等多久?
html - 如何防止搜索引擎索引一段文本?
从我目前能够找到的信息来看,<noindex>
应该可以实现这一点,使页面的单个部分对搜索引擎蜘蛛隐藏。但是,许多浏览器似乎也没有遵守这一点 - 所以如果是这样的话,除了 / 之外,应该使用什么标记来代替它?
- 雅虎使用内置类:
<span class="robots-nocontent">
- Googlebot 没有等效项(?)
- Yandex 使用
<noindex>
- 其他的?
.htaccess - noindex nofollow 用于包含一些单词的 url
我有一个包含许多被谷歌索引的网址的网站,例如: https://www.cedarscottages.com/book/online/select/March-1659 https://www.cedarscottages.com/book/online/ select/March-1635 但它们具有相同的内容,Google 会检测到这一点,所以我想防止所有包含 book/online/select 的 url 不被 Google 索引。我试图把它放在 .htaccess 文件中: Header set X-Robots-Tag: "noindex, nofollow" 但不起作用。谢谢
search-engine - 控制搜索引擎索引删除
我的网站有一些特定的页面是:
- 已经在搜索引擎中编入索引,但我想将它们从索引中删除。
- 很多,因为它们是动态的(基于查询字符串)。
- 有点“重”。(一个过分热心的机器人会给服务器带来比我想要的更多的压力。)
因为#2,我只是让它们慢慢地自然移除,但我需要制定一个计划。
我开始执行以下操作:
- 机器人:在应用程序中使用用户代理检测中止执行,并发送一个基本空白的响应。(我不介意某些机器人会溜过并呈现真实页面,但我只是阻止了一些常见的。)
- 机器人:抛出 403(禁止)响应代码。
- 所有客户端:发送“X-Robots-Tag: noindex”标头。
- 所有客户:添加
rel="nofollow"
到指向这些页面的链接。 - 没有禁止机器人访问 robots.txt 中的这些页面。(我认为只有从一开始就禁止机器人,或者在这些页面从搜索引擎中完全删除之后,禁止机器人才有用;否则,引擎无法抓取/访问这些页面以发现/尊重 noindex 标头,所以他们不会删除它们。我提到这一点是因为我认为 robots.txt 可能通常会被误解,并且可能会被建议为不合适的灵丹妙药。)
然而,从那时起,我认为其中一些步骤要么对我的目标毫无用处,要么实际上存在问题。
- 我不确定向机器人抛出 403 是否是个好主意。搜索引擎是否看到了这一点并完全无视 X-Robots-Tag?让他们回复 200 会更好吗?
- 我认为
rel="nofollow"
只会潜在地影响目标页面排名,而根本不会影响抓取。
计划的其余部分似乎还可以(如果我错了,请纠正我),但我不确定大计划中的上述项目符号。
.htaccess - 禁止在 htaccess 中访问和 bot 索引
我网站的一个受 htaccess 保护的子目录不知何故已被谷歌索引(几个月前)。我必须将此目录添加到 robots.txt,但我不希望受保护的 url 在 robots.txt 中可见。我将此目录切换为一个新名称,它可能不会再次被索引,因为它没有在任何地方引用,但是......以防万一,我想向它添加一个 noindex。
我添加到我的子目录 .htaccess
当我禁用 htaccess 保护时它工作正常(我得到 noindex 标头响应)。一旦我添加了保护
并通过在身份验证窗口上点击取消来模拟错误,我收到 401 错误并且没有“noindex”标头。
我应该找到一种在 401 错误页面上添加 noindex 的方法还是有其他方法来管理它?