问题标签 [noindex]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
wordpress - 在WordPress中将具有特定参数的url设置为noindex?
我将 Wocomerce 用于我的 WordPress 网站。对于某些网站的打印版本,我使用这样的参数http://www.mywebsite.de/kategorie/?wpp_export=print
我怎样才能将这些网址设置为noindex
. 我在 header.php 中尝试了这样的代码:
但是代码不起作用。noindex
这些网站的头部
没有......</p>
你能帮我解决这个问题吗?
此致
汤姆
php - 根据页面状态动态索引和删除它
我们正在开发一个 Wordpress 网站,用户可以在其中创建自己的页面,这些页面将显示与网站功能相关的信息。
用户将能够将页面设置为公共或私人。如果页面设置为公开,该页面将显示为网站其他地方的链接,因此每个人都可以访问它。如果它设置为私有(类似于 youtube 的不公开视频),则只有拥有链接的人才能访问它,但指向它的链接不会出现在网站的其他任何地方。用户可以随时在公共或私人之间切换。
现在,我们想要实现的是,如果用户将页面设置为私有,它也不会显示在搜索引擎的结果中。我们来到了这个极端案例:
- 用户将页面设置为公开。
- 一段时间过去了,因此该页面在搜索引擎中被编入索引,并显示在搜索结果中。
- 用户决定将页面设置为私有
现在,这里的问题是肯定的 - 该页面的链接不会出现在我们的网站上,但它仍会出现在搜索结果中,因为它已编入索引。
我们想到的是,当它是私有的时,我们会简单地动态设置一个 noindex robots 元标记,但这需要一些时间才能从搜索结果中删除。
我们检查了可能与我们的问题相关的其他堆栈溢出问题,例如this或this,并检查了官方的谷歌开发文档,但没有得到更多的见解。
我们还能做些什么来解决这个问题吗?由于这些数据对用户来说可能非常重要,因此我们希望它能够在他们决定将其设为私有时立即从所有搜索结果中“消失”。
seo - Noindex 页面应出现在 Google 附加链接中
我的网站中有一个页面,例如 Sign-Up.php,我希望这个页面不应该被 google 索引,但是当在 google 上搜索时它应该出现在我网站的附加链接中。
在我的 Sign-Up.php 上使用以下标签是个好主意吗?
我知道谷歌决定哪个页面是附加链接的候选者。
seo - noindex 标签是否会阻止机器人抓取页面上的链接?
如果我有一个带有 noindex 标签的页面<meta name="robots" content="noindex" />
,我知道该页面不会显示在搜索结果中。
但是页面上的链接还会被爬取吗?
如果我想让它们被抓取,我可以设置类似 <meta name="robots" content="noindex, follow" />
. 它会起作用吗?
meta-tags - robots.txt 和元机器人标签之间的交互
这里还有其他问题,如果您同时拥有两个元机器人会发生什么,我想我明白发生了什么,直到我在谷歌网站管理员网站上找到这个答案:https: //support.google.com/webmasters/answer/93710
它是这样说的:
重要的!要使 noindex 元标记生效,该页面不得被 robots.txt 文件阻止。如果页面被 robots.txt 文件阻止,爬虫将永远不会看到 noindex 标记,并且该页面仍然可以出现在搜索结果中,例如如果其他页面链接到它。
这就是说,如果另一个站点链接到我的页面,那么即使我的页面被 robots.txt 阻止,我的页面也会被编入索引。
这意味着阻止我的页面被索引的唯一方法是允许它在 robots.txt 中并使用元机器人标签来阻止它被索引。这似乎完全违背了 robots.txt 的目的
java - Java jsoup html解析机器人索引/bot检测,noindex
首先,这不是一个重复的问题,因为我已经检查了几乎所有的 503 / 机器人索引问题。他们都没有解决我的问题。我正在尝试从 indiegala.com 获取赠品清单,但该网站有某种保护措施可以防止机器人和机器人。我的目的并不违法,我只是想获得赠品清单然后检查游戏是否有蒸汽交易卡。但是你知道,indiegala 给了我一个机器人索引。目前我正在使用该代码;
要查看输出(站点的源代码,在我的代码中,变量“内容”),您可以运行我提供的代码,我无法在此处添加输出,因为它有点长。但它看起来像那样;
那么我怎样才能通过这种保护呢?我的程序可以假装像人一样通过这种保护吗?
.htaccess - 带有 htaccess 的 Noindex 会话 ID 页面
我有很多页面,SID=
其中包含我想要在 Google 中索引的参数noindex
,例如https://www.example.com.au/checkout/cart/?SID=c79e6055436bf371a02f4d2601cecd03
我在 htaccess 中使用了以下代码,但它似乎不匹配?
apache - 如果 header x-robots 设置为 noindex,是否需要 robots.txt,没有跟随?
我试图阻止我的网站被索引/列出:
我已经在 .htaccess 中设置:
是否也需要设置robots.txt?
添加 robots.txt 有什么害处吗?
jquery - 使所有传出链接对谷歌没有索引
我的网站上有太多传出链接。我想为谷歌制作它们no index
。我不想写rel="no index"
每个链接...
我可以创建一个class
并用css写这个吗?
接着
这可能吗?或者我可以为此编辑我的 htaccess 吗?
web-crawler - 谷歌不抓取子页面
在修复了我网站上的“noindex”问题后,我的所有子页面都无法被 Google 抓取,我使用 Google Webmaster 重新索引网站(无需等待)。但它只适用于主页,尽管我也要求重新抓取任何直接链接的页面。
子页面示例:
如果我手动告诉 GW 抓取每个页面的 URL,那么它会这样做,但这是不可接受的。有些东西仍然阻止谷歌自行正确抓取整个网站......有什么想法吗?这是一个wordpress网站。
谢谢