我对如何防止网站的一页不被 Google 或任何其他机器人编入索引感兴趣。在我的脚本中,我有带有 TPL 文件的模板,Index.tpl,Header.tpl .... 那么我如何告诉谷歌不要索引页面:login.tpl
谢谢
我对如何防止网站的一页不被 Google 或任何其他机器人编入索引感兴趣。在我的脚本中,我有带有 TPL 文件的模板,Index.tpl,Header.tpl .... 那么我如何告诉谷歌不要索引页面:login.tpl
谢谢
如果您希望特定的 URL(或目录)不被爬虫索引,一个简单的解决方案是使用robots.txt
文件 - 这将允许您指定可以和不可以索引的内容。
有关详细信息,请参阅关于 /robots.txt
例如,如果您希望爬虫不为/my-page.php
URL 编制索引,您可以在文件中使用类似这样的robots.txt
内容:
User-agent: *
Disallow: /my-page.php
作为旁注:最终用户不应该看到的文件(如包含文件、库、非解释模板等)不应该由您的网络服务器提供服务:应该没有人可以访问这些文件。
如果使用 Apache,使用.htaccess
给定文件夹中的文件(如果启用了此功能),您可以阻止 Apache 提供该文件夹中的任何文件:
Deny from All
注意: Apache 不会从包含.htaccess
具有该内容的文件的目录中提供任何服务!
这是不正确的。robots.txt 不会告诉爬虫要索引什么和不索引什么。这就是您使用元机器人标签的目的。让它为 noindex 服务,你很好。参见示例和进一步阅读:http: //yoast.com/x-robots-tag-play/
我知道我迟到了答案,但这也可以帮助其他人,下面是您将看到的更准确的答案。
我正在考虑您正在为您的网站使用 wordpress。
您可以使用 wordpress “自定义字段”选项。(您可以在此处找到详细信息)
您需要做的第一件事是将以下代码添加到主题的 header.php 模板的 head 部分。
并复制以下代码
<?php
$noindex = get_post_meta($post->ID, 'noindex-page', true);
if ($noindex) {
echo '<meta name="robots" content="noindex,follow" />';
}
?>
现在您需要做的就是指定一个名为 noindex-page 的自定义字段并为其分配一个值。你输入什么都没关系。您需要做的就是确保在该字段中输入了某些内容,以便自定义字段 noindex-page 在您在标题中指定的代码中返回为 true。
请记住这一点,这也适用于帖子