1

我对如何防止网站的一页不被 Google 或任何其他机器人编入索引感兴趣。在我的脚本中,我有带有 TPL 文件的模板,Index.tpl,Header.tpl .... 那么我如何告诉谷歌不要索引页面:login.tpl

谢谢

4

3 回答 3

1

如果您希望特定的 URL(或目录)不被爬虫索引,一个简单的解决方案是使用robots.txt文件 - 这将允许您指定可以和不可以索引的内容。

有关详细信息,请参阅关于 /robots.txt


例如,如果您希望爬虫不为/my-page.phpURL 编制索引,您可以在文件中使用类似这样的robots.txt内容:

User-agent: *
Disallow: /my-page.php


作为旁注:最终用户不应该看到的文件(如包含文件、库、非解释模板等)不应该由您的网络服务器提供服务:应该没有人可以访问这些文件。

如果使用 Apache,使用.htaccess给定文件夹中的文件(如果启用了此功能),您可以阻止 Apache 提供该文件夹中的任何文件:

Deny from All

注意: Apache 不会从包含.htaccess具有该内容的文件的目录中提供任何服务!

于 2011-03-23T12:39:49.913 回答
0

这是不正确的。robots.txt 不会告诉爬虫要索引什么和不索引什么。这就是您使用元机器人标签的目的。让它为 noindex 服务,你很好。参见示例和进一步阅读:http: //yoast.com/x-robots-tag-play/

于 2013-07-22T20:35:41.193 回答
0

我知道我迟到了答案,但这也可以帮助其他人,下面是您将看到的更准确的答案。

我正在考虑您正在为您的网站使用 wordpress。

您可以使用 wordpress “自定义字段”选项。(您可以在此处找到详细信息)

您需要做的第一件事是将以下代码添加到主题的 header.php 模板的 head 部分。

并复制以下代码

<?php
    $noindex = get_post_meta($post->ID, 'noindex-page', true);

    if ($noindex) {
        echo '<meta name="robots" content="noindex,follow" />';
    }
?>

现在您需要做的就是指定一个名为 noindex-page 的自定义字段并为其分配一个值。你输入什么都没关系。您需要做的就是确保在该字段中输入了某些内容,以便自定义字段 noindex-page 在您在标题中指定的代码中返回为 true。

请记住这一点,这也适用于帖子

于 2016-02-23T09:45:30.473 回答