2

我正在开发一个 WordPress 网站,该网站有一个登录门户,用户可以在其中访问 pdf、doc 和其他一些格式的“分类”文档。文件通过媒体管理器上传,因此始终存储在 /wp-content/uploads

我需要确保这些文件类型未显示在搜索结果中。我在 .htaccess 和 robots.txt 中制定了一些我认为可行的规则,但是很难测试,所以我希望有人可以浏览它们并让我知道他们是否会按照我的期望去做到与否。特别是我不确定的一件事:会disallow: /wp-content/阻止x-robots-tag被看到吗?

.htaccess - 在# end Wordpress

# do not index specified file types
<IfModule mod_headers.c>
 <FilesMatch "\.(doc|docx|xls|xlsx|pdf|ppt|pptx)$">
  Header set X-Robots-Tag "noindex"
 </FilesMatch>
</IfModule>

robots.txt - 完成

User-agent: *
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-
Disallow: /growers-portal
Disallow: /growers-portal/
Disallow: /grower_posts
Disallow: /grower_posts/
Sitemap: http://www.pureaussiepineapples.com.au/sitemap_index.xml
4

1 回答 1

0

这些都不会阻止任何人阅读您的“机密”文件。为此,您真的想根据登录用户限制访问。

机器人标签会将文件排除在搜索结果之外。

但是,robots.txt 不会阻止文件出现在搜索结果中。谷歌接受该指令说他们无法读取该文件,但他们仍然可以将其包含在索引中。

这导致了一个有趣的场景。您的 robots.txt 会阻止 Google 读取机器人标签,因此不知道您是否希望将其从索引中删除。

因此,如果您不打算物理控制对文件的访问,我会使用 robots 标记而不是 robots.txt 指令。

于 2013-07-22T12:52:26.077 回答