2

我想阻止谷歌在我的网站上索引 pdf。

根据 google 的网站管理员工具的建议,我已修改我的 .htaccess 文件以包含以下几行:

<Files ~ "\.pdf$">   
    Header set X-Robots-Tag "noindex, nofollow" 
</Files>

我知道 apache 运行正常并正在读取我的 .htaccess 文件,因为我可以完全阻止对该文件的访问,但我无法判断上述命令是否有效。

谷歌网站管理员工具声称爬虫仍然可以看到 pdf,但它们似乎仅用于 robots.txt。是否有可以用来检查元标记的第 3 方工具(用于 linux)?

4

1 回答 1

1

您可以在某些 PDF 上使用 wget 并查看标题:

wget -S http://host/something.pdf
于 2012-04-12T23:07:22.203 回答