php - 从搜索结果中隐藏上传的文件？

Question

运行 WordPress 的客户请求在其网站上开发以下功能。

他们希望在搜索结果中包含/排除通过 WordPress 媒体上传器上传的特定文件（通常是 PDF）。

我猜这可以使用 robots.txt 文件以某种方式完成，但我不知道从哪里开始。

有什么建议/想法吗？

score 0 · Accepted Answer

这是来自谷歌网站管理员开发者网站https://developers.google.com/webmasters/control-crawl-index/docs/faq

我的 robots.txt 文件中的更改需要多长时间才能影响我的搜索结果？

首先，必须刷新robots.txt文件的缓存（我们一般缓存内容最多一天）。即使在发现更改之后，抓取和索引也是一个复杂的过程，有时对于单个 URL 可能需要相当长的时间，因此无法给出准确的时间表。此外，请记住，即使您的 robots.txt 文件不允许访问某个网址，该网址仍可能在搜索结果中可见，尽管我们无法抓取该网址。如果您希望加快从 Google 中删除您已阻止的网页，请通过 Google 网站管理员工具提交删除请求。

以下是来自 Google https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt的 robots.txt 规范

如果您的文件语法正确，那么最好的答案就是等到 Google 更新您的新机器人文件。

score 0 · Accepted Answer

我不确定如何在 WordPress 的范围内执行此操作，但如果您希望排除特定文件类型，我建议使用X-Robots-Tag HTTP Header。它对于您通常希望使用机器人标签的 PDF 和非 HTML 文件类型特别有用。

您可以为所有特定的 FileType 请求添加标头，然后将值设置为 NOINDEX。这将阻止 PDF 包含在搜索结果中。

如果 URL 以文件类型或文件类型特有的内容结尾，您可以使用 robots.txt 文件。示例：Disallow: /*.pdf$...但我知道 URL 并非总是如此。

https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

php - 从搜索结果中隐藏上传的文件？

2 回答 2

Related

Reference