1

运行 WordPress 的客户请求在其网站上开发以下功能。

他们希望在搜索结果中包含/排除通过 WordPress 媒体上传器上传的特定文件(通常是 PDF)。

我猜这可以使用 robots.txt 文件以某种方式完成,但我不知道从哪里开始。

有什么建议/想法吗?

4

2 回答 2

0

这是来自谷歌网站管理员开发者网站https://developers.google.com/webmasters/control-crawl-index/docs/faq

我的 robots.txt 文件中的更改需要多长时间才能影响我的搜索结果?

首先,必须刷新robots.txt文件的缓存(我们一般缓存内容最多一天)。即使在发现更改之后,抓取和索引也是一个复杂的过程,有时对于单个 URL 可能需要相当长的时间,因此无法给出准确的时间表。此外,请记住,即使您的 robots.txt 文件不允许访问某个网址,该网址仍可能在搜索结果中可见,尽管我们无法抓取该网址。如果您希望加快从 Google 中删除您已阻止的网页,请通过 Google 网站管理员工具提交删除请求。

以下是来自 Google https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt的 robots.txt 规范

如果您的文件语法正确,那么最好的答案就是等到 Google 更新您的新机器人文件。

于 2012-09-03T11:32:51.030 回答
0

我不确定如何在 WordPress 的范围内执行此操作,但如果您希望排除特定文件类型,我建议使用X-Robots-Tag HTTP Header。它对于您通常希望使用机器人标签的 PDF 和非 HTML 文件类型特别有用。

您可以为所有特定的 FileType 请求添加标头,然后将值设置为 NOINDEX。这将阻止 PDF 包含在搜索结果中。

如果 URL 以文件类型或文件类型特有的内容结尾,您可以使用 robots.txt 文件。示例:Disallow: /*.pdf$...但我知道 URL 并非总是如此。

https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

于 2012-09-04T18:40:12.743 回答