1

我有一种情况,我想禁止抓取目录中的某些页面。该目录包含大量文件,但仍有一些文件需要编制索引。如果我需要单独禁止每个页面,我将拥有一个非常大的机器人文件。除了某些文件,有没有办法禁止 robots.txt 中的文件夹?

4

2 回答 2

0

robots.txt 格式有一个非标准扩展名,用于指定“允许”规则。并非每个机器人都尊重它,有些机器人处理它们的方式与其他机器人不同。

您可以在此 Wikipedia 文章中了解更多信息:http ://en.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive

于 2010-08-22T21:01:34.393 回答
0

要获得这种细粒度的控制,最好在 HTML 中使用 robots 元标记。这是假设问题中的文件都是 HTML。

<meta name="robots" content="noindex" />

这应该放在文档的开头。

我发现这些标签也比 robots.txt 更容易维护。

于 2010-08-22T21:02:31.277 回答