我有一种情况,我想禁止抓取目录中的某些页面。该目录包含大量文件,但仍有一些文件需要编制索引。如果我需要单独禁止每个页面,我将拥有一个非常大的机器人文件。除了某些文件,有没有办法禁止 robots.txt 中的文件夹?
问问题
1360 次
2 回答
0
robots.txt 格式有一个非标准扩展名,用于指定“允许”规则。并非每个机器人都尊重它,有些机器人处理它们的方式与其他机器人不同。
您可以在此 Wikipedia 文章中了解更多信息:http ://en.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive
于 2010-08-22T21:01:34.393 回答
0
要获得这种细粒度的控制,最好在 HTML 中使用 robots 元标记。这是假设问题中的文件都是 HTML。
<meta name="robots" content="noindex" />
这应该放在文档的开头。
我发现这些标签也比 robots.txt 更容易维护。
于 2010-08-22T21:02:31.277 回答