我想开始在营销活动中使用特定的登录页面。在 google 上的快速搜索显示了如何使用 robots.txt 文件禁止特定页面和/或目录。(链接)
如果我不希望搜索引擎索引这些登录页面,我应该在 robots.txt 文件中放置一个页面条目,还是应该将它们放在特定目录中并禁止该目录?
我担心的是任何人都可以读取 robots.txt 文件,如果实际的页面名称在 robots.txt 文件中可见,它就达不到目的。
我想开始在营销活动中使用特定的登录页面。在 google 上的快速搜索显示了如何使用 robots.txt 文件禁止特定页面和/或目录。(链接)
如果我不希望搜索引擎索引这些登录页面,我应该在 robots.txt 文件中放置一个页面条目,还是应该将它们放在特定目录中并禁止该目录?
我担心的是任何人都可以读取 robots.txt 文件,如果实际的页面名称在 robots.txt 文件中可见,它就达不到目的。
“它违背了目的。” 怎么会这样?robots.txt 的目的是防止爬虫读取特定文件或文件组。就爬虫的行为而言,您是排除单个文件还是将它们全部放在一个目录中并排除该目录是无关紧要的。
将它们全部放在目录中的好处是您的 robots.txt 文件更小且更易于管理。您不必在每次创建新登录页面时都添加新条目。
没错,将文件名放入 robots.txt 可以让任何阅读该文件的人都知道该文件在那里。那应该不是问题。如果您有不希望其他人看到的敏感信息,那么无论 robots.txt 中是否提及,都不应访问这些信息。因为如果该文件是可公开访问的,那么即使您没有在 robots.txt 中提及它,机器人也会找到它。
robots.txt 只是一个指南。robots.txt 中禁止行的存在并不能阻止不友好的爬虫查看这些页面。它只是告诉爬虫您不希望他们查看这些页面。但爬虫可以忽略 robots.txt。他们不应该,如果他们这样做,你可以阻止他们,但 robots.txt 本身更像是一个停车标志而不是路障。
您应该能够简单地在页面的 HEAD 中使用 NOINDEX META 标签。