我有 2 个关于爬虫和机器人的问题。
背景资料
我只希望将 Google 和 Bing 排除在“不允许”和“无索引”限制之外。换句话说,我希望除 Google 和 Bing 之外的所有搜索引擎都遵循“禁止”和“禁止索引”规则。此外,我还想要我提到的搜索引擎的“nosnippet”功能(都支持“nosnippet”)。我使用哪个代码来执行此操作(同时使用 robots.txt 和 X-Robots-Tag)?
我想在 robots.txt 文件和 htacess 文件中都有它作为 X-Robots-Tag。我知道 robots.txt 可能已过时,但我希望向爬虫提供明确的说明,即使它们被认为“无效”和“过时”,除非您另有想法。
问题 1
我是否获得了以下代码以仅允许 Google 和 Bing 编制索引(以防止其他搜索引擎在其结果中显示),此外,还阻止 Bing 和 Google 在其搜索结果中显示片段?
X-Robots-Tag 代码(这是正确的吗?不要认为我需要将“index”添加到 googlebot 和 bingbot,因为“index”是默认值,但不确定。)
X-Robots-Tag: googlebot: nosnippet
X-Robots-Tag: bingbot: nosnippet
X-Robots-Tag: otherbot: noindex
robots.txt 代码(这是正确的吗?我认为第一个是,但不确定。)
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow:
User-agent: *
Disallow: /
或者
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow:
问题 2:robots.txt 和 X-Robots-Tag 之间的冲突
我预计 robots.txt 和 X-Robots-Tag 之间会发生冲突,因为不允许函数和 noindex 函数一起工作(使用 X-Robot-Tag 代替 robots.txt 有什么优势吗?) . 我该如何解决这个问题,您的建议是什么?
最终目标
如前所述,这样做的主要目标是明确告诉所有较旧的机器人(仍在使用 robots.txt)和除 Google 和 Bing 之外的所有较新的机器人(使用 X-Robots-Tag)不要在他们的搜索中显示我的任何页面结果(我假设在 noindex 函数中进行了总结)。我知道他们可能并不都遵循它,但我希望他们都知道,除了 Google 和 Bing 不会在搜索结果中显示我的页面。为此,我希望为 robots.txt 代码和 X-Robots-Tag 代码找到正确的代码,这些代码对于我正在尝试构建的 HTML 站点的此功能不会发生冲突。