我已经阅读了有关站点地图格式的 Google 文档,但有一件事他们并不清楚:搜索引擎会自动查找并找到 /sitemap_index.xml 还是您必须通过 /robots.txt 或 main 告诉他们/站点地图.xml?你能没有/sitemap.xml 并且仍然依赖 /sitemap_index.xml 来被发现和收获吗?
4 回答
在您的 robots.txt 中,您可以使用相同的语法指向站点地图或站点地图索引文件:
Sitemap: <location>
搜索引擎将通过查看文件知道它是什么类型。
值得注意的是,sitemap.xml 和 sitemap_index.xml 只是建议的文件名,您可以使用任何您想要的名称。与 robots.txt 的已知位置不同,搜索引擎不会检查任何位置,例如 sitemap.xml 或 sitemap_index.xml,除非您告诉它该位置有东西。
我已经阅读了很多关于这个问题的讨论,没有人知道谷歌是如何处理这个问题的。
有人说爬虫默认会查找这些文件:
- /sitemap.xml
- /sitemap.xml.gz
- /sitemap.gz
如果您阅读 Google 上关于他们经常谈论这些文件名的 xml-sitemaps 的文章,这是巧合吗?
也许这是真的,但是,我建议遵循 Google 指南并使用 robots.txt + 通过Google 网站管理员工具提交站点地图。
我认为网站管理员工具被低估了,它很有价值,您可以直接从 Google 接收信息,这些信息可以帮助您改进您的网站。
如果您不想每次都登录网站管理员工具以在站点地图更新时重新提交站点地图,您可以 ping Google 让他们知道更改。
ping Google 的链接:www.google.com/webmasters/tools/ping?sitemap=sitemap_url
更多信息在谷歌支持。
我可以确认,对于我刚刚调查的两个网站,网站管理员工具没有 sitemap_index.xml 或其链接站点地图的记录。
Both the sites I checked have been indexed by google for over a year, do not mention the sitemap in robots.txt, and are WordPress sites with the sitemap_index.xml auto generated by Yoast SEO. I just added the sitemaps manually in webmaster tools.