假设我们有 Twitter,并且每个个人资料都需要在搜索引擎中被索引,那么 Twitter 如何处理他们的站点地图?是否有类似“正则表达式”的域站点地图,或者他们是否为每个用户重新生成站点地图?
对于您不知道的页面,如此动态的页面,这是如何工作的?以维基百科为例,他们如何确保所有内容都被搜索引擎索引?
最有可能的是,他们不会费心制作站点地图。
对于高度动态的站点,站点地图不会有太大帮助。谷歌只会索引一些数量,如果在谷歌考虑重新访问它之前一切都变了,你不会获得太多收益。
对于缓慢变化的站点,这是不同的。站点地图一方面告诉 Google,哪些站点存在但它可能还没有访问过,并且(更重要的是)哪些站点没有改变,因此不需要重新访问。
但是该sitemap.xml
机制并不能扩展到像 twitter 这样的巨大且高度动态的网站。
许多系统使用动态生成的站点地图。
您可以通过网站管理员工具将任何站点地图上传到谷歌(该服务是免费的) - 优化 > 站点地图。它不必是 sitemap.xml;它也可以是 JSP 或 ASPX 页面。
网站管理员工具允许您为单个网站上传许多不同的站点地图。但是,我不确定站点地图的最大数量是多少。
一些爬虫支持一个Sitemap
指令,允许多个站点地图在同一个robots.txt
中,格式如下:
Sitemap: http://www.yoursite.com/profiles-sitemap.xml
Sitemap: http://www.yoursite.com/sitemap_index.xml
编辑
微软网站就是一个很好的例子:robots.txt文件包含很多站点地图条目。例子:
Sitemap: http://www.microsoft.com/en-us/sqlazure/sitemap.xml
Sitemap: http://www.microsoft.com/en-us/cloud/sitemap.xml
Sitemap: http://www.microsoft.com/en-us/server-cloud/sitemap.xml
Sitemap: http://www.microsoft.com/france/sitemap_index.xml
Sitemap: http://www.microsoft.com/fr/ca/sitemap.xml
Sitemap: http://www.microsoft.com/germany/kleinunternehmen/gsitemap.aspx
Sitemap: http://www.microsoft.com/germany/newsroom/sitemap.xml
如您所见,有些站点地图是静态的 (XML),有些是动态的 (ASPX)。