0

商业搜索引擎爬虫如何遍历网络:“识别种子页面并通过连接的链接找到其他页面”或“索引网站wwwroot目录下的每个文件。”

在以后的选项搜索引擎的情况下,甚至应该有索引的东西没有被任何其他页面引用?

4

1 回答 1

1

必须存在引用。有可能

  • 允许索引的常规 HTML href
  • sitemaps.xml 中的链接
  • robots.txt 中的链接允许爬虫使用
  • 网站管理员在其搜索引擎后台提供的参考
  • 等等

它可以是任何其他链接。

于 2012-06-22T20:23:02.810 回答