Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我知道搜索引擎为向用户提供搜索结果所采取的所有基本步骤,但有一点我不明白,那就是要抓取的网站列表的物理编译。像 googlebot 这样的程序如何获得他们将搜索的网站的实际列表?
这可能会因爬虫而异,但最有可能开始的地方是域注册。
像谷歌这样的搜索引擎经常通过从其他网站发现新内容来提供新内容。
例如,如果您有一个已经被抓取的网站并链接到一个新网站。当 Google 访问您的网站并看到新网站时,它也会开始为新网站编制索引。
另一方面,你也可以用新的网站ping谷歌来索引,所以它不仅是被动的,而且是主动的。