12

搜索引擎机器人使用什么作为起点?是 DNS 查找还是从一些固定的知名站点列表开始?有什么猜测或建议吗?

4

3 回答 3

8

您的问题可以用两种方式解释:

您是在问搜索引擎一般从哪里开始抓取,还是从哪里开始抓取特定网站?

我不知道大玩家是如何运作的;但是,如果您要制作自己的搜索引擎,您可能会将其植入流行的门户网站。 DMOZ.org似乎是一个受欢迎的起点。由于大玩家拥有的数据比我们多得多,他们可能从不同的地方开始爬网。

如果您询问 SE 从何处开始抓取您的特定网站,这可能与您的哪些页面最受欢迎有关。我想如果你有一个超级受欢迎的页面,很多其他网站都链接到,那么这将是 SE 开始进入的页面,因为来自其他网站的入口点太多了。

请注意,我不在 SEO 或任何其他领域;我刚刚为我正在进行的一个项目研究了一段时间的 bot 和 SE 流量。

于 2008-09-03T11:07:26.487 回答
4

您可以使用他们的网站提交表单将您的网站提交给搜索引擎- 这将使您进入他们的系统。当你真正被抓取之后,这是不可能的 - 从经验来看,最初的抓取通常需要一周左右的时间(主页,其他几个页面 1-link deep from there)。您可以使用清晰的语义链接结构并提交站点地图来增加被抓取和索引的页面数量- 这些允许您列出所有页面,并相对于彼此对它们进行加权,这有助于搜索引擎了解您查看的重要性网站的每个部分相对于其他部分。

如果您的网站是从其他被抓取的网站链接的,那么您的网站也会被抓取,从链接的页面开始,最终传播到您网站的其余部分。这可能需要很长时间,并且取决于链接网站的抓取频率,因此 url 提交是让 google 了解您的最快方式!

我不能高度推荐的一种工具是Google Webmaster Tool。它允许您查看您被抓取的频率、googlebot 偶然发现的任何错误(断开的链接等),并且其中包含许多其他有用的工具。

于 2008-09-03T10:55:09.230 回答
2

原则上,它们从零开始。只有当有人明确告诉他们包含他们的网站时,他们才能开始抓取该网站并使用该网站上的链接进行更多搜索。

然而,在实践中,搜索引擎的创建者会放入一些他们能想到的任意网站。例如,他们自己的博客或书签中的网站。

理论上,人们也可以随便挑选一些地址,看看那里是否有网站。不过,我怀疑有人这样做;上述方法可以正常工作,并且不需要额外的编码来引导搜索引擎。

于 2008-09-03T11:00:49.670 回答