1

我猜像堆栈溢出这样的网站不会为每个问过的问题保留一个 html 文件。相反,每次单击问题时,服务器端代码都会创建页面(我认为)。搜索引擎是否可以索引 Stack Overflow 上的每个问题,或者是否需要将每个问题的页面保存在目录中以便搜索引擎可以抓取它?

4

7 回答 7

4

是的。搜索引擎可以索引动态生成的页面没问题。事实上,从搜索引擎机器人的角度来看,它甚至无法真正区分动态生成的页面和静态页面。

于 2009-10-06T17:26:24.630 回答
1

您可能会对Google 官方网站管理员中心博客上的动态 URL 与静态 URL帖子感兴趣。

于 2009-10-06T17:41:36.720 回答
0

是的,这完全有可能——当一个链接被点击时,服务器会像任何其他网页一样返回 HTML。唯一的区别是服务器生成它,而不是一个人。

于 2009-10-06T17:25:17.960 回答
0

就客户端(无论是浏览器还是搜索引擎)而言,服务器生成的页面和静态文件没有区别。它们几乎无法区分(取决于页面的生成方式,它可能缺少Last-Modified标题等)。因此,是的,搜索引擎可以毫无问题地索引生成的页面。

话虽如此,给他们一些暗示还是有话要说的。例如,使用站点地图可以让搜索引擎很好地列出您的所有页面,因此不太可能错过它们。更重要的是,它可以总结最近的修改时间,将搜索引擎的注意力集中在最近发生的变化上。这不是强制性的,但它确实有帮助 - 无论页面是静态 HTML 还是生成的。

于 2009-10-06T17:27:35.367 回答
0

大多数爬虫都可以跟踪任何使用 GET 的链接。任何需要 POST 的东西通常都会被忽略。

生成页面的机制无关紧要。

于 2009-10-06T17:29:07.153 回答
0

是的,如果这不受robot.txt或元标记的限制。搜索引擎像普通用户一样请求网页,没有人可以访问服务器端代码(如果您的网站没有被黑客入侵))

于 2009-10-06T17:30:08.340 回答
0

搜索引擎几乎可以看到给定网页上没有隐藏在客户端代码(即 JavaScript)后面的任何内容。

因此,如果您可以在浏览器的地址栏中输入一个 URL 来获取该页面,并且该页面是从某个地方链接到的,那么搜索引擎会找到它并“看到”与您相同的内容。该页面是由服务器动态生成的这一事实与搜索引擎无关,因为在请求 URL 时发送到浏览器的内容仍然只是一个 HTML 文件。

换句话说,该 HTML 文件在服务器上并不以相同的形式存在——也就是说,它实际上是一些生成 HTML 的服务器端代码,而不是静态 HTML 文件——但这不是搜索引擎正在抓取和索引的内容,而不是指向与您在浏览器地址栏中看到的完全相同的文档 URL 的链接。

于 2009-10-06T17:31:04.593 回答