1

我对 Google AdSense 机器人的算法和网站行为很感兴趣。我没有使用 AdSense,也没有帐户。所以我需要你的帮助来理解:

1) Gbot 不时从网站下载所有页面。我对吗?

2) Gbot 不理解动态内容(由 ajax 加载)。所以我必须生成静态内容并在 html 页面中返回它,这个页面必须为所有用户和 Gbot 显示相同的内容?

3)由于(1)和(2)我不能只使用带有一些“主”小部件的根路径http://example.com 。我必须生成独特的页面,例如http://example.com/thread?id=101

4) Gbot 下载页面 (1) 以从中获取(索引)关键字,然后存储(在其服务器上)这些信息,例如通过键/值(其中键是页面路径,值是标签云)。我对吗?

5) 当用户在浏览器中打开网站时。集成 html AdSense 的代码会加载一些 JavaScript。正如我通过“谷歌搜索”了解的那样,这个 JavaScript 不会索引页面,而是调用(带有一些参数 key==page_path)到 Google 的服务器并获取适当的广告链接。然后在其框架中显示此广告链接。是正确的行为吗?也许 JavaScript 会对页面内容进行一些本地索引?

6) Gbot 和 AdSense 的 JavaScript 如何使用 cookie?据我了解,AdSense 可以使用 cookie 来显示适当的广告链接。如果是对的,请给我一些用例;)

我知道“真正的”算法只有 Google 的工程师知道。但是你们中的一些人有使用 AdSense 和 AdSense html/javascript 的经验。请纠正我对它的看法;)

非常感谢您的任何建议!!!

PS这个问题对我来说很重要。这不是一个有趣的问题!所以请不要关闭它;)

4

1 回答 1

3

1) 是的,如果 Googlebot 可以访问这些页面并且它是否通过链接、XMLSitemaps、Google +1 等了解这些页面。

2) Googlebot 现在将发出 AJAX / XHR 请求以了解 AJAX 内容 (http://googlewebmastercentral.blogspot.com/2011/11/get-post-and-safely-surfacing-more-of.html)。

是的,您应该向 Googlebot 显示与用户相同的内容,否则这将被视为伪装,这违反了他们的准则。

3)这个问题不清楚。但基本上最好更改 URL,因为 Google 会知道如何单独索引内容。如果您使用的是 AJAX,那么您可能需要像您建议的那样考虑永久链接,或者您可以使用 HTML5 popstate。

4) 是的,谷歌会将页面上的单词编入索引。我不确定他们将其存储为键/值对。我什至不确定他们是否仍在使用 Big Table (http://labs.google.com/papers/bigtable.html) ...但他们很可能使用 Big Table 或类似的系统来存储倒排索引.

5) Adsense 代码是嵌入的 Javascript ......对于谷歌以前从未见过的新网页,它会尝试根据它在网络上找到的关于该网站的信息或可能通过链接指向的锚文本来提供最相关的广告到那个页面。但是,为了更准确地了解页面内容,Google 会发送一个特定于 AdSense 的机器人来抓取您的页面……有时您会发现它来得非常快,即使您第一次加载页面时也是如此时间。它使用与传统 Googlebot 不同的用户代理...您可以在此处找到来自 Google 的所有用户代理 (http://www.google.com/support/webmasters/bin/answer.py?answer=1061943)

6) 谷歌的爬虫不接受cookies,也不会将cookies传回您的服务器。这与 Google 爬虫的大规模分布式特性有关,这使得维护 cookie 或会话变得极其困难。

于 2011-11-04T06:01:06.723 回答