0

我在 1 和 1 共享服务器上托管了一个网站,我需要我的 ajax 加载内容才能被谷歌机器人抓取......该网站已准备好“hash-bang”,但现在我正在努力处理 escaped_fragment 部分。我必须安装 HtmlUnit、Node.js 或 Zombie.js 来帮助谷歌处理我的 javascript 事件。

现在我不明白在哪里安装这个软件在服务器上?

当我收集信息时,我意识到我可能必须将它托管在虚拟服务器 (VPS) 上才能访问根目录或安装库......我是对的吗?

我对将我的年度托管费用增加三倍只是为了帮助谷歌找到我的内容的想法并不高兴......你知道如何在共享主机上实现可抓取的 ajax 吗?

如果没有,有没有办法将这些库托管在其他地方,同时保持网站现在的位置?

我正在寻找实用信息,因为谷歌在这方面没有多大帮助,而且在线文章并没有真正进入托管部分。谢谢你的帮助!

4

1 回答 1

0

因此,您通过带有 hashbang URL 的 AJAX 提供博客文章。然后,您需要为支持爬网做的唯一事情就是处理 URL,_escaped_fragment_=work-stuff使它们以 HTML 形式返回与通过 AJAX 从相应的 hashbang URL 返回的内容相同的内容#!work-stuff

例如,让我们以您网站的以下 URL 为例:http://www.youpiemonday.com/#!arcena. 当浏览器导航到这里时,它会从以下“丑陋”的 URL 接收数据:http://www.youpiemonday.com/arcena/?_=1355151916735. 我认为足够做的是处理由爬虫生成的 URL,例如http://www.youpiemonday.com/?_escaped_fragment_=arcena,并将它们映射到您为“丑陋” URL 返回的相同内容。这样,您将为索引提供主要内容。

对于无头浏览器,如果您的页面是根据许多小型 AJAX 请求接收到的数据构建的,并且服务器上根本不存在整个页面表示(其主要内容),则将需要它。然后,您可以使用无头浏览器自己“浏览”此类页面,并将生成的页面快照存储在某个缓存中,爬虫可以从中获取纯 html 版本。

对我来说,查看网站后,答案是否定的——你不需要 VPS。

于 2012-12-10T14:08:07.863 回答