这是我要做的:
- 使该站点在某种程度上可以使用 javascript。如果您到处使用 ajax,请确保链接已将 href 设置为您将使用 ajax 的 url。这可能会使您的网站在没有 javascript 的情况下“有点”工作。
- 为机器人添加一些 .htaccess 重定向。将他们重定向到一些理智的地方,在那里他们可以访问一些链接并索引一些东西
您的网站在抓取能力和 SEO 方面可能非常糟糕。
编辑:好的,我看到了你的问题。爬虫在看到 noscript 里面的东西后被重定向了。
那么这个解决方案怎么样:
如果你只有一个页面有 noscript,那么你可以在你的 apache 配置中添加一些重写规则,这将向机器人显示页面的不同版本,并且这个版本不会有 noscript 标签。例如:
RewriteCond %{HTTP_USER_AGENT} Googlebot [OR]
RewriteCond %{HTTP_USER_AGENT} msnbot [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp
RewriteRule ^.*$ nometa.html [L]
另外,您使用的是什么技术?你使用任何服务器端语言,你甚至使用 apache 吗?我假设你有 apache+html 但没有服务器端语言。如果您确实有运行服务器端的东西,那么这更容易。