0

我有一个纯基于 GWT 的网站,我们知道搜索引擎无法索引纯基于 gwt 的网站。因此,我创建了一个备用网页,如下所示,它作为单独的 html 存储在 war 文件夹中。此网页的目的是收集和索引有关我的网站的详细信息。此页面从未显示在我的网站上,而是仅用于索引。指向此网页的 url 是 Sitemaps.xml 的一部分。因此,我假设以下 html 将被编入索引,因为它是站点地图的一部分。所以这是我的问题:

  1. 考虑到它被安排在加载时删除并且浏览器在加载时被重定向到另一个 url,我在 div 中给出的 id 为“crawler”的内容是否会被索引?

  2. 有没有更好的方法来为没有任何基于 html 的用户界面的纯 GWT 网站索引内容?

  3. 我还可以拥有将调用 servlet 并返回用于索引的响应的 url。但随后搜索结果中会显示相同的 url,这是没有用的。换句话说,我试图找出一种将内容编入索引的方法,但是当用户单击搜索结果时,他应该被重定向到主页而不是显示编入索引的内容。

<head>
    <script>
        function load(){
            element = document.getElementById("crawler");
            element.parentNode.removeChild(element);
            window.location.href='http://<mysite>.com';
        }
    </script>
</head>
<body onLoad='load()'>
    <div id="crawler">
                  <CONTENT TO BE INDEXED>......
            </div>
    </body>

正如您在此处看到的,包含所有用于索引的内容的 div(爬虫)在正文加载后立即被删除。除此之外,该页面还会在加载时重定向到网站的主页。

4

2 回答 2

0

爬虫将读取页面的全部内容以进行索引,因此它可以轻松抓取 div 中的部分。在读取页面之前,爬虫不会执行 onload。

我过去使用的一种方法是生成页面的静态 html 版本并通过 sitemap.xml 引用这些版本。然后,当用户点击链接(即:购买或规格)时,登陆 html 页面的用户将被引导到等效的动态页面。这适用于搜索引擎放置,其中许多页面出现在前十名中。

于 2013-05-16T18:44:47.050 回答
0

通知搜索引擎有关不可发现网站内容的最佳解决方案是创建一个 HTML 网站(就像您所做的那样)。如果您基于爬虫创建重定向,搜索引擎将不会喜欢您。我认为你必须用相关信息的内容填写你的 HTML 并添加

<link rel="canonical" href="https://gwtsite.com/exact_url"/>

标记到您网站的头部。这将通知搜索引擎另一个站点必须出现在 SERP-s 而不是 HTML 中。

于 2013-05-16T18:04:11.710 回答