0

我试图了解 Google CSE(自定义搜索引擎)在做什么。我使用免费版本并提交一个sitemap.php.

谷歌 CSE 采用这个并索引 200(2500 页)。我前段时间做过这个,并且开始怀疑它是否会索引其余部分。

如果我查看 Google 网站管理员工具,相关网站的仪表板显示 200 个页面已编入索引。

如果我查看谷歌网站管理员工具,索引状态它告诉我有 0 个页面被索引。这对我来说看起来不正确。200是我现在猜对的,但我真的不知道。

我怀疑这些差异是由于谷歌之前知道该网站。但是,sitemap.php如果没有此文件,则无法找到指向页面的点。

我开始怀疑这是否会起作用。Google CSE 以前有时返回 0,有时返回很多命中。我无法理解发生了什么,这就是我添加此站点地图的原因。站点地图以一种我认为更适合 Google 的新方式呈现相关页面。(相同的页面在http://zotero.org/上也有不同的形式。)

关于我可以做些什么来让这个搜索工作的任何建议?(我正在考虑使用 OpenSearchEngine,但目前我没有可以运行 Java 的虚拟主机。这是一个免费项目,在我的业余时间,所以我没有很多经济资源。也许我可以让 Apache Lucy 工作,但我不确定。我尝试在 Cygwin 下编译它,但由于gcc-4perl 5.18 中修复的 -link 问题而失败,但 Cygwin 只有 5.14。当然运行Linux,但是对于Lucy来说看起来有点早。也许我错了?)

4

1 回答 1

0

每个免费的自定义搜索引擎都分配了 200 个页面的配额,用于立即索引: https ://support.google.com/customsearch/answer/115958?hl=en

但是,我认为按需索引可能不是您想要的,您只是希望 CSE 可以搜索您的 2.500 个 URL(而不是尽快抓取)。这可能是问题所在:“如果我查看 Google 网站管理员工具,索引状态会告诉我 0 个页面已编入索引”。

如果您的网站没有被 Google 索引,因此它没有出现在 www.google.com 结果中,那么您可能还不能使用 CSE。site:您可以使用运算符 - https://www.google.com/webhp#q=site%3Azotero.org(以及在 Google 网站管理员工具,索引状态中,如您所说)查看您已编入索引的页面数。

我认为您应该在网站管理员工具中提交站点地图,并确保您的网站易于抓取(页面加载良好,并且它们是相互链接的,导航是用纯 HTML“硬编码”而不是由 JavaScript 生成的,或者您提供了 AJAX HTML 快照等),并且没有技术问题(如无效robots.txt文件等),当您site:your-domain.com在 www.google.com 上搜索时看到您的 2.500 个页面时,它们也会自动出现在您的 CSE 上。

于 2014-11-29T19:00:42.087 回答