1

我有一个 Drupal 网站,其页面由 Google Mini 搜索设备索引。

本周早些时候,我注意到一堆链接被标记为索引,但被排除在外,因为有一个“打印此页面”链接返回到同一页面并且有一个 rel="nofollow"。两天前,我把nofollow 拿出来,让GSA 重新索引该网站。

现在,有问题的页面在 GSA 中被标记为已编入索引,但它们并未显示在网站的搜索结果中。

我可以在 /search/google_appliance/TERM 进行搜索,但它们没有出现。当我搜索其他术语时,它们确实出现了。换句话说,我知道 GSA 正在工作。

当我在 /search/node/TERM [Drupal 默认搜索] 进行搜索时,我得到了不同的 Drupal 结果[显示了该术语的页面]。这让我很确定我正在击中 GSA。

关于为什么新编入索引的页面没有出现在 GSA 搜索中的任何想法?

编辑/已解决:有几个问题。以前,搜索使用 xslt 来处理它如何显示页面,以及当您点击提交时它在页面上发送查询的位置(在设备上,而不是网站上的提交按钮)。查询字符串以旧格式传递给站点,然后给出 404(就像您搜索 bookstore.site.com 和 origin.site.com 一样)。更多的是“无法从这里到达那里”之类的问题,而不是与搜索有关的任何问题。我删除了 xslt,所以它只使用了默认的 google 外观,让我们可以对设备的数据库进行很好的通用搜索。

但是,仍然返回了一些 Drupal 模块无法解析的奇怪搜索结果,并且日志被 simplexml_load_string() [function.simplexml-load-string]: ^ in \sites\all\modules\google_appliance\GoogleMini .php 在第 318 行。

我尝试了一些查询字符串变量并注释掉设置输出编码的行,一切似乎都有效。有问题的行位于第 322 行的 google_appliance.module 中:

$gm->setOutputEncoding('utf8');
4

2 回答 2

2

我不是 100% 确定我的问题是正确的。我在这里假设:

  1. GSA 缺少索引的是有“打印此页面”链接的页面(而不是假设这些页面已编入索引并且问题在于索引此类页面的可打印版本)
  2. 以下位意味着您可以找到包含其他术语的其他页面,而不是如果您使用另一个术语搜索它们,您可以找到丢失的页面。

我可以在 /search/google_appliance/TERM 进行搜索,但它们没有出现。当我搜索其他术语时,它们确实出现了。换句话说,我知道 GSA 正在工作

如果我误解了你的问题,请纠正我。如果我弄错了,请提供有关您使用的条款的更多详细信息。

然而,这就是 II 用来确定问题根源的方法(尽管我可能不会按照这个精确的顺序执行这些操作):

  1. 我会尝试了解触发奇怪行为的“坏页面”(如果有的话)的独特元素是什么。看来您已经完成了一些挖掘工作,并认为罪魁祸首是打印链接。您是否通过完全删除链接来验证这一点,并查看在这种情况下页面是否被正确编入索引?
  2. 我会检查是否有任何规则robots.txt可能会干扰索引。GSA 支持该文件,例如,如果您的网页 URL 以 开头/admin/,则将跳过这些网页。
  3. 我会检查我的页面是否有某种访问控制限制他们的视图。如果是这种情况,我会检查GSA 是否已为此配置。(当然,这同样适用于未发布的页面,您必须是管理员才能使用外部应用程序查看或索引它们)。
  4. 我不确定 GSA 是否用于sitemap.xml执行索引。但是,我会检查 drupal 生成的sitemap.xml文件(如果有)以检查明显的错误,例如将优先级设置为 0。如果您没有这样的文件,并且知道 GSA 使用它,我会尝试使用适当的模块生成一个,看看这是否能解决问题。
  5. 我会检查 GSA 生成的站点地图,看看它是否也显示出任何明显的异常。这显然不是问题,但任何类型的不言自明的异常都可以让你走上正轨。
  6. 如果问题不是特定于页面结构(请参阅此列表的第 1 点),我将开始系统地搜索产生错误的非结构元素是什么。不同的主题是否可以解决问题。停用给定模块是否可以解决问题?(也许问题出在元标记上?也许是“打印此页面”模块?也许一个模块将这些页面的语言设置为与站点其余部分不同的语言?)。所有这些都是相当不可能的可能性,但在用大锤砸倒 GSA 之前,我也会尝试这样做。
  7. 我会检查(可能是第 N 次)我的 GSA 的所有设置

以上所有——如果我有机会——我会和同伴一起做。他或她可以帮助排除“人为因素”作为问题的根源(即配置面板中的那个小复选框对他/她来说非常重要,但您以前从未注意到......)。

如果您设法找到有关正在发生的事情的更多提示,请在此处报告。如果这是 drupal 方面的问题,我很确定我或其他在 SO 上闲逛的优秀“drupalists”将能够提供帮助。

于 2009-12-02T21:14:53.073 回答
0

我最近在与类似的事情作斗争。

这里有一个建议——选择一个你知道有搜索词的页面。在浏览器中打开页面的 HTML 并确保您看到该术语。绝对确定。

接下来,获取该 URL 并将其作为爬网的起始页面之一。

爬网后,进入搜索诊断并深入到该页面。你看到它爬了吗?好的,太好了,现在去看看页面的缓存。“指向此页面的链接”正下方应该是一个名为“缓存版本”的超链接。看那个。你可能会大吃一惊!我当然是。

于 2009-12-07T15:51:57.143 回答