21

有没有人接触过 Apache Lucene 的特性?我听说它甚至可以与 Google Search Appliance (GSA) 媲美。如果可能的话,我正在寻找两者之间的明确比较?

在线提供的这些比较非常模糊。

4

1 回答 1

38

可能很难找到 Apache Lucene 和 Google Search Appliance 之间的比较,因为它们是如此不同。虽然 Lucene 是一个用于索引文档的软件组件,内置了基本相关性“增强”,但 GSA 是一个企业搜索产品(设备/物理硬件),具有许多开箱即用的功能,可以根据以下内容调整和优化搜索结果谷歌搜索算法

因此,它们基本上是两个具有不同实现场景的出色工具。但当然重叠,特别是如果用于在您的普通网站上提供搜索。

在我的脑海中,您可能想开始比较一些主题:

部署/架构

  • Lucene 是一个软件组件,可以深度集成到您自己的软件中,提供索引(通常基于文件,有时在内存中)以快速索引和检索内容。
  • lucene 项目提供了相当多的分析器列表来对不同的语言(西方语言、阿拉伯语、亚洲语言等)进行适当的索引,但分析器还有改进的空间
  • .Net 的 Lucene 是一个非常流行的端口,可以集成到 Microsoft .Net 平台上。
  • GSA 软件和硬件捆绑在一起并作为具有 HTTP(s) 接口的设备出售,以 HTML(通过其自己的 XSLT)或 XML(为了更好地集成到您的网站)提供搜索结果
  • GSA 附带语言包(已安装和可下载)。您必须选择其中一个捆绑包。如果您需要对更多语言的支持,您可能需要将另一个 GSA 添加到基础架构(如果所有必需的语言不在一个包中)
  • GSA 表现出色,几乎不需要维护
  • GSA 让您几乎无需任何工程工作即可进行扩展。全球分布,但可以通过 Web 界面设置连接的 GSA
  • GSA 可以通过购买更便宜的热备份模块来实现 HA

索引

  • Lucene 提供爬虫(和爬虫 API)来索引内容。它并不关心你的爬虫是否真的像谷歌那样爬取网站,或者你是否基于 SQL 语句爬取数据库或提供从平面文件中读取的文本流。但是如果提供的不符合您的需求,通常您必须实现爬虫
  • GSA 使用 Google 使用的爬虫技术,尊重 Robots 指令(在 TXT 或 Meta 标签中),它为无法爬取的源(即它们之间没有链接)提供提要 API,并支持对所有市长 DB 设置 SQL 查询用于从数据库中检索数据(无论是要抓取的 URL 还是数据本身)

检索/相关性调整

  • Lucene 不针对相关性调整,也没有很好的支持(除了提升索引中的条目)。由应用程序使用索引结果进行调整
  • Lucene 是 SOLR 使用的索引,它提供更类似于 GSA 的调优和架构(包括通过 HTTP(s) 检索结果)
  • GSA 让您根据元数据、日期和 URL 模式对结果集进行偏向。在最新版本中,您甚至可以设置自己的实体并根据它们对结果进行偏向
  • GSA 支持元数据的开箱即用方面以及其界面上的一些更花哨的东西,例如文档的预览图像、自动建议等。

商业的东西

  • Lucene 是开源(免费)产品,但需要购买硬件
  • 50 万个文档/URL 的 GSA 起价约为 2 万美元
  • Google 提供多种支持级别
  • GSA 许可证必须每 2 年或 3 年更新一次(您将获得新硬件)
  • GSA 不需要任何额外的硬件(包括设备)

...还有很多要补充的,但我希望你明白这一点。


2016 年 2 月更新:

Google 已通知合作伙伴 GSA 将在 2019 年左右停止使用。目前链接到的最佳站点似乎是http://fortune.com/2016/02/04/google-ends-search-appliance/

于 2013-05-30T21:28:11.720 回答